💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 人間が勝てない時代

2016年3月、李世乭（イ・セドル）はAlphaGoに1勝4敗で敗れた。多くの人が「もう囲碁は終わった」と言い、実際に終わった。2017年、AlphaGo Zeroは人間の棋譜をゼロにして自己対戦のみでAlphaGoを上回り、同年AlphaZeroは同じアルゴリズム一つでチェス・将棋・囲碁を制覇した。2019年にはMuZeroが「ゲームのルールを知らないまま」同じことをやってのけた。

チェスも同様だ。**Stockfish 17**は人間の世界チャンピオンをどの時間設定でもほぼ100%倒す。Stockfish vs Leela Chess Zero (Lc0)のTCEC決勝戦は、人間が観戦者となる大会だ。スマホで動くStockfishですら人間のグランドマスターを倒す。

しかしゲームAIはチェス・囲碁だけではない。**Pluribus**（Meta 2019）は6人ノーリミット・テキサスホールデムで人間プロを破り、**Cicero**（Meta 2022）はDiplomacyで自然言語による同盟・裏切りの交渉を行い上位10%に入った。**AlphaStar**はStarCraft 2で、**OpenAI Five**はDota 2で、**Suphx**は麻雀で、そして2024年の**AlphaProof + AlphaGeometry**は国際数学オリンピック（IMO）で銀メダルレベルを記録した。

この記事は2026年時点で「どのゲームAIがどこまで来ていて、何をどうやっているか」を1か所にまとめる。単なる年代記ではなく、アルゴリズム（MCTS / NNUE / 自己対戦 / CFR / モデルベースRL）の観点で同じ系統をグループ化する。

1章 · 2026年ゲームAIの地図 — 4分類

ゲームAIをきれいに切る一本の軸は、**情報の完全性**と**プレイヤー数**だ。

| 分類 | 情報 | 人数 | 代表ゲーム | 代表AI |

| --------------------- | --------------- | ----- | --------------------- | ------------------------------------------- |

この軸が重要なのは**アルゴリズムが変わるから**だ。

- **完全情報の2人ゼロ和**ではミニマックスが効く → α-β（Stockfish）か MCTS + ニューラルネット（Lc0, KataGo, AlphaZero）。

- **不完全情報**ではミニマックスが破綻する → CFR（反実仮想後悔最小化）系統が標準。LibratusとPluribusがその系譜。

- **多人数＋言語＋協力**は上のどれも効かない → Ciceroのように強化学習＋LLMの融合が必要。

- **リアルタイム**では時間そのものが行動 → ポリシーネット＋分散自己対戦（AlphaStar, OpenAI Five）。

この地図を頭に入れて、次章から1種ずつ見ていく。

2章 · Stockfish 17 — チェスの最強

**Stockfish**は2008年から開発が続くオープンソースのチェスエンジンだ。C++、GPL v3ライセンス、[github.com/official-stockfish/Stockfish](https://github.com/official-stockfish/Stockfish)で開発されている。2026年現在の最新安定版が**Stockfish 17**で、CCRLとTCECの両方で1位を維持している。

何が変わったか — α-β + NNUE

伝統的なStockfishは**α-β剪定＋多数のヒューリスティック**（null-move pruning, late move reductions, futility pruningなど）を使っていた。評価関数は手作りのチェス知識 — ポーン構造、キング安全、機動力など。

**Stockfish 12（2020）**から**NNUE（Efficiently Updatable Neural Network）**が導入された。日本将棋コミュニティ（やねうら王グループ、特に那須悠）が考案した構造で、**小さなニューラルネットをCPU上で高速評価**するのが核心だ。GPUは不要、1手ごとにネット全体を再計算せず変化分だけ更新 → 「Efficiently Updatable」。

Stockfish 17の主な特徴:

- **NNUEが標準**。手作り評価関数はフォールバック程度。

- 探索は依然としてα-βベース — Lc0のMCTSとは対照的。

- マルチスレッドが非常によくできていて、128コアでもほぼ線形にスケール。

- スマホでも動く — iPhone 16 Proで毎秒数十万ノード。

実行方法

Linux / macOS — パッケージマネージャでインストール

brew install stockfish # macOS

sudo apt install stockfish # Debian / Ubuntu

または直接ダウンロード: https://stockfishchess.org/download/

UCIモードで実行

stockfish

UCIセッションの例

uci

id name Stockfish 17

id author the Stockfish developers

...

uciok

position startpos moves e2e4 e7e5

go depth 20

info depth 20 seldepth 28 multipv 1 score cp 31 nodes 1234567 ...

bestmove g1f3 ponder b8c6

Stockfishはチェスを解いたか

「解いた」の強い意味では**まだ違う** — チェスのゲーム木は約$10^{120}$、完全解は不可能。だが弱い意味では事実上「解けた」と言える — どんな時間設定でも人間はStockfishに勝てない。世界チャンピオン（2024年Ding Liren、2025年からGukesh Dommaraju）も同様だ。

3章 · Leela Chess Zero (Lc0) — ニューラルネット系チェスエンジン

**Leela Chess Zero**（Lc0）はAlphaZero論文（2017）を読んだ人たちが「うちらもやってみよう」と始めたオープンソースプロジェクトだ。[lczero.org](https://lczero.org/)、[github.com/LeelaChessZero/lc0](https://github.com/LeelaChessZero/lc0)。

Stockfishとの違い

| 項目 | Stockfish 17 | Leela Chess Zero (Lc0) |

| ------------ | ---------------------------------- | ---------------------------------- |

| 探索 | α-β + ヒューリスティック | MCTS（PUCT） |

| 評価 | NNUE（小型NN、CPU） | 大型NN（CNN / Transformer、GPU） |

| ハードウェア | CPU中心、マルチコア | GPU中心、NVIDIA RTX 5090が人気 |

| 学習 | 無し（評価器のみ訓練） | 自己対戦で1から学習 |

| 毎秒ノード数 | 数百万~数千万 | 数万~数十万 |

| スタイル | 戦術的、計算重視 | 位置的、直感的 |

**Lc0はノード効率（1ノードあたりどれだけ深く理解しているか）が圧倒的に高い。** Stockfishが毎秒1,000万ノード見るのに対し、Lc0は10万ノードしか見ない — それでも同程度の強さに到達する。理由はニューラルネットが「どの手が有望か」を事前に教えてくれるから（ポリシーネット＋バリューネット）。

学習 — 分散自己対戦

Lc0は**数万人のボランティアがGPU時間を寄付する分散自己対戦プロジェクト**だ。各クライアントが1試合プレイして結果をサーバーにアップロードし、それが学習データになる。RTX 5090なら1時間に数十試合、累積学習試合数は**数十億**を超える。

Lc0をビルドしてネットワークウェイトを取得

git clone https://github.com/LeelaChessZero/lc0

cd lc0

./build.sh

ウェイトは https://lczero.org/play/networks/bestnets/ にある

BT5やBT4シリーズが強い

誰がLc0を使うか

- TCEC（Top Chess Engine Championship）でStockfishの永遠のライバル。

- カールセン、カリャーキン、カルアナら一流棋士のオープニング準備。

- ChessBase経由のデータとして。

4章 · Komodo Dragon 3 — 商用チェスエンジンの最後の雄

**Komodo Dragon**はDon DaileyとLarry Kaufmanが作ったチェスエンジン。2018年にchess.comが買収、2026年現在は**Komodo Dragon 3**。商用エンジン（年間サブスクリプション）だが、chess.comの分析ツールのデフォルトエンジンなので実質1日数億回呼び出されている。

特徴

- **NNUEを早期に採用**（Dragon 1、2021）。

- **位置的スタイル** — Kaufmanは元GM、その影響か人間が見て「人間らしい」手を出す。

- マルチPV分析で人間が理解できる変化を出してくれる → コーチング用途で便利。

- Stockfishよりやや弱いが、確実にトップ3。

Stockfishが無料・オープンソースなのに、なぜ商用を使うのか

- chess.comのような商用サービスは安定したライセンスとサポートが必要。

- 「人間を教える」分析ではKomodoの直感的評価が役に立つ。

- chess.com Insightsの定跡分析はKomodoが標準。

5章 · AlphaZero → MuZero — DeepMindライン

AlphaZero (2017) — 1つのアルゴリズムで3つのゲーム

[Silver et al., 2017, "Mastering Chess and Shogi by Self-Play..."](https://arxiv.org/abs/1712.01815)。

- **MCTS + 深層ニューラルネット**（ポリシー + バリュー）。

- **完全に自己対戦のみで学習** — 人間棋譜ゼロ。

- **チェス・将棋・囲碁**すべて同じアルゴリズムで解いた。

- 学習後にStockfish 8を100戦で28勝0敗72分（2017年時点 — その後StockfishがNNUEで追いついた）。

- TPU 5,000台 + TPU 64台で数日学習。

AlphaZeroが変えたもの

これまでチェスエンジンは**チェス知識を人間がコーディング**していた。ポーン構造、キング安全、ダブルルーク、ビショップペア — すべて元GMの開発者が書いたヒューリスティックだ。AlphaZeroは**それをすべて捨て、自己対戦のみで同レベルに到達**した。これが衝撃だった。

MuZero (2019) — ルールを知らないとき

[Schrittwieser et al., 2019, "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"](https://arxiv.org/abs/1911.08265)。

- AlphaZeroは**ゲームのルールを知っている**（ある手を打った後の盤面が分かる）。

- MuZeroは**ルールを知らない** — 「次の盤面」を**ニューラルネット自身が予測する**。

- なのでAtariのようなピクセルゲームにもそのまま適用可能 → 同じアルゴリズムでボードゲーム＋Atariを征服。

- 後にEfficientZero（2021）、Stochastic MuZero（2022）に拡張。

コード

DeepMindから公式のオープンソースは無いが、有名な再実装がある:

- **OpenSpiel**（[github.com/deepmind/open_spiel](https://github.com/deepmind/open_spiel)） — DeepMind公式のゲームRLフレームワーク。AlphaZeroベースを含む。

- **muzero-general**（[github.com/werner-duvaud/muzero-general](https://github.com/werner-duvaud/muzero-general)） — 人気のPyTorch実装。

6章 · Maia — 人間らしいチェス（MS Research + Toronto）

多くのエンジンは「最強の手」を打つ。**Maia**はその正反対 — **人間が打ちそうな手**を打つ。

- 開発: **Microsoft Research + University of Toronto**（Reid McIlroy-Young, Siddhartha Sen, Jon Kleinberg, Ashton Anderson）。

- 論文: [KDD 2020, "Aligning Superhuman AI with Human Behavior"](https://arxiv.org/abs/2006.01855)。

- GitHub: [github.com/CSSLab/maia-chess](https://github.com/CSSLab/maia-chess)。

作り方

- lichessの匿名人間棋譜データで学習 — **各ELO帯ごとに別モデル**。

- maia-1100, maia-1500, maia-1900など — 数字は学習対象のELO。

- AlphaZero風CNN、MCTSは1ノード（ポリシー出力のみ）。

- 結果: maia-1500は**1500ELOの人間が最もよく打つ手を最もよく打つ**。

なぜ重要か

- **チェスのコーチング**: 生徒のELOに合わせて「この局面ならあなたくらいの人は普通こう打つ」と教えられる。

- AI安全研究の小さなケース: 「最強のAI」ではなく「人間と整合したAI」が必要な領域。

- **人間との対戦**: lichessのMaiaボットは、人間が対戦するのに最も自然な相手の一つ。

7章 · KataGo — 囲碁分散学習の頂点

チェスにLc0があるなら、**囲碁にはKataGoがある**。

- 開発者: David Wu（個人スタート → 分散学習へ拡大）。

- GitHub: [github.com/lightvector/KataGo](https://github.com/lightvector/KataGo)。

- AlphaZero風だが、**学習効率の改良が多数**入っていて、同じ計算量でより強い。

AlphaGo Zeroより強いか

- AlphaGo Master（2017）は李世乭バージョンのAlphaGoよりずっと強かった。

- AlphaGo Zero（2017、社内完結）はMasterよりさらに強かった。

- KataGoは分散学習で**そのAlphaGo Zeroレベルをオープンソースで再現**し、その後さらに強くなった。

改良点

1. **スコアベースの報酬モデリング** — 「何目差で勝ったか」を直接学習 → 終盤で人間が理解しやすい手。

2. **複数の盤サイズ**を1つのネットワークが扱う（9x9, 13x13, 19x19）。

3. **置碁**や非公式ルール（中国式・日本式数え方）。

誰がKataGoを使うか

- ほぼ全てのプロ棋士が分析ツールとして使う。

- 韓国・中国・日本の主要研究所がKataGoを動かしている。

- 人気GUI: **Lizzie**, **KaTrain**, **Sabaki**。

そしてLeela Zero（囲碁）

**Leela Zero**はKataGo以前の分散囲碁プロジェクトで、Lc0の囲碁版。2017~2019年、AlphaGo Zero論文をオープンソースで再現した。後にKataGoのほうが効率的だったのでボランティアが移行し、実質終了。だが**AlphaGo Zeroのレベルを外部から初めて再現した**という歴史的意義がある。

8章 · AlphaGo — 2016年のあのシリーズ

2026年からするとAlphaGoは「歴史」だが、ゲームAI年代記の分岐点だ。

AlphaGoラインナップ

| バージョン | 年 | 特徴 | 結果 |

| ----------------- | ------- | ----------------------------------------- | ------------------------------------- |

| AlphaGo Lee | 2016 | より大きなポリシーネット、分散推論 | **李世乭4-1** |

李世乭の第4局、78手目

2016年3月13日の第4局。李世乭は78手目に「神の一手」（divine move、2石の間に割り込む）を打った。AlphaGoの評価関数はこの手をほぼ0%の確率で予測しており、その後形勢を誤判断、李世乭が勝った。**人間がトップの囲碁AIに勝った最後の公式対局として記録されている**（2025年現在まで）。

李世乭は2019年に引退、「AIに勝てないゲームを続ける理由がない」という趣旨の発言をした。韓国社会においてAlphaGoは単なるAI事件ではなく、**「李世乭の第4局」**として記憶されている。

9章 · Pluribus — 6人ポーカーの征服（Meta 2019）

チェス・囲碁は完全情報ゲームなのでミニマックスが効く。**ポーカーは違う** — 相手のカードは見えないし、運があるし、ブラフはゲームの一部だ。

- 論文: [Brown & Sandholm, 2019, "Superhuman AI for multiplayer poker"](https://www.science.org/doi/10.1126/science.aay2400)（Science）。

- 開発: Facebook AI Research（現Meta） + カーネギーメロン大学。

中核アルゴリズム — モンテカルロCFR + 深さ制限探索

- **CFR (Counterfactual Regret Minimization)**: 不完全情報ゲームの標準学習アルゴリズム。「もしこの時点で別の行動を取っていたらどれだけ後悔したか」を累積して戦略を更新する。

- **Blueprint strategy**: オフライン自己対戦で巨大な「基本戦略」を学習。約8日間、12,400 CPUコア。

- **リアルタイムの深さ制限探索**: 対局中は数手深さだけ再計算。1ハンドあたり約20秒。

何が衝撃だったか

- ヘッズアップ（2人）ポーカーは2017年にLibratusがすでに人間を破っていた。

- **6人は次元が違う問題** — 多エージェント、連携の可能性、サイドベット。CFRの収束理論が弱い。

- Pluribusは**理論的保証なしに**人間トッププロに統計的有意差で勝った（13人のプロ、1万ハンド）。

- **1日約1,000ドルのクラウドサーバー**で動いた — AlphaZeroのようなスパコンは要らない。

人間が見て衝撃的だった行動

- **ランダム化されたベットサイズ** — 同じハンドでも毎回ベット額が違う → 相手にハンドが読まれない。

- **ドンクベット** — 人間プロがほとんど使わなかった手をPluribusは頻用。

- **ゲーム理論的に最適なブラフ頻度** — 多すぎず少なすぎず。

10章 · Cicero — Diplomacy（Meta 2022）

Pluribusが「数学的に難しい」ゲームを解いたなら、**Cicero**が解いたDiplomacyは**言語と人間交渉が難しい**ゲームだ。

- 論文: [Bakhtin et al., 2022, "Human-level play in the game of Diplomacy by combining language models with strategic reasoning"](https://www.science.org/doi/10.1126/science.ade9097)（Science）。

- 開発: Meta AI。

Diplomacyが難しい理由

- 7人がヨーロッパの地図上で同盟と裏切りを繰り返す。

- **毎ターン自由形式のチャット交渉**。チャットで何を漏らすか、誰と同盟するかが**ゲームそのもの**。

- 嘘が合法 — 同盟を約束して裏切ってもルール違反ではない。

- サイコロ無し、非対称情報＋多人数協力＋言語。

Ciceroのアーキテクチャ

1. **言語モデル（LLM）** — Diplomacyのチャットデータでファインチューンした27億パラメータのBART。

2. **戦略モデル** — 自己対戦で学習したポリシーネットワーク、RLベース。

3. **意図推定 → メッセージ生成 → 行動決定** — 自身の意図と相手の意図を同時にモデル化。

結果

- webDiplomacyの匿名トーナメントで**上位10%**、40局平均で人間平均の2倍のスコア。

- **一度も「AIっぽい」と疑われずに**人間相手と自然に会話して勝った。

- **意図的に嘘をつくよう学習させていない** — 一貫性が崩れると同盟自体が壊れるため。結果として「正直な協力者」が強い戦略だった。

これは単なるゲームAIの勝利を超え、AIが**自然言語＋戦略＋多者交渉**という人間社会のコアを扱えることを示した分岐点だ。

11章 · AlphaStar — StarCraft 2（DeepMind 2019）

- 論文: [Vinyals et al., 2019, "Grandmaster level in StarCraft II using multi-agent reinforcement learning"](https://www.nature.com/articles/s41586-019-1724-z)（Nature）。

StarCraft 2が難しい理由

- **リアルタイム** — ターン無し、1試合に数万回のクリック。

- **部分観測** — 戦争の霧で相手が見えない。

- **巨大な行動空間** — 毎フレーム数百万通りの有効行動の組み合わせ。

- **長期報酬** — 勝敗はゲーム終了時にしか確定しない（数十分）。

- **3種族**（Terran/Zerg/Protoss）が非対称。

アルゴリズム

- **自己対戦RL** + **リーグ（League）**システム。

- 様々な「スタイル」のエージェントが互いに対戦、新エージェントは**「現チャンピオンが倒せないスタイル」**を学習する。

- これが**多様なメタを自動発見**させる。

- TPU 16台で14日間学習。

結果

- Battle.netのラダーで**グランドマスター（上位0.2%）**到達。

- 人間プロMaNaとTLOにシリーズ勝利（公開戦5-0）。

- 人間視点で「非人間的なマイクロコントロール」（200+ APMの同時操作）と「非人間的な戦略」（常時マルチタスク）を見せた、どちらもルール上は合法。

12章 · OpenAI Five — Dota 2

- ブログ: [openai.com/research/openai-five](https://openai.com/research/openai-five)。

- 開発: OpenAI（2017~2019）。

Dota 2のさらに難しい点

- **5対5のチームゲーム** — 協力が本質。

- **時間スケールがさらに長い** — 平均1試合45分。

- **100以上のヒーロー** — 行動空間がさらに広い。

- **長期戦略**（アイテムビルド、レーン、終盤チームファイト） + **短期マイクロ**。

結果

- 2018年OG戦のデモ、2019年に世界王者**OG**を2-0で破った。

- 約**256 GPU + 12万8千CPU**で10か月学習。

- 累積学習試合時間は約**45,000年分**。

これは事実上**分散強化学習の産業規模デモ**だった。OpenAI Fiveが確立した「自己対戦＋大規模計算」のパラダイムが、OpenAIをOpenAIたらしめた（その後のGPT路線）。

13章 · Suphx — 麻雀（Microsoft 2019）

[Li et al., 2019, "Suphx: Mastering Mahjong with Deep Reinforcement Learning"](https://arxiv.org/abs/2003.13590)。

麻雀が難しい理由

- 4人ゲーム（2人ではない）。

- 手牌が非公開＋ドロー（ツモ）がある。

- スコアシステムが1局単位ではなく**半荘単位**で累積 → 長期意思決定。

- 日本のリーチ麻雀には「テンパイ」「役」「ドラ」など複雑なルール。

Suphxのアプローチ

- モデル: ResNet + 勾配モニタリングRL。

- 学習トリック: **グローバル報酬予測**（今局の行動が試合全体にどれだけ価値があるかを予測）。

- **実行時ポリシー適応** — 試合進行に応じて方針を微調整。

結果

- 日本のオンライン麻雀プラットフォーム**天鳳**で**十段**到達 — 上位0.01%、人間トッププレイヤーレベル。

14章 · AlphaProof + AlphaGeometry — IMO銀メダル（2024）

数学の証明はゲームではないが、本質的には巨大な探索問題だ。DeepMindはこれをゲームAI技法で解く。

AlphaGeometry (2024.1, Nature)

[Trinh et al., 2024, "Solving olympiad geometry without human demonstrations"](https://www.nature.com/articles/s41586-023-06747-5)。

- 平面幾何に特化。

- **ニューラル言語モデルが補助線を提案 → 記号推論器が検証**。

- IMO 2000~2022年の幾何問題30問中**25問**を解いた（人間IMO金メダリストの平均は25.9問）。

AlphaProof (2024.7)

DeepMindブログ: [deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level](https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/)。

- **Lean 4**形式証明言語で証明を書く。

- パイプライン: **自然言語問題 → 形式化 → 証明**。

- AlphaZero風自己対戦RLで証明探索。

2024 IMOの結果

- IMO 6問中**4問満点**（28/42点）。

- **銀メダル相当**（2024年銀メダルのカットラインは29点なので1点差で逃したが、実質上位25%）。

- 問題1・2（AlphaProof）/ 4（AlphaGeometry）/ 6（AlphaProof）。問題3と5は制限時間内に解けず。

15章 · チェスUI — lichess / chess.com / ChessBase / Arena / Banksia / NIBBLER

エンジンがどれだけ強くても、人間が使うにはUIが必要だ。2026年の整理:

lichess.org — FOSSの頂点

- **無料・広告無し・オープンソース**（AGPL v3）。

- [lichess.org](https://lichess.org/), [github.com/lichess-org/lila](https://github.com/lichess-org/lila)。

- 分析エンジンは**Stockfish**が標準 — ブラウザでWebAssembly経由ローカル実行。

- 重い分析は**fishnet**というボランティア分散ネットワークが処理。

- 月間1億局以上を捌く。

- 韓国でも無料＋高速サーバーで急速に普及。

chess.com — 商用1位

- 月間アクティブユーザー5,000万人以上。

- 分析エンジン: **Stockfish + Komodo Dragon**（KomodoはOSchess.com保有）。

- レッスンライブラリ（GMコース）、ボット対戦、トーナメント。

- マグヌス・カールセンら一流GMがchess.comのSpeed Chess Championshipに出場。

ChessBase

- ドイツのChessBase社のデスクトップ・データベース＋エンジンツール。

- 大会準備の事実上の標準 — Mega Databaseに1,000万局以上。

- エンジン（Fritz, Komodo, Stockfish）はすべてUCIで接続。

- 高価（年€100~）だがプロGMには必須。

Arena, Banksia, NIBBLER — エンジンテスト用

- **Arena**（[playwitharena.de](https://playwitharena.de/)） — クラシックな無料Windowsチェスソフト。UCI / XBoardエンジン接続の標準。

- **Banksia GUI**（[banksiagui.com](https://banksiagui.com/)） — 比較的新しいGUI。CCRLの非公式標準。

- **NIBBLER**（[github.com/rooklift/nibbler](https://github.com/rooklift/nibbler)） — Lc0専用GUI。ポリシーネット出力を可視化する。

16章 · UCIとXBoardプロトコル

エンジンとGUIが通信する標準が2つある。

UCI (Universal Chess Interface)

1990年代後半にStefan Meyer-Kahlenが作った標準。現代のほぼすべてのエンジンがUCIを話す。

GUI -> エンジン

uci # エンジンに「UCIモード」に入るよう指示

setoption name Threads value 8

isready

position startpos moves e2e4 e7e5

go wtime 60000 btime 60000

エンジン -> GUI

id name Stockfish 17

uciok

readyok

info depth 20 score cp 31 ...

bestmove g1f3 ponder b8c6

XBoard / CECP

もっと古い（1990年代前半）。一部のクラシックエンジン（Crafty, GNU Chess）が今でも使う。lichessはXBoard形式のボットもサポート。

違い

| 項目 | UCI | XBoard / CECP |

| ----------- | ---------------------------- | ------------------------------- |

| 登場 | 1990年代後半 | 1990年代前半 |

| 時間管理 | GUIが時間を送る | エンジン自身がクロック計測 |

| オプション | 統一された`setoption` | エンジンごとに異なる |

| シェア | 圧倒的1位 | レガシー中心 |

今日新しいエンジンを作るならまずUCIだ。

17章 · 韓国 — NCsoftの韓乭、そして李世乭

韓乭（NCsoft）

NCsoftのAIセンターが作った韓国製囲碁AI。2017年に初公開、2019年12月、李世乭の引退対局で1局目を勝ち、2~3局を負けて1-2でシリーズを落とした。

- 1局目で李世乭は78手目の左辺侵入で攻めをかけ、韓乭が形勢評価を誤った。

- これは**李世乭が公式対局でAIに勝った最後の勝利**として記録されている（2025年現在まで）。

その後、韓乭はNCsoft社内研究にとどまり、一般向けの分析ツールとして大々的にはリリースされなかった。NCsoftはゲームAI全般（リネージュのNPC、強化学習ベースのコンテンツなど）に重心を移していった。

LG・カカオ — 韓国の囲碁AI

- **LG**も2010年代後半に独自の囲碁AIを開発したが、韓乭ほど可視化されなかった。

- **カカオブレイン**は一時自社の囲碁AI（Katajaなどのコードネーム）を試したが、後にKataGoのオープンソース貢献にシフトした。

韓国における囲碁AIの意味

李世乭 vs AlphaGoは**「AI」という言葉が韓国の一般大衆に日常化した出来事**だ。2016年3月以前と以後で、韓国メディアでの「AI」という言葉の出現頻度が質的に違う。国家レベルのAI政策（2019年AI国家戦略）も、この事件の直接の結果である。

18章 · 日本 — 将棋AI発展史、dlshogi、やねうら王

将棋はチェスより駒の再利用があり、ゲーム木がチェスより遥かに大きい。日本のコンピュータ将棋コミュニティは1990年代から非常に活発だった。

主要エンジン（時系列）

| エンジン | 年 | 特徴 |

| ------------------ | ------ | --------------------------------------------------- |

| 激指 | 1990年代| 日本初の強い将棋エンジン |

| ボナンザ (Bonanza) | 2005 | **機械学習評価関数の元祖** — 保木邦仁 |

| GPS将棋 | 2009 | 東京大学GPSグループ |

| Ponanza | 2013~17| 名人戦で初めて人間に勝利（2013） |

| Apery | 2014 | オープンソース |

| やねうら王 | 2015~ | **現在の日本標準エンジン** — NNUE発祥地 |

| dlshogi | 2018~ | AlphaZero風NN、RTX 5090で学習 |

ボナンザの衝撃 — Bonanza Method

[保木氏の2006年論文](http://www.geocities.jp/bonanza_shogi/) — 評価関数の重みを**プロ棋譜からの最適化学習**で得る手法。これが**チェスのNNUEより10年早い**機械学習評価関数の起源だ。後のStockfishのNNUE着想にも影響。

やねうら王 — NNUE発祥の地

やねうら王（磯崎元洋）が作ったオープンソース将棋エンジン。**NNUEを初めて実用化**した場所。後にStockfishがチェスに持ってきた。世界コンピュータ将棋選手権で優勝するのはほとんどがやねうら王の派生型だ。

dlshogi — AlphaZeroの将棋版

GitHub: [github.com/TadaoYamaoka/DeepLearningShogi](https://github.com/TadaoYamaoka/DeepLearningShogi)。

- **AlphaZero風** — CNN + MCTS、自己対戦。

- やねうら王（NNUE）とdlshogi（深層学習）は異なる路線で同程度の強さ。

- 2021年世界コンピュータ将棋選手権優勝。

- RTX 4090やRTX 5090を2台束ねた構成 — 日本のGPU学習議論では事実上のリファレンス。

人間 vs 将棋AI — 名人戦とNHK杯

- **名人戦**: 将棋で最も格式高いタイトル。

- 2013年Ponanzaが佐藤天彦（現名人）ら一流プロを破った → 「もう人間とAIの公式対局はナンセンス」という雰囲気に。

- **NHK杯**: 早指しの公開対局にAIが参加することも（公式タイトル戦ではなくイベント）。

19章 · 誰がゲームAIを学ぶべきか

1) RL研究者

- AlphaZero, MuZero, AlphaStar, Ciceroは**RLの教科書**だ。

- OpenSpiel, RLlib, JAX/Acmeで手を動かして実験できる。

- ゲームは環境がクリーンなのでRLのほぼ標準ベンチマーク。

2) ボードゲームエンジン開発者

- Stockfish, Lc0, KataGoは**単一ゲームをどこまで最適化できるか**の見本。

- C++ / CUDAを本気で深く触りたいなら良い入り口。

3) 多エージェント / 交渉AI

- CiceroとPluribusは**多人数＋協力＋自然言語**の学術標準ケース。

- LLMエージェントで交渉システムを作るなら必読。

4) ゲーム会社

- ゲーム内ボット、マッチメイキング、コンテンツ生成にRLが入ってきている。

- 例: NCsoft韓乭、OpenAI Five。

5) 教育・コーチング

- Maia、そしてchess.com / lichessのコーチボット。

- 生徒のELOに合わせて「人間らしい」相手を作る仕事。

20章 · 結び — 「超人間」が意味するもの

2026年のゲームAIはほぼすべての標準ゲームで人間より強い。チェス、囲碁、将棋、ヘッズアップ/多人数ポーカー、StarCraft 2、Dota 2、麻雀、Diplomacy。さらに国際数学オリンピックも銀メダルレベル。

しかしこれで終わりではない。新しいゲーム — 例えば**MMOのPvEダンジョン攻略**、**MOBAの新ヒーローメタ発見**、**TCGの新セット発売直後のメタ探索** — などはまだ活発な研究領域だ。

そしてもっと興味深い方向は**「人間らしいAI」**だ — Maiaのように、Ciceroのように。単に「より強いAI」ではなく、人間と**一緒に**指し、人間が理解でき、人間を教えるAI。

ゲームAIは終わっていない。ただ**「勝つこと」がもはやゴールではない時代**に入ったに過ぎない。

参考文献 / References

- [Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature.](https://www.nature.com/articles/nature16961)

- [Silver, D., et al. (2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm." arXiv:1712.01815.](https://arxiv.org/abs/1712.01815)

- [Schrittwieser, J., et al. (2019). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)." arXiv:1911.08265.](https://arxiv.org/abs/1911.08265)

- [Brown, N., & Sandholm, T. (2019). "Superhuman AI for multiplayer poker (Pluribus)." Science 365 (6456): 885-890.](https://www.science.org/doi/10.1126/science.aay2400)

- [Bakhtin, A., et al. (2022). "Human-level play in the game of Diplomacy by combining language models with strategic reasoning (Cicero)." Science.](https://www.science.org/doi/10.1126/science.ade9097)

- [Vinyals, O., et al. (2019). "Grandmaster level in StarCraft II using multi-agent reinforcement learning (AlphaStar)." Nature.](https://www.nature.com/articles/s41586-019-1724-z)

- [OpenAI Five blog (2018-2019).](https://openai.com/research/openai-five)

- [Li, J., et al. (2020). "Suphx: Mastering Mahjong with Deep Reinforcement Learning." arXiv:2003.13590.](https://arxiv.org/abs/2003.13590)

- [Trinh, T., et al. (2024). "Solving olympiad geometry without human demonstrations (AlphaGeometry)." Nature.](https://www.nature.com/articles/s41586-023-06747-5)

- [DeepMind blog. "AI achieves silver-medal standard solving IMO problems (AlphaProof + AlphaGeometry, 2024)."](https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/)

- [McIlroy-Young, R., et al. (2020). "Aligning Superhuman AI with Human Behavior (Maia)." KDD.](https://arxiv.org/abs/2006.01855)

- [Stockfish — GitHub repository.](https://github.com/official-stockfish/Stockfish)

- [Leela Chess Zero — Project site.](https://lczero.org/)

- [KataGo — David Wu's repository.](https://github.com/lightvector/KataGo)

- [dlshogi — Yamaoka Tadao's repository.](https://github.com/TadaoYamaoka/DeepLearningShogi)

- [Yaneura-ou — Yaneura's shogi engine.](https://github.com/yaneurao/YaneuraOu)

- [lichess.org source code (lila).](https://github.com/lichess-org/lila)

- [chess.com.](https://www.chess.com/)

- [ChessBase Mega Database.](https://shop.chessbase.com/)

- [Arena Chess GUI.](https://playwitharena.de/)

- [Banksia GUI.](https://banksiagui.com/)

- [NIBBLER GUI for Lc0.](https://github.com/rooklift/nibbler)

- [DeepMind OpenSpiel.](https://github.com/deepmind/open_spiel)

- [Wikipedia: AlphaGo versus Lee Sedol.](https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol)