필사 모드: 超人間ゲームAI 2026 — Stockfish 17 / Leela Chess Zero / KataGo / AlphaZero / MuZero / Cicero / Pluribus / AlphaStar / 将棋 dlshogi 深掘りガイド
日本語プロローグ — 人間が勝てない時代
2016年3月、李世乭(イ・セドル)はAlphaGoに1勝4敗で敗れた。多くの人が「もう囲碁は終わった」と言い、実際に終わった。2017年、AlphaGo Zeroは人間の棋譜をゼロにして自己対戦のみでAlphaGoを上回り、同年AlphaZeroは同じアルゴリズム一つでチェス・将棋・囲碁を制覇した。2019年にはMuZeroが「ゲームのルールを知らないまま」同じことをやってのけた。
チェスも同様だ。**Stockfish 17**は人間の世界チャンピオンをどの時間設定でもほぼ100%倒す。Stockfish vs Leela Chess Zero (Lc0)のTCEC決勝戦は、人間が観戦者となる大会だ。スマホで動くStockfishですら人間のグランドマスターを倒す。
しかしゲームAIはチェス・囲碁だけではない。**Pluribus**(Meta 2019)は6人ノーリミット・テキサスホールデムで人間プロを破り、**Cicero**(Meta 2022)はDiplomacyで自然言語による同盟・裏切りの交渉を行い上位10%に入った。**AlphaStar**はStarCraft 2で、**OpenAI Five**はDota 2で、**Suphx**は麻雀で、そして2024年の**AlphaProof + AlphaGeometry**は国際数学オリンピック(IMO)で銀メダルレベルを記録した。
この記事は2026年時点で「どのゲームAIがどこまで来ていて、何をどうやっているか」を1か所にまとめる。単なる年代記ではなく、アルゴリズム(MCTS / NNUE / 自己対戦 / CFR / モデルベースRL)の観点で同じ系統をグループ化する。
1章 · 2026年ゲームAIの地図 — 4分類
ゲームAIをきれいに切る一本の軸は、**情報の完全性**と**プレイヤー数**だ。
| 分類 | 情報 | 人数 | 代表ゲーム | 代表AI |
| --------------------- | --------------- | ----- | --------------------- | ------------------------------------------- |
| 完全情報・2人 | 公開 | 2 | チェス、囲碁、将棋 | Stockfish, Lc0, KataGo, AlphaZero, dlshogi |
| 完全情報・1人パズル | 公開 | 1 | 数学証明 | AlphaProof, AlphaGeometry |
| 不完全情報・2人 | 非公開 | 2 | ヘッズアップポーカー | Libratus, DeepStack |
| 不完全情報・多人数 | 非公開 | 3+ | 6人ポーカー、麻雀 | Pluribus, Suphx |
| 不完全情報+言語 | 非公開+自然言語| 7 | Diplomacy | Cicero |
| リアルタイム・部分観測| 一部公開 | 2~10 | StarCraft 2, Dota 2 | AlphaStar, OpenAI Five |
この軸が重要なのは**アルゴリズムが変わるから**だ。
- **完全情報の2人ゼロ和**ではミニマックスが効く → α-β(Stockfish)か MCTS + ニューラルネット(Lc0, KataGo, AlphaZero)。
- **不完全情報**ではミニマックスが破綻する → CFR(反実仮想後悔最小化)系統が標準。LibratusとPluribusがその系譜。
- **多人数+言語+協力**は上のどれも効かない → Ciceroのように強化学習+LLMの融合が必要。
- **リアルタイム**では時間そのものが行動 → ポリシーネット+分散自己対戦(AlphaStar, OpenAI Five)。
この地図を頭に入れて、次章から1種ずつ見ていく。
2章 · Stockfish 17 — チェスの最強
**Stockfish**は2008年から開発が続くオープンソースのチェスエンジンだ。C++、GPL v3ライセンス、[github.com/official-stockfish/Stockfish](https://github.com/official-stockfish/Stockfish)で開発されている。2026年現在の最新安定版が**Stockfish 17**で、CCRLとTCECの両方で1位を維持している。
何が変わったか — α-β + NNUE
伝統的なStockfishは**α-β剪定+多数のヒューリスティック**(null-move pruning, late move reductions, futility pruningなど)を使っていた。評価関数は手作りのチェス知識 — ポーン構造、キング安全、機動力など。
**Stockfish 12(2020)**から**NNUE(Efficiently Updatable Neural Network)**が導入された。日本将棋コミュニティ(やねうら王グループ、特に那須悠)が考案した構造で、**小さなニューラルネットをCPU上で高速評価**するのが核心だ。GPUは不要、1手ごとにネット全体を再計算せず変化分だけ更新 → 「Efficiently Updatable」。
Stockfish 17の主な特徴:
- **NNUEが標準**。手作り評価関数はフォールバック程度。
- 探索は依然としてα-βベース — Lc0のMCTSとは対照的。
- マルチスレッドが非常によくできていて、128コアでもほぼ線形にスケール。
- スマホでも動く — iPhone 16 Proで毎秒数十万ノード。
実行方法
Linux / macOS — パッケージマネージャでインストール
brew install stockfish # macOS
sudo apt install stockfish # Debian / Ubuntu
または直接ダウンロード: https://stockfishchess.org/download/
UCIモードで実行
stockfish
UCIセッションの例
uci
id name Stockfish 17
id author the Stockfish developers
...
uciok
position startpos moves e2e4 e7e5
go depth 20
info depth 20 seldepth 28 multipv 1 score cp 31 nodes 1234567 ...
bestmove g1f3 ponder b8c6
Stockfishはチェスを解いたか
「解いた」の強い意味では**まだ違う** — チェスのゲーム木は約$10^{120}$、完全解は不可能。だが弱い意味では事実上「解けた」と言える — どんな時間設定でも人間はStockfishに勝てない。世界チャンピオン(2024年Ding Liren、2025年からGukesh Dommaraju)も同様だ。
3章 · Leela Chess Zero (Lc0) — ニューラルネット系チェスエンジン
**Leela Chess Zero**(Lc0)はAlphaZero論文(2017)を読んだ人たちが「うちらもやってみよう」と始めたオープンソースプロジェクトだ。[lczero.org](https://lczero.org/)、[github.com/LeelaChessZero/lc0](https://github.com/LeelaChessZero/lc0)。
Stockfishとの違い
| 項目 | Stockfish 17 | Leela Chess Zero (Lc0) |
| ------------ | ---------------------------------- | ---------------------------------- |
| 探索 | α-β + ヒューリスティック | MCTS(PUCT) |
| 評価 | NNUE(小型NN、CPU) | 大型NN(CNN / Transformer、GPU) |
| ハードウェア | CPU中心、マルチコア | GPU中心、NVIDIA RTX 5090が人気 |
| 学習 | 無し(評価器のみ訓練) | 自己対戦で1から学習 |
| 毎秒ノード数 | 数百万~数千万 | 数万~数十万 |
| スタイル | 戦術的、計算重視 | 位置的、直感的 |
**Lc0はノード効率(1ノードあたりどれだけ深く理解しているか)が圧倒的に高い。** Stockfishが毎秒1,000万ノード見るのに対し、Lc0は10万ノードしか見ない — それでも同程度の強さに到達する。理由はニューラルネットが「どの手が有望か」を事前に教えてくれるから(ポリシーネット+バリューネット)。
学習 — 分散自己対戦
Lc0は**数万人のボランティアがGPU時間を寄付する分散自己対戦プロジェクト**だ。各クライアントが1試合プレイして結果をサーバーにアップロードし、それが学習データになる。RTX 5090なら1時間に数十試合、累積学習試合数は**数十億**を超える。
Lc0をビルドしてネットワークウェイトを取得
git clone https://github.com/LeelaChessZero/lc0
cd lc0
./build.sh
ウェイトは https://lczero.org/play/networks/bestnets/ にある
BT5やBT4シリーズが強い
誰がLc0を使うか
- TCEC(Top Chess Engine Championship)でStockfishの永遠のライバル。
- カールセン、カリャーキン、カルアナら一流棋士のオープニング準備。
- ChessBase経由のデータとして。
4章 · Komodo Dragon 3 — 商用チェスエンジンの最後の雄
**Komodo Dragon**はDon DaileyとLarry Kaufmanが作ったチェスエンジン。2018年にchess.comが買収、2026年現在は**Komodo Dragon 3**。商用エンジン(年間サブスクリプション)だが、chess.comの分析ツールのデフォルトエンジンなので実質1日数億回呼び出されている。
特徴
- **NNUEを早期に採用**(Dragon 1、2021)。
- **位置的スタイル** — Kaufmanは元GM、その影響か人間が見て「人間らしい」手を出す。
- マルチPV分析で人間が理解できる変化を出してくれる → コーチング用途で便利。
- Stockfishよりやや弱いが、確実にトップ3。
Stockfishが無料・オープンソースなのに、なぜ商用を使うのか
- chess.comのような商用サービスは安定したライセンスとサポートが必要。
- 「人間を教える」分析ではKomodoの直感的評価が役に立つ。
- chess.com Insightsの定跡分析はKomodoが標準。
5章 · AlphaZero → MuZero — DeepMindライン
AlphaZero (2017) — 1つのアルゴリズムで3つのゲーム
[Silver et al., 2017, "Mastering Chess and Shogi by Self-Play..."](https://arxiv.org/abs/1712.01815)。
- **MCTS + 深層ニューラルネット**(ポリシー + バリュー)。
- **完全に自己対戦のみで学習** — 人間棋譜ゼロ。
- **チェス・将棋・囲碁**すべて同じアルゴリズムで解いた。
- 学習後にStockfish 8を100戦で28勝0敗72分(2017年時点 — その後StockfishがNNUEで追いついた)。
- TPU 5,000台 + TPU 64台で数日学習。
AlphaZeroが変えたもの
これまでチェスエンジンは**チェス知識を人間がコーディング**していた。ポーン構造、キング安全、ダブルルーク、ビショップペア — すべて元GMの開発者が書いたヒューリスティックだ。AlphaZeroは**それをすべて捨て、自己対戦のみで同レベルに到達**した。これが衝撃だった。
MuZero (2019) — ルールを知らないとき
[Schrittwieser et al., 2019, "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"](https://arxiv.org/abs/1911.08265)。
- AlphaZeroは**ゲームのルールを知っている**(ある手を打った後の盤面が分かる)。
- MuZeroは**ルールを知らない** — 「次の盤面」を**ニューラルネット自身が予測する**。
- なのでAtariのようなピクセルゲームにもそのまま適用可能 → 同じアルゴリズムでボードゲーム+Atariを征服。
- 後にEfficientZero(2021)、Stochastic MuZero(2022)に拡張。
コード
DeepMindから公式のオープンソースは無いが、有名な再実装がある:
- **OpenSpiel**([github.com/deepmind/open_spiel](https://github.com/deepmind/open_spiel)) — DeepMind公式のゲームRLフレームワーク。AlphaZeroベースを含む。
- **muzero-general**([github.com/werner-duvaud/muzero-general](https://github.com/werner-duvaud/muzero-general)) — 人気のPyTorch実装。
6章 · Maia — 人間らしいチェス(MS Research + Toronto)
多くのエンジンは「最強の手」を打つ。**Maia**はその正反対 — **人間が打ちそうな手**を打つ。
- 開発: **Microsoft Research + University of Toronto**(Reid McIlroy-Young, Siddhartha Sen, Jon Kleinberg, Ashton Anderson)。
- 論文: [KDD 2020, "Aligning Superhuman AI with Human Behavior"](https://arxiv.org/abs/2006.01855)。
- GitHub: [github.com/CSSLab/maia-chess](https://github.com/CSSLab/maia-chess)。
作り方
- lichessの匿名人間棋譜データで学習 — **各ELO帯ごとに別モデル**。
- maia-1100, maia-1500, maia-1900など — 数字は学習対象のELO。
- AlphaZero風CNN、MCTSは1ノード(ポリシー出力のみ)。
- 結果: maia-1500は**1500ELOの人間が最もよく打つ手を最もよく打つ**。
なぜ重要か
- **チェスのコーチング**: 生徒のELOに合わせて「この局面ならあなたくらいの人は普通こう打つ」と教えられる。
- AI安全研究の小さなケース: 「最強のAI」ではなく「人間と整合したAI」が必要な領域。
- **人間との対戦**: lichessのMaiaボットは、人間が対戦するのに最も自然な相手の一つ。
7章 · KataGo — 囲碁分散学習の頂点
チェスにLc0があるなら、**囲碁にはKataGoがある**。
- 開発者: David Wu(個人スタート → 分散学習へ拡大)。
- GitHub: [github.com/lightvector/KataGo](https://github.com/lightvector/KataGo)。
- AlphaZero風だが、**学習効率の改良が多数**入っていて、同じ計算量でより強い。
AlphaGo Zeroより強いか
- AlphaGo Master(2017)は李世乭バージョンのAlphaGoよりずっと強かった。
- AlphaGo Zero(2017、社内完結)はMasterよりさらに強かった。
- KataGoは分散学習で**そのAlphaGo Zeroレベルをオープンソースで再現**し、その後さらに強くなった。
改良点
1. **スコアベースの報酬モデリング** — 「何目差で勝ったか」を直接学習 → 終盤で人間が理解しやすい手。
2. **複数の盤サイズ**を1つのネットワークが扱う(9x9, 13x13, 19x19)。
3. **置碁**や非公式ルール(中国式・日本式数え方)。
誰がKataGoを使うか
- ほぼ全てのプロ棋士が分析ツールとして使う。
- 韓国・中国・日本の主要研究所がKataGoを動かしている。
- 人気GUI: **Lizzie**, **KaTrain**, **Sabaki**。
そしてLeela Zero(囲碁)
**Leela Zero**はKataGo以前の分散囲碁プロジェクトで、Lc0の囲碁版。2017~2019年、AlphaGo Zero論文をオープンソースで再現した。後にKataGoのほうが効率的だったのでボランティアが移行し、実質終了。だが**AlphaGo Zeroのレベルを外部から初めて再現した**という歴史的意義がある。
8章 · AlphaGo — 2016年のあのシリーズ
2026年からするとAlphaGoは「歴史」だが、ゲームAI年代記の分岐点だ。
AlphaGoラインナップ
| バージョン | 年 | 特徴 | 結果 |
| ----------------- | ------- | ----------------------------------------- | ------------------------------------- |
| AlphaGo Fan | 2015 | CNN + MCTS, 人間棋譜で事前学習 | Fan Hui(欧州王者)5-0 |
| AlphaGo Lee | 2016 | より大きなポリシーネット、分散推論 | **李世乭4-1** |
| AlphaGo Master | 2017.1 | 単一ネットワーク、一部自己対戦 | オンライン60連勝、柯潔3-0 |
| AlphaGo Zero | 2017.10 | **人間棋譜ゼロ、自己対戦のみ** | Master 89-11 |
| AlphaZero | 2017.12 | 同アルゴリズムをチェス・将棋・囲碁に一般化 | Stockfish 8 / Elmo / AlphaGo Zero撃破 |
李世乭の第4局、78手目
2016年3月13日の第4局。李世乭は78手目に「神の一手」(divine move、2石の間に割り込む)を打った。AlphaGoの評価関数はこの手をほぼ0%の確率で予測しており、その後形勢を誤判断、李世乭が勝った。**人間がトップの囲碁AIに勝った最後の公式対局として記録されている**(2025年現在まで)。
李世乭は2019年に引退、「AIに勝てないゲームを続ける理由がない」という趣旨の発言をした。韓国社会においてAlphaGoは単なるAI事件ではなく、**「李世乭の第4局」**として記憶されている。
9章 · Pluribus — 6人ポーカーの征服(Meta 2019)
チェス・囲碁は完全情報ゲームなのでミニマックスが効く。**ポーカーは違う** — 相手のカードは見えないし、運があるし、ブラフはゲームの一部だ。
- 論文: [Brown & Sandholm, 2019, "Superhuman AI for multiplayer poker"](https://www.science.org/doi/10.1126/science.aay2400)(Science)。
- 開発: Facebook AI Research(現Meta) + カーネギーメロン大学。
中核アルゴリズム — モンテカルロCFR + 深さ制限探索
- **CFR (Counterfactual Regret Minimization)**: 不完全情報ゲームの標準学習アルゴリズム。「もしこの時点で別の行動を取っていたらどれだけ後悔したか」を累積して戦略を更新する。
- **Blueprint strategy**: オフライン自己対戦で巨大な「基本戦略」を学習。約8日間、12,400 CPUコア。
- **リアルタイムの深さ制限探索**: 対局中は数手深さだけ再計算。1ハンドあたり約20秒。
何が衝撃だったか
- ヘッズアップ(2人)ポーカーは2017年にLibratusがすでに人間を破っていた。
- **6人は次元が違う問題** — 多エージェント、連携の可能性、サイドベット。CFRの収束理論が弱い。
- Pluribusは**理論的保証なしに**人間トッププロに統計的有意差で勝った(13人のプロ、1万ハンド)。
- **1日約1,000ドルのクラウドサーバー**で動いた — AlphaZeroのようなスパコンは要らない。
人間が見て衝撃的だった行動
- **ランダム化されたベットサイズ** — 同じハンドでも毎回ベット額が違う → 相手にハンドが読まれない。
- **ドンクベット** — 人間プロがほとんど使わなかった手をPluribusは頻用。
- **ゲーム理論的に最適なブラフ頻度** — 多すぎず少なすぎず。
10章 · Cicero — Diplomacy(Meta 2022)
Pluribusが「数学的に難しい」ゲームを解いたなら、**Cicero**が解いたDiplomacyは**言語と人間交渉が難しい**ゲームだ。
- 論文: [Bakhtin et al., 2022, "Human-level play in the game of Diplomacy by combining language models with strategic reasoning"](https://www.science.org/doi/10.1126/science.ade9097)(Science)。
- 開発: Meta AI。
Diplomacyが難しい理由
- 7人がヨーロッパの地図上で同盟と裏切りを繰り返す。
- **毎ターン自由形式のチャット交渉**。チャットで何を漏らすか、誰と同盟するかが**ゲームそのもの**。
- 嘘が合法 — 同盟を約束して裏切ってもルール違反ではない。
- サイコロ無し、非対称情報+多人数協力+言語。
Ciceroのアーキテクチャ
1. **言語モデル(LLM)** — Diplomacyのチャットデータでファインチューンした27億パラメータのBART。
2. **戦略モデル** — 自己対戦で学習したポリシーネットワーク、RLベース。
3. **意図推定 → メッセージ生成 → 行動決定** — 自身の意図と相手の意図を同時にモデル化。
結果
- webDiplomacyの匿名トーナメントで**上位10%**、40局平均で人間平均の2倍のスコア。
- **一度も「AIっぽい」と疑われずに**人間相手と自然に会話して勝った。
- **意図的に嘘をつくよう学習させていない** — 一貫性が崩れると同盟自体が壊れるため。結果として「正直な協力者」が強い戦略だった。
これは単なるゲームAIの勝利を超え、AIが**自然言語+戦略+多者交渉**という人間社会のコアを扱えることを示した分岐点だ。
11章 · AlphaStar — StarCraft 2(DeepMind 2019)
- 論文: [Vinyals et al., 2019, "Grandmaster level in StarCraft II using multi-agent reinforcement learning"](https://www.nature.com/articles/s41586-019-1724-z)(Nature)。
StarCraft 2が難しい理由
- **リアルタイム** — ターン無し、1試合に数万回のクリック。
- **部分観測** — 戦争の霧で相手が見えない。
- **巨大な行動空間** — 毎フレーム数百万通りの有効行動の組み合わせ。
- **長期報酬** — 勝敗はゲーム終了時にしか確定しない(数十分)。
- **3種族**(Terran/Zerg/Protoss)が非対称。
アルゴリズム
- **自己対戦RL** + **リーグ(League)**システム。
- 様々な「スタイル」のエージェントが互いに対戦、新エージェントは**「現チャンピオンが倒せないスタイル」**を学習する。
- これが**多様なメタを自動発見**させる。
- TPU 16台で14日間学習。
結果
- Battle.netのラダーで**グランドマスター(上位0.2%)**到達。
- 人間プロMaNaとTLOにシリーズ勝利(公開戦5-0)。
- 人間視点で「非人間的なマイクロコントロール」(200+ APMの同時操作)と「非人間的な戦略」(常時マルチタスク)を見せた、どちらもルール上は合法。
12章 · OpenAI Five — Dota 2
- ブログ: [openai.com/research/openai-five](https://openai.com/research/openai-five)。
- 開発: OpenAI(2017~2019)。
Dota 2のさらに難しい点
- **5対5のチームゲーム** — 協力が本質。
- **時間スケールがさらに長い** — 平均1試合45分。
- **100以上のヒーロー** — 行動空間がさらに広い。
- **長期戦略**(アイテムビルド、レーン、終盤チームファイト) + **短期マイクロ**。
結果
- 2018年OG戦のデモ、2019年に世界王者**OG**を2-0で破った。
- 約**256 GPU + 12万8千CPU**で10か月学習。
- 累積学習試合時間は約**45,000年分**。
これは事実上**分散強化学習の産業規模デモ**だった。OpenAI Fiveが確立した「自己対戦+大規模計算」のパラダイムが、OpenAIをOpenAIたらしめた(その後のGPT路線)。
13章 · Suphx — 麻雀(Microsoft 2019)
[Li et al., 2019, "Suphx: Mastering Mahjong with Deep Reinforcement Learning"](https://arxiv.org/abs/2003.13590)。
麻雀が難しい理由
- 4人ゲーム(2人ではない)。
- 手牌が非公開+ドロー(ツモ)がある。
- スコアシステムが1局単位ではなく**半荘単位**で累積 → 長期意思決定。
- 日本のリーチ麻雀には「テンパイ」「役」「ドラ」など複雑なルール。
Suphxのアプローチ
- モデル: ResNet + 勾配モニタリングRL。
- 学習トリック: **グローバル報酬予測**(今局の行動が試合全体にどれだけ価値があるかを予測)。
- **実行時ポリシー適応** — 試合進行に応じて方針を微調整。
結果
- 日本のオンライン麻雀プラットフォーム**天鳳**で**十段**到達 — 上位0.01%、人間トッププレイヤーレベル。
14章 · AlphaProof + AlphaGeometry — IMO銀メダル(2024)
数学の証明はゲームではないが、本質的には巨大な探索問題だ。DeepMindはこれをゲームAI技法で解く。
AlphaGeometry (2024.1, Nature)
[Trinh et al., 2024, "Solving olympiad geometry without human demonstrations"](https://www.nature.com/articles/s41586-023-06747-5)。
- 平面幾何に特化。
- **ニューラル言語モデルが補助線を提案 → 記号推論器が検証**。
- IMO 2000~2022年の幾何問題30問中**25問**を解いた(人間IMO金メダリストの平均は25.9問)。
AlphaProof (2024.7)
DeepMindブログ: [deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level](https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/)。
- **Lean 4**形式証明言語で証明を書く。
- パイプライン: **自然言語問題 → 形式化 → 証明**。
- AlphaZero風自己対戦RLで証明探索。
2024 IMOの結果
- IMO 6問中**4問満点**(28/42点)。
- **銀メダル相当**(2024年銀メダルのカットラインは29点なので1点差で逃したが、実質上位25%)。
- 問題1・2(AlphaProof)/ 4(AlphaGeometry)/ 6(AlphaProof)。問題3と5は制限時間内に解けず。
15章 · チェスUI — lichess / chess.com / ChessBase / Arena / Banksia / NIBBLER
エンジンがどれだけ強くても、人間が使うにはUIが必要だ。2026年の整理:
lichess.org — FOSSの頂点
- **無料・広告無し・オープンソース**(AGPL v3)。
- [lichess.org](https://lichess.org/), [github.com/lichess-org/lila](https://github.com/lichess-org/lila)。
- 分析エンジンは**Stockfish**が標準 — ブラウザでWebAssembly経由ローカル実行。
- 重い分析は**fishnet**というボランティア分散ネットワークが処理。
- 月間1億局以上を捌く。
- 韓国でも無料+高速サーバーで急速に普及。
chess.com — 商用1位
- 月間アクティブユーザー5,000万人以上。
- 分析エンジン: **Stockfish + Komodo Dragon**(KomodoはOSchess.com保有)。
- レッスンライブラリ(GMコース)、ボット対戦、トーナメント。
- マグヌス・カールセンら一流GMがchess.comのSpeed Chess Championshipに出場。
ChessBase
- ドイツのChessBase社のデスクトップ・データベース+エンジンツール。
- 大会準備の事実上の標準 — Mega Databaseに1,000万局以上。
- エンジン(Fritz, Komodo, Stockfish)はすべてUCIで接続。
- 高価(年€100~)だがプロGMには必須。
Arena, Banksia, NIBBLER — エンジンテスト用
- **Arena**([playwitharena.de](https://playwitharena.de/)) — クラシックな無料Windowsチェスソフト。UCI / XBoardエンジン接続の標準。
- **Banksia GUI**([banksiagui.com](https://banksiagui.com/)) — 比較的新しいGUI。CCRLの非公式標準。
- **NIBBLER**([github.com/rooklift/nibbler](https://github.com/rooklift/nibbler)) — Lc0専用GUI。ポリシーネット出力を可視化する。
16章 · UCIとXBoardプロトコル
エンジンとGUIが通信する標準が2つある。
UCI (Universal Chess Interface)
1990年代後半にStefan Meyer-Kahlenが作った標準。現代のほぼすべてのエンジンがUCIを話す。
GUI -> エンジン
uci # エンジンに「UCIモード」に入るよう指示
setoption name Threads value 8
isready
position startpos moves e2e4 e7e5
go wtime 60000 btime 60000
エンジン -> GUI
id name Stockfish 17
uciok
readyok
info depth 20 score cp 31 ...
bestmove g1f3 ponder b8c6
XBoard / CECP
もっと古い(1990年代前半)。一部のクラシックエンジン(Crafty, GNU Chess)が今でも使う。lichessはXBoard形式のボットもサポート。
違い
| 項目 | UCI | XBoard / CECP |
| ----------- | ---------------------------- | ------------------------------- |
| 登場 | 1990年代後半 | 1990年代前半 |
| 時間管理 | GUIが時間を送る | エンジン自身がクロック計測 |
| オプション | 統一された`setoption` | エンジンごとに異なる |
| シェア | 圧倒的1位 | レガシー中心 |
今日新しいエンジンを作るならまずUCIだ。
17章 · 韓国 — NCsoftの韓乭、そして李世乭
韓乭(NCsoft)
NCsoftのAIセンターが作った韓国製囲碁AI。2017年に初公開、2019年12月、李世乭の引退対局で1局目を勝ち、2~3局を負けて1-2でシリーズを落とした。
- 1局目で李世乭は78手目の左辺侵入で攻めをかけ、韓乭が形勢評価を誤った。
- これは**李世乭が公式対局でAIに勝った最後の勝利**として記録されている(2025年現在まで)。
その後、韓乭はNCsoft社内研究にとどまり、一般向けの分析ツールとして大々的にはリリースされなかった。NCsoftはゲームAI全般(リネージュのNPC、強化学習ベースのコンテンツなど)に重心を移していった。
LG・カカオ — 韓国の囲碁AI
- **LG**も2010年代後半に独自の囲碁AIを開発したが、韓乭ほど可視化されなかった。
- **カカオブレイン**は一時自社の囲碁AI(Katajaなどのコードネーム)を試したが、後にKataGoのオープンソース貢献にシフトした。
韓国における囲碁AIの意味
李世乭 vs AlphaGoは**「AI」という言葉が韓国の一般大衆に日常化した出来事**だ。2016年3月以前と以後で、韓国メディアでの「AI」という言葉の出現頻度が質的に違う。国家レベルのAI政策(2019年AI国家戦略)も、この事件の直接の結果である。
18章 · 日本 — 将棋AI発展史、dlshogi、やねうら王
将棋はチェスより駒の再利用があり、ゲーム木がチェスより遥かに大きい。日本のコンピュータ将棋コミュニティは1990年代から非常に活発だった。
主要エンジン(時系列)
| エンジン | 年 | 特徴 |
| ------------------ | ------ | --------------------------------------------------- |
| 激指 | 1990年代| 日本初の強い将棋エンジン |
| ボナンザ (Bonanza) | 2005 | **機械学習評価関数の元祖** — 保木邦仁 |
| GPS将棋 | 2009 | 東京大学GPSグループ |
| Ponanza | 2013~17| 名人戦で初めて人間に勝利(2013) |
| Apery | 2014 | オープンソース |
| やねうら王 | 2015~ | **現在の日本標準エンジン** — NNUE発祥地 |
| dlshogi | 2018~ | AlphaZero風NN、RTX 5090で学習 |
ボナンザの衝撃 — Bonanza Method
[保木氏の2006年論文](http://www.geocities.jp/bonanza_shogi/) — 評価関数の重みを**プロ棋譜からの最適化学習**で得る手法。これが**チェスのNNUEより10年早い**機械学習評価関数の起源だ。後のStockfishのNNUE着想にも影響。
やねうら王 — NNUE発祥の地
やねうら王(磯崎元洋)が作ったオープンソース将棋エンジン。**NNUEを初めて実用化**した場所。後にStockfishがチェスに持ってきた。世界コンピュータ将棋選手権で優勝するのはほとんどがやねうら王の派生型だ。
dlshogi — AlphaZeroの将棋版
GitHub: [github.com/TadaoYamaoka/DeepLearningShogi](https://github.com/TadaoYamaoka/DeepLearningShogi)。
- **AlphaZero風** — CNN + MCTS、自己対戦。
- やねうら王(NNUE)とdlshogi(深層学習)は異なる路線で同程度の強さ。
- 2021年世界コンピュータ将棋選手権優勝。
- RTX 4090やRTX 5090を2台束ねた構成 — 日本のGPU学習議論では事実上のリファレンス。
人間 vs 将棋AI — 名人戦とNHK杯
- **名人戦**: 将棋で最も格式高いタイトル。
- 2013年Ponanzaが佐藤天彦(現名人)ら一流プロを破った → 「もう人間とAIの公式対局はナンセンス」という雰囲気に。
- **NHK杯**: 早指しの公開対局にAIが参加することも(公式タイトル戦ではなくイベント)。
19章 · 誰がゲームAIを学ぶべきか
1) RL研究者
- AlphaZero, MuZero, AlphaStar, Ciceroは**RLの教科書**だ。
- OpenSpiel, RLlib, JAX/Acmeで手を動かして実験できる。
- ゲームは環境がクリーンなのでRLのほぼ標準ベンチマーク。
2) ボードゲームエンジン開発者
- Stockfish, Lc0, KataGoは**単一ゲームをどこまで最適化できるか**の見本。
- C++ / CUDAを本気で深く触りたいなら良い入り口。
3) 多エージェント / 交渉AI
- CiceroとPluribusは**多人数+協力+自然言語**の学術標準ケース。
- LLMエージェントで交渉システムを作るなら必読。
4) ゲーム会社
- ゲーム内ボット、マッチメイキング、コンテンツ生成にRLが入ってきている。
- 例: NCsoft韓乭、OpenAI Five。
5) 教育・コーチング
- Maia、そしてchess.com / lichessのコーチボット。
- 生徒のELOに合わせて「人間らしい」相手を作る仕事。
20章 · 結び — 「超人間」が意味するもの
2026年のゲームAIはほぼすべての標準ゲームで人間より強い。チェス、囲碁、将棋、ヘッズアップ/多人数ポーカー、StarCraft 2、Dota 2、麻雀、Diplomacy。さらに国際数学オリンピックも銀メダルレベル。
しかしこれで終わりではない。新しいゲーム — 例えば**MMOのPvEダンジョン攻略**、**MOBAの新ヒーローメタ発見**、**TCGの新セット発売直後のメタ探索** — などはまだ活発な研究領域だ。
そしてもっと興味深い方向は**「人間らしいAI」**だ — Maiaのように、Ciceroのように。単に「より強いAI」ではなく、人間と**一緒に**指し、人間が理解でき、人間を教えるAI。
ゲームAIは終わっていない。ただ**「勝つこと」がもはやゴールではない時代**に入ったに過ぎない。
参考文献 / References
- [Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature.](https://www.nature.com/articles/nature16961)
- [Silver, D., et al. (2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm." arXiv:1712.01815.](https://arxiv.org/abs/1712.01815)
- [Schrittwieser, J., et al. (2019). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)." arXiv:1911.08265.](https://arxiv.org/abs/1911.08265)
- [Brown, N., & Sandholm, T. (2019). "Superhuman AI for multiplayer poker (Pluribus)." Science 365 (6456): 885-890.](https://www.science.org/doi/10.1126/science.aay2400)
- [Bakhtin, A., et al. (2022). "Human-level play in the game of Diplomacy by combining language models with strategic reasoning (Cicero)." Science.](https://www.science.org/doi/10.1126/science.ade9097)
- [Vinyals, O., et al. (2019). "Grandmaster level in StarCraft II using multi-agent reinforcement learning (AlphaStar)." Nature.](https://www.nature.com/articles/s41586-019-1724-z)
- [OpenAI Five blog (2018-2019).](https://openai.com/research/openai-five)
- [Li, J., et al. (2020). "Suphx: Mastering Mahjong with Deep Reinforcement Learning." arXiv:2003.13590.](https://arxiv.org/abs/2003.13590)
- [Trinh, T., et al. (2024). "Solving olympiad geometry without human demonstrations (AlphaGeometry)." Nature.](https://www.nature.com/articles/s41586-023-06747-5)
- [DeepMind blog. "AI achieves silver-medal standard solving IMO problems (AlphaProof + AlphaGeometry, 2024)."](https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/)
- [McIlroy-Young, R., et al. (2020). "Aligning Superhuman AI with Human Behavior (Maia)." KDD.](https://arxiv.org/abs/2006.01855)
- [Stockfish — GitHub repository.](https://github.com/official-stockfish/Stockfish)
- [Leela Chess Zero — Project site.](https://lczero.org/)
- [KataGo — David Wu's repository.](https://github.com/lightvector/KataGo)
- [dlshogi — Yamaoka Tadao's repository.](https://github.com/TadaoYamaoka/DeepLearningShogi)
- [Yaneura-ou — Yaneura's shogi engine.](https://github.com/yaneurao/YaneuraOu)
- [lichess.org source code (lila).](https://github.com/lichess-org/lila)
- [chess.com.](https://www.chess.com/)
- [ChessBase Mega Database.](https://shop.chessbase.com/)
- [Arena Chess GUI.](https://playwitharena.de/)
- [Banksia GUI.](https://banksiagui.com/)
- [NIBBLER GUI for Lc0.](https://github.com/rooklift/nibbler)
- [DeepMind OpenSpiel.](https://github.com/deepmind/open_spiel)
- [Wikipedia: AlphaGo versus Lee Sedol.](https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol)
현재 단락 (1/290)
2016年3月、李世乭(イ・セドル)はAlphaGoに1勝4敗で敗れた。多くの人が「もう囲碁は終わった」と言い、実際に終わった。2017年、AlphaGo Zeroは人間の棋譜をゼロにして自己対戦のみ...