- Published on
超人間ゲームAI 2026 — Stockfish 17 / Leela Chess Zero / KataGo / AlphaZero / MuZero / Cicero / Pluribus / AlphaStar / 将棋 dlshogi 深掘りガイド
- Authors

- Name
- Youngju Kim
- @fjvbn20031
- プロローグ — 人間が勝てない時代
- 1章 · 2026年ゲームAIの地図 — 4分類
- 2章 · Stockfish 17 — チェスの最強
- 3章 · Leela Chess Zero (Lc0) — ニューラルネット系チェスエンジン
- 4章 · Komodo Dragon 3 — 商用チェスエンジンの最後の雄
- 5章 · AlphaZero → MuZero — DeepMindライン
- 6章 · Maia — 人間らしいチェス(MS Research + Toronto)
- 7章 · KataGo — 囲碁分散学習の頂点
- 8章 · AlphaGo — 2016年のあのシリーズ
- 9章 · Pluribus — 6人ポーカーの征服(Meta 2019)
- 10章 · Cicero — Diplomacy(Meta 2022)
- 11章 · AlphaStar — StarCraft 2(DeepMind 2019)
- 12章 · OpenAI Five — Dota 2
- 13章 · Suphx — 麻雀(Microsoft 2019)
- 14章 · AlphaProof + AlphaGeometry — IMO銀メダル(2024)
- 15章 · チェスUI — lichess / chess.com / ChessBase / Arena / Banksia / NIBBLER
- 16章 · UCIとXBoardプロトコル
- 17章 · 韓国 — NCsoftの韓乭、そして李世乭
- 18章 · 日本 — 将棋AI発展史、dlshogi、やねうら王
- 19章 · 誰がゲームAIを学ぶべきか
- 20章 · 結び — 「超人間」が意味するもの
- 参考文献 / References
プロローグ — 人間が勝てない時代
2016年3月、李世乭(イ・セドル)はAlphaGoに1勝4敗で敗れた。多くの人が「もう囲碁は終わった」と言い、実際に終わった。2017年、AlphaGo Zeroは人間の棋譜をゼロにして自己対戦のみでAlphaGoを上回り、同年AlphaZeroは同じアルゴリズム一つでチェス・将棋・囲碁を制覇した。2019年にはMuZeroが「ゲームのルールを知らないまま」同じことをやってのけた。
チェスも同様だ。Stockfish 17は人間の世界チャンピオンをどの時間設定でもほぼ100%倒す。Stockfish vs Leela Chess Zero (Lc0)のTCEC決勝戦は、人間が観戦者となる大会だ。スマホで動くStockfishですら人間のグランドマスターを倒す。
しかしゲームAIはチェス・囲碁だけではない。Pluribus(Meta 2019)は6人ノーリミット・テキサスホールデムで人間プロを破り、Cicero(Meta 2022)はDiplomacyで自然言語による同盟・裏切りの交渉を行い上位10%に入った。AlphaStarはStarCraft 2で、OpenAI FiveはDota 2で、Suphxは麻雀で、そして2024年のAlphaProof + AlphaGeometryは国際数学オリンピック(IMO)で銀メダルレベルを記録した。
この記事は2026年時点で「どのゲームAIがどこまで来ていて、何をどうやっているか」を1か所にまとめる。単なる年代記ではなく、アルゴリズム(MCTS / NNUE / 自己対戦 / CFR / モデルベースRL)の観点で同じ系統をグループ化する。
1章 · 2026年ゲームAIの地図 — 4分類
ゲームAIをきれいに切る一本の軸は、情報の完全性とプレイヤー数だ。
| 分類 | 情報 | 人数 | 代表ゲーム | 代表AI |
|---|---|---|---|---|
| 完全情報・2人 | 公開 | 2 | チェス、囲碁、将棋 | Stockfish, Lc0, KataGo, AlphaZero, dlshogi |
| 完全情報・1人パズル | 公開 | 1 | 数学証明 | AlphaProof, AlphaGeometry |
| 不完全情報・2人 | 非公開 | 2 | ヘッズアップポーカー | Libratus, DeepStack |
| 不完全情報・多人数 | 非公開 | 3+ | 6人ポーカー、麻雀 | Pluribus, Suphx |
| 不完全情報+言語 | 非公開+自然言語 | 7 | Diplomacy | Cicero |
| リアルタイム・部分観測 | 一部公開 | 2~10 | StarCraft 2, Dota 2 | AlphaStar, OpenAI Five |
この軸が重要なのはアルゴリズムが変わるからだ。
- 完全情報の2人ゼロ和ではミニマックスが効く → α-β(Stockfish)か MCTS + ニューラルネット(Lc0, KataGo, AlphaZero)。
- 不完全情報ではミニマックスが破綻する → CFR(反実仮想後悔最小化)系統が標準。LibratusとPluribusがその系譜。
- 多人数+言語+協力は上のどれも効かない → Ciceroのように強化学習+LLMの融合が必要。
- リアルタイムでは時間そのものが行動 → ポリシーネット+分散自己対戦(AlphaStar, OpenAI Five)。
この地図を頭に入れて、次章から1種ずつ見ていく。
2章 · Stockfish 17 — チェスの最強
Stockfishは2008年から開発が続くオープンソースのチェスエンジンだ。C++、GPL v3ライセンス、github.com/official-stockfish/Stockfishで開発されている。2026年現在の最新安定版がStockfish 17で、CCRLとTCECの両方で1位を維持している。
何が変わったか — α-β + NNUE
伝統的なStockfishはα-β剪定+多数のヒューリスティック(null-move pruning, late move reductions, futility pruningなど)を使っていた。評価関数は手作りのチェス知識 — ポーン構造、キング安全、機動力など。
**Stockfish 12(2020)からNNUE(Efficiently Updatable Neural Network)**が導入された。日本将棋コミュニティ(やねうら王グループ、特に那須悠)が考案した構造で、小さなニューラルネットをCPU上で高速評価するのが核心だ。GPUは不要、1手ごとにネット全体を再計算せず変化分だけ更新 → 「Efficiently Updatable」。
Stockfish 17の主な特徴:
- NNUEが標準。手作り評価関数はフォールバック程度。
- 探索は依然としてα-βベース — Lc0のMCTSとは対照的。
- マルチスレッドが非常によくできていて、128コアでもほぼ線形にスケール。
- スマホでも動く — iPhone 16 Proで毎秒数十万ノード。
実行方法
# Linux / macOS — パッケージマネージャでインストール
brew install stockfish # macOS
sudo apt install stockfish # Debian / Ubuntu
# または直接ダウンロード: https://stockfishchess.org/download/
# UCIモードで実行
stockfish
# UCIセッションの例
uci
id name Stockfish 17
id author the Stockfish developers
...
uciok
position startpos moves e2e4 e7e5
go depth 20
info depth 20 seldepth 28 multipv 1 score cp 31 nodes 1234567 ...
bestmove g1f3 ponder b8c6
Stockfishはチェスを解いたか
「解いた」の強い意味ではまだ違う — チェスのゲーム木は約、完全解は不可能。だが弱い意味では事実上「解けた」と言える — どんな時間設定でも人間はStockfishに勝てない。世界チャンピオン(2024年Ding Liren、2025年からGukesh Dommaraju)も同様だ。
3章 · Leela Chess Zero (Lc0) — ニューラルネット系チェスエンジン
Leela Chess Zero(Lc0)はAlphaZero論文(2017)を読んだ人たちが「うちらもやってみよう」と始めたオープンソースプロジェクトだ。lczero.org、github.com/LeelaChessZero/lc0。
Stockfishとの違い
| 項目 | Stockfish 17 | Leela Chess Zero (Lc0) |
|---|---|---|
| 探索 | α-β + ヒューリスティック | MCTS(PUCT) |
| 評価 | NNUE(小型NN、CPU) | 大型NN(CNN / Transformer、GPU) |
| ハードウェア | CPU中心、マルチコア | GPU中心、NVIDIA RTX 5090が人気 |
| 学習 | 無し(評価器のみ訓練) | 自己対戦で1から学習 |
| 毎秒ノード数 | 数百万~数千万 | 数万~数十万 |
| スタイル | 戦術的、計算重視 | 位置的、直感的 |
Lc0はノード効率(1ノードあたりどれだけ深く理解しているか)が圧倒的に高い。 Stockfishが毎秒1,000万ノード見るのに対し、Lc0は10万ノードしか見ない — それでも同程度の強さに到達する。理由はニューラルネットが「どの手が有望か」を事前に教えてくれるから(ポリシーネット+バリューネット)。
学習 — 分散自己対戦
Lc0は数万人のボランティアがGPU時間を寄付する分散自己対戦プロジェクトだ。各クライアントが1試合プレイして結果をサーバーにアップロードし、それが学習データになる。RTX 5090なら1時間に数十試合、累積学習試合数は数十億を超える。
# Lc0をビルドしてネットワークウェイトを取得
git clone https://github.com/LeelaChessZero/lc0
cd lc0
./build.sh
# ウェイトは https://lczero.org/play/networks/bestnets/ にある
# BT5やBT4シリーズが強い
誰がLc0を使うか
- TCEC(Top Chess Engine Championship)でStockfishの永遠のライバル。
- カールセン、カリャーキン、カルアナら一流棋士のオープニング準備。
- ChessBase経由のデータとして。
4章 · Komodo Dragon 3 — 商用チェスエンジンの最後の雄
Komodo DragonはDon DaileyとLarry Kaufmanが作ったチェスエンジン。2018年にchess.comが買収、2026年現在はKomodo Dragon 3。商用エンジン(年間サブスクリプション)だが、chess.comの分析ツールのデフォルトエンジンなので実質1日数億回呼び出されている。
特徴
- NNUEを早期に採用(Dragon 1、2021)。
- 位置的スタイル — Kaufmanは元GM、その影響か人間が見て「人間らしい」手を出す。
- マルチPV分析で人間が理解できる変化を出してくれる → コーチング用途で便利。
- Stockfishよりやや弱いが、確実にトップ3。
Stockfishが無料・オープンソースなのに、なぜ商用を使うのか
- chess.comのような商用サービスは安定したライセンスとサポートが必要。
- 「人間を教える」分析ではKomodoの直感的評価が役に立つ。
- chess.com Insightsの定跡分析はKomodoが標準。
5章 · AlphaZero → MuZero — DeepMindライン
AlphaZero (2017) — 1つのアルゴリズムで3つのゲーム
Silver et al., 2017, "Mastering Chess and Shogi by Self-Play..."。
- MCTS + 深層ニューラルネット(ポリシー + バリュー)。
- 完全に自己対戦のみで学習 — 人間棋譜ゼロ。
- チェス・将棋・囲碁すべて同じアルゴリズムで解いた。
- 学習後にStockfish 8を100戦で28勝0敗72分(2017年時点 — その後StockfishがNNUEで追いついた)。
- TPU 5,000台 + TPU 64台で数日学習。
AlphaZeroが変えたもの
これまでチェスエンジンはチェス知識を人間がコーディングしていた。ポーン構造、キング安全、ダブルルーク、ビショップペア — すべて元GMの開発者が書いたヒューリスティックだ。AlphaZeroはそれをすべて捨て、自己対戦のみで同レベルに到達した。これが衝撃だった。
MuZero (2019) — ルールを知らないとき
Schrittwieser et al., 2019, "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"。
- AlphaZeroはゲームのルールを知っている(ある手を打った後の盤面が分かる)。
- MuZeroはルールを知らない — 「次の盤面」をニューラルネット自身が予測する。
- なのでAtariのようなピクセルゲームにもそのまま適用可能 → 同じアルゴリズムでボードゲーム+Atariを征服。
- 後にEfficientZero(2021)、Stochastic MuZero(2022)に拡張。
コード
DeepMindから公式のオープンソースは無いが、有名な再実装がある:
- OpenSpiel(github.com/deepmind/open_spiel) — DeepMind公式のゲームRLフレームワーク。AlphaZeroベースを含む。
- muzero-general(github.com/werner-duvaud/muzero-general) — 人気のPyTorch実装。
6章 · Maia — 人間らしいチェス(MS Research + Toronto)
多くのエンジンは「最強の手」を打つ。Maiaはその正反対 — 人間が打ちそうな手を打つ。
- 開発: Microsoft Research + University of Toronto(Reid McIlroy-Young, Siddhartha Sen, Jon Kleinberg, Ashton Anderson)。
- 論文: KDD 2020, "Aligning Superhuman AI with Human Behavior"。
- GitHub: github.com/CSSLab/maia-chess。
作り方
- lichessの匿名人間棋譜データで学習 — 各ELO帯ごとに別モデル。
- maia-1100, maia-1500, maia-1900など — 数字は学習対象のELO。
- AlphaZero風CNN、MCTSは1ノード(ポリシー出力のみ)。
- 結果: maia-1500は1500ELOの人間が最もよく打つ手を最もよく打つ。
なぜ重要か
- チェスのコーチング: 生徒のELOに合わせて「この局面ならあなたくらいの人は普通こう打つ」と教えられる。
- AI安全研究の小さなケース: 「最強のAI」ではなく「人間と整合したAI」が必要な領域。
- 人間との対戦: lichessのMaiaボットは、人間が対戦するのに最も自然な相手の一つ。
7章 · KataGo — 囲碁分散学習の頂点
チェスにLc0があるなら、囲碁にはKataGoがある。
- 開発者: David Wu(個人スタート → 分散学習へ拡大)。
- GitHub: github.com/lightvector/KataGo。
- AlphaZero風だが、学習効率の改良が多数入っていて、同じ計算量でより強い。
AlphaGo Zeroより強いか
- AlphaGo Master(2017)は李世乭バージョンのAlphaGoよりずっと強かった。
- AlphaGo Zero(2017、社内完結)はMasterよりさらに強かった。
- KataGoは分散学習でそのAlphaGo Zeroレベルをオープンソースで再現し、その後さらに強くなった。
改良点
- スコアベースの報酬モデリング — 「何目差で勝ったか」を直接学習 → 終盤で人間が理解しやすい手。
- 複数の盤サイズを1つのネットワークが扱う(9x9, 13x13, 19x19)。
- 置碁や非公式ルール(中国式・日本式数え方)。
誰がKataGoを使うか
- ほぼ全てのプロ棋士が分析ツールとして使う。
- 韓国・中国・日本の主要研究所がKataGoを動かしている。
- 人気GUI: Lizzie, KaTrain, Sabaki。
そしてLeela Zero(囲碁)
Leela ZeroはKataGo以前の分散囲碁プロジェクトで、Lc0の囲碁版。2017~2019年、AlphaGo Zero論文をオープンソースで再現した。後にKataGoのほうが効率的だったのでボランティアが移行し、実質終了。だがAlphaGo Zeroのレベルを外部から初めて再現したという歴史的意義がある。
8章 · AlphaGo — 2016年のあのシリーズ
2026年からするとAlphaGoは「歴史」だが、ゲームAI年代記の分岐点だ。
AlphaGoラインナップ
| バージョン | 年 | 特徴 | 結果 |
|---|---|---|---|
| AlphaGo Fan | 2015 | CNN + MCTS, 人間棋譜で事前学習 | Fan Hui(欧州王者)5-0 |
| AlphaGo Lee | 2016 | より大きなポリシーネット、分散推論 | 李世乭4-1 |
| AlphaGo Master | 2017.1 | 単一ネットワーク、一部自己対戦 | オンライン60連勝、柯潔3-0 |
| AlphaGo Zero | 2017.10 | 人間棋譜ゼロ、自己対戦のみ | Master 89-11 |
| AlphaZero | 2017.12 | 同アルゴリズムをチェス・将棋・囲碁に一般化 | Stockfish 8 / Elmo / AlphaGo Zero撃破 |
李世乭の第4局、78手目
2016年3月13日の第4局。李世乭は78手目に「神の一手」(divine move、2石の間に割り込む)を打った。AlphaGoの評価関数はこの手をほぼ0%の確率で予測しており、その後形勢を誤判断、李世乭が勝った。人間がトップの囲碁AIに勝った最後の公式対局として記録されている(2025年現在まで)。
李世乭は2019年に引退、「AIに勝てないゲームを続ける理由がない」という趣旨の発言をした。韓国社会においてAlphaGoは単なるAI事件ではなく、**「李世乭の第4局」**として記憶されている。
9章 · Pluribus — 6人ポーカーの征服(Meta 2019)
チェス・囲碁は完全情報ゲームなのでミニマックスが効く。ポーカーは違う — 相手のカードは見えないし、運があるし、ブラフはゲームの一部だ。
- 論文: Brown & Sandholm, 2019, "Superhuman AI for multiplayer poker"(Science)。
- 開発: Facebook AI Research(現Meta) + カーネギーメロン大学。
中核アルゴリズム — モンテカルロCFR + 深さ制限探索
- CFR (Counterfactual Regret Minimization): 不完全情報ゲームの標準学習アルゴリズム。「もしこの時点で別の行動を取っていたらどれだけ後悔したか」を累積して戦略を更新する。
- Blueprint strategy: オフライン自己対戦で巨大な「基本戦略」を学習。約8日間、12,400 CPUコア。
- リアルタイムの深さ制限探索: 対局中は数手深さだけ再計算。1ハンドあたり約20秒。
何が衝撃だったか
- ヘッズアップ(2人)ポーカーは2017年にLibratusがすでに人間を破っていた。
- 6人は次元が違う問題 — 多エージェント、連携の可能性、サイドベット。CFRの収束理論が弱い。
- Pluribusは理論的保証なしに人間トッププロに統計的有意差で勝った(13人のプロ、1万ハンド)。
- 1日約1,000ドルのクラウドサーバーで動いた — AlphaZeroのようなスパコンは要らない。
人間が見て衝撃的だった行動
- ランダム化されたベットサイズ — 同じハンドでも毎回ベット額が違う → 相手にハンドが読まれない。
- ドンクベット — 人間プロがほとんど使わなかった手をPluribusは頻用。
- ゲーム理論的に最適なブラフ頻度 — 多すぎず少なすぎず。
10章 · Cicero — Diplomacy(Meta 2022)
Pluribusが「数学的に難しい」ゲームを解いたなら、Ciceroが解いたDiplomacyは言語と人間交渉が難しいゲームだ。
- 論文: Bakhtin et al., 2022, "Human-level play in the game of Diplomacy by combining language models with strategic reasoning"(Science)。
- 開発: Meta AI。
Diplomacyが難しい理由
- 7人がヨーロッパの地図上で同盟と裏切りを繰り返す。
- 毎ターン自由形式のチャット交渉。チャットで何を漏らすか、誰と同盟するかがゲームそのもの。
- 嘘が合法 — 同盟を約束して裏切ってもルール違反ではない。
- サイコロ無し、非対称情報+多人数協力+言語。
Ciceroのアーキテクチャ
- 言語モデル(LLM) — Diplomacyのチャットデータでファインチューンした27億パラメータのBART。
- 戦略モデル — 自己対戦で学習したポリシーネットワーク、RLベース。
- 意図推定 → メッセージ生成 → 行動決定 — 自身の意図と相手の意図を同時にモデル化。
結果
- webDiplomacyの匿名トーナメントで上位10%、40局平均で人間平均の2倍のスコア。
- 一度も「AIっぽい」と疑われずに人間相手と自然に会話して勝った。
- 意図的に嘘をつくよう学習させていない — 一貫性が崩れると同盟自体が壊れるため。結果として「正直な協力者」が強い戦略だった。
これは単なるゲームAIの勝利を超え、AIが自然言語+戦略+多者交渉という人間社会のコアを扱えることを示した分岐点だ。
11章 · AlphaStar — StarCraft 2(DeepMind 2019)
- 論文: Vinyals et al., 2019, "Grandmaster level in StarCraft II using multi-agent reinforcement learning"(Nature)。
StarCraft 2が難しい理由
- リアルタイム — ターン無し、1試合に数万回のクリック。
- 部分観測 — 戦争の霧で相手が見えない。
- 巨大な行動空間 — 毎フレーム数百万通りの有効行動の組み合わせ。
- 長期報酬 — 勝敗はゲーム終了時にしか確定しない(数十分)。
- 3種族(Terran/Zerg/Protoss)が非対称。
アルゴリズム
- 自己対戦RL + **リーグ(League)**システム。
- 様々な「スタイル」のエージェントが互いに対戦、新エージェントは**「現チャンピオンが倒せないスタイル」**を学習する。
- これが多様なメタを自動発見させる。
- TPU 16台で14日間学習。
結果
- Battle.netのラダーで**グランドマスター(上位0.2%)**到達。
- 人間プロMaNaとTLOにシリーズ勝利(公開戦5-0)。
- 人間視点で「非人間的なマイクロコントロール」(200+ APMの同時操作)と「非人間的な戦略」(常時マルチタスク)を見せた、どちらもルール上は合法。
12章 · OpenAI Five — Dota 2
- ブログ: openai.com/research/openai-five。
- 開発: OpenAI(2017~2019)。
Dota 2のさらに難しい点
- 5対5のチームゲーム — 協力が本質。
- 時間スケールがさらに長い — 平均1試合45分。
- 100以上のヒーロー — 行動空間がさらに広い。
- 長期戦略(アイテムビルド、レーン、終盤チームファイト) + 短期マイクロ。
結果
- 2018年OG戦のデモ、2019年に世界王者OGを2-0で破った。
- 約256 GPU + 12万8千CPUで10か月学習。
- 累積学習試合時間は約45,000年分。
これは事実上分散強化学習の産業規模デモだった。OpenAI Fiveが確立した「自己対戦+大規模計算」のパラダイムが、OpenAIをOpenAIたらしめた(その後のGPT路線)。
13章 · Suphx — 麻雀(Microsoft 2019)
Li et al., 2019, "Suphx: Mastering Mahjong with Deep Reinforcement Learning"。
麻雀が難しい理由
- 4人ゲーム(2人ではない)。
- 手牌が非公開+ドロー(ツモ)がある。
- スコアシステムが1局単位ではなく半荘単位で累積 → 長期意思決定。
- 日本のリーチ麻雀には「テンパイ」「役」「ドラ」など複雑なルール。
Suphxのアプローチ
- モデル: ResNet + 勾配モニタリングRL。
- 学習トリック: グローバル報酬予測(今局の行動が試合全体にどれだけ価値があるかを予測)。
- 実行時ポリシー適応 — 試合進行に応じて方針を微調整。
結果
- 日本のオンライン麻雀プラットフォーム天鳳で十段到達 — 上位0.01%、人間トッププレイヤーレベル。
14章 · AlphaProof + AlphaGeometry — IMO銀メダル(2024)
数学の証明はゲームではないが、本質的には巨大な探索問題だ。DeepMindはこれをゲームAI技法で解く。
AlphaGeometry (2024.1, Nature)
Trinh et al., 2024, "Solving olympiad geometry without human demonstrations"。
- 平面幾何に特化。
- ニューラル言語モデルが補助線を提案 → 記号推論器が検証。
- IMO 2000~2022年の幾何問題30問中25問を解いた(人間IMO金メダリストの平均は25.9問)。
AlphaProof (2024.7)
DeepMindブログ: deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level。
- Lean 4形式証明言語で証明を書く。
- パイプライン: 自然言語問題 → 形式化 → 証明。
- AlphaZero風自己対戦RLで証明探索。
2024 IMOの結果
- IMO 6問中4問満点(28/42点)。
- 銀メダル相当(2024年銀メダルのカットラインは29点なので1点差で逃したが、実質上位25%)。
- 問題1・2(AlphaProof)/ 4(AlphaGeometry)/ 6(AlphaProof)。問題3と5は制限時間内に解けず。
15章 · チェスUI — lichess / chess.com / ChessBase / Arena / Banksia / NIBBLER
エンジンがどれだけ強くても、人間が使うにはUIが必要だ。2026年の整理:
lichess.org — FOSSの頂点
- 無料・広告無し・オープンソース(AGPL v3)。
- lichess.org, github.com/lichess-org/lila。
- 分析エンジンはStockfishが標準 — ブラウザでWebAssembly経由ローカル実行。
- 重い分析はfishnetというボランティア分散ネットワークが処理。
- 月間1億局以上を捌く。
- 韓国でも無料+高速サーバーで急速に普及。
chess.com — 商用1位
- 月間アクティブユーザー5,000万人以上。
- 分析エンジン: Stockfish + Komodo Dragon(KomodoはOSchess.com保有)。
- レッスンライブラリ(GMコース)、ボット対戦、トーナメント。
- マグヌス・カールセンら一流GMがchess.comのSpeed Chess Championshipに出場。
ChessBase
- ドイツのChessBase社のデスクトップ・データベース+エンジンツール。
- 大会準備の事実上の標準 — Mega Databaseに1,000万局以上。
- エンジン(Fritz, Komodo, Stockfish)はすべてUCIで接続。
- 高価(年€100~)だがプロGMには必須。
Arena, Banksia, NIBBLER — エンジンテスト用
- Arena(playwitharena.de) — クラシックな無料Windowsチェスソフト。UCI / XBoardエンジン接続の標準。
- Banksia GUI(banksiagui.com) — 比較的新しいGUI。CCRLの非公式標準。
- NIBBLER(github.com/rooklift/nibbler) — Lc0専用GUI。ポリシーネット出力を可視化する。
16章 · UCIとXBoardプロトコル
エンジンとGUIが通信する標準が2つある。
UCI (Universal Chess Interface)
1990年代後半にStefan Meyer-Kahlenが作った標準。現代のほぼすべてのエンジンがUCIを話す。
# GUI -> エンジン
uci # エンジンに「UCIモード」に入るよう指示
setoption name Threads value 8
isready
position startpos moves e2e4 e7e5
go wtime 60000 btime 60000
# エンジン -> GUI
id name Stockfish 17
uciok
readyok
info depth 20 score cp 31 ...
bestmove g1f3 ponder b8c6
XBoard / CECP
もっと古い(1990年代前半)。一部のクラシックエンジン(Crafty, GNU Chess)が今でも使う。lichessはXBoard形式のボットもサポート。
違い
| 項目 | UCI | XBoard / CECP |
|---|---|---|
| 登場 | 1990年代後半 | 1990年代前半 |
| 時間管理 | GUIが時間を送る | エンジン自身がクロック計測 |
| オプション | 統一されたsetoption | エンジンごとに異なる |
| シェア | 圧倒的1位 | レガシー中心 |
今日新しいエンジンを作るならまずUCIだ。
17章 · 韓国 — NCsoftの韓乭、そして李世乭
韓乭(NCsoft)
NCsoftのAIセンターが作った韓国製囲碁AI。2017年に初公開、2019年12月、李世乭の引退対局で1局目を勝ち、2~3局を負けて1-2でシリーズを落とした。
- 1局目で李世乭は78手目の左辺侵入で攻めをかけ、韓乭が形勢評価を誤った。
- これは李世乭が公式対局でAIに勝った最後の勝利として記録されている(2025年現在まで)。
その後、韓乭はNCsoft社内研究にとどまり、一般向けの分析ツールとして大々的にはリリースされなかった。NCsoftはゲームAI全般(リネージュのNPC、強化学習ベースのコンテンツなど)に重心を移していった。
LG・カカオ — 韓国の囲碁AI
- LGも2010年代後半に独自の囲碁AIを開発したが、韓乭ほど可視化されなかった。
- カカオブレインは一時自社の囲碁AI(Katajaなどのコードネーム)を試したが、後にKataGoのオープンソース貢献にシフトした。
韓国における囲碁AIの意味
李世乭 vs AlphaGoは**「AI」という言葉が韓国の一般大衆に日常化した出来事**だ。2016年3月以前と以後で、韓国メディアでの「AI」という言葉の出現頻度が質的に違う。国家レベルのAI政策(2019年AI国家戦略)も、この事件の直接の結果である。
18章 · 日本 — 将棋AI発展史、dlshogi、やねうら王
将棋はチェスより駒の再利用があり、ゲーム木がチェスより遥かに大きい。日本のコンピュータ将棋コミュニティは1990年代から非常に活発だった。
主要エンジン(時系列)
| エンジン | 年 | 特徴 |
|---|---|---|
| 激指 | 1990年代 | 日本初の強い将棋エンジン |
| ボナンザ (Bonanza) | 2005 | 機械学習評価関数の元祖 — 保木邦仁 |
| GPS将棋 | 2009 | 東京大学GPSグループ |
| Ponanza | 2013~17 | 名人戦で初めて人間に勝利(2013) |
| Apery | 2014 | オープンソース |
| やねうら王 | 2015~ | 現在の日本標準エンジン — NNUE発祥地 |
| dlshogi | 2018~ | AlphaZero風NN、RTX 5090で学習 |
ボナンザの衝撃 — Bonanza Method
保木氏の2006年論文 — 評価関数の重みをプロ棋譜からの最適化学習で得る手法。これがチェスのNNUEより10年早い機械学習評価関数の起源だ。後のStockfishのNNUE着想にも影響。
やねうら王 — NNUE発祥の地
やねうら王(磯崎元洋)が作ったオープンソース将棋エンジン。NNUEを初めて実用化した場所。後にStockfishがチェスに持ってきた。世界コンピュータ将棋選手権で優勝するのはほとんどがやねうら王の派生型だ。
dlshogi — AlphaZeroの将棋版
GitHub: github.com/TadaoYamaoka/DeepLearningShogi。
- AlphaZero風 — CNN + MCTS、自己対戦。
- やねうら王(NNUE)とdlshogi(深層学習)は異なる路線で同程度の強さ。
- 2021年世界コンピュータ将棋選手権優勝。
- RTX 4090やRTX 5090を2台束ねた構成 — 日本のGPU学習議論では事実上のリファレンス。
人間 vs 将棋AI — 名人戦とNHK杯
- 名人戦: 将棋で最も格式高いタイトル。
- 2013年Ponanzaが佐藤天彦(現名人)ら一流プロを破った → 「もう人間とAIの公式対局はナンセンス」という雰囲気に。
- NHK杯: 早指しの公開対局にAIが参加することも(公式タイトル戦ではなくイベント)。
19章 · 誰がゲームAIを学ぶべきか
1) RL研究者
- AlphaZero, MuZero, AlphaStar, CiceroはRLの教科書だ。
- OpenSpiel, RLlib, JAX/Acmeで手を動かして実験できる。
- ゲームは環境がクリーンなのでRLのほぼ標準ベンチマーク。
2) ボードゲームエンジン開発者
- Stockfish, Lc0, KataGoは単一ゲームをどこまで最適化できるかの見本。
- C++ / CUDAを本気で深く触りたいなら良い入り口。
3) 多エージェント / 交渉AI
- CiceroとPluribusは多人数+協力+自然言語の学術標準ケース。
- LLMエージェントで交渉システムを作るなら必読。
4) ゲーム会社
- ゲーム内ボット、マッチメイキング、コンテンツ生成にRLが入ってきている。
- 例: NCsoft韓乭、OpenAI Five。
5) 教育・コーチング
- Maia、そしてchess.com / lichessのコーチボット。
- 生徒のELOに合わせて「人間らしい」相手を作る仕事。
20章 · 結び — 「超人間」が意味するもの
2026年のゲームAIはほぼすべての標準ゲームで人間より強い。チェス、囲碁、将棋、ヘッズアップ/多人数ポーカー、StarCraft 2、Dota 2、麻雀、Diplomacy。さらに国際数学オリンピックも銀メダルレベル。
しかしこれで終わりではない。新しいゲーム — 例えばMMOのPvEダンジョン攻略、MOBAの新ヒーローメタ発見、TCGの新セット発売直後のメタ探索 — などはまだ活発な研究領域だ。
そしてもっと興味深い方向は**「人間らしいAI」だ — Maiaのように、Ciceroのように。単に「より強いAI」ではなく、人間と一緒に**指し、人間が理解でき、人間を教えるAI。
ゲームAIは終わっていない。ただ**「勝つこと」がもはやゴールではない時代**に入ったに過ぎない。
参考文献 / References
- Silver, D., et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature.
- Silver, D., et al. (2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm." arXiv:1712.01815.
- Schrittwieser, J., et al. (2019). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)." arXiv:1911.08265.
- Brown, N., & Sandholm, T. (2019). "Superhuman AI for multiplayer poker (Pluribus)." Science 365 (6456): 885-890.
- Bakhtin, A., et al. (2022). "Human-level play in the game of Diplomacy by combining language models with strategic reasoning (Cicero)." Science.
- Vinyals, O., et al. (2019). "Grandmaster level in StarCraft II using multi-agent reinforcement learning (AlphaStar)." Nature.
- OpenAI Five blog (2018-2019).
- Li, J., et al. (2020). "Suphx: Mastering Mahjong with Deep Reinforcement Learning." arXiv:2003.13590.
- Trinh, T., et al. (2024). "Solving olympiad geometry without human demonstrations (AlphaGeometry)." Nature.
- DeepMind blog. "AI achieves silver-medal standard solving IMO problems (AlphaProof + AlphaGeometry, 2024)."
- McIlroy-Young, R., et al. (2020). "Aligning Superhuman AI with Human Behavior (Maia)." KDD.
- Stockfish — GitHub repository.
- Leela Chess Zero — Project site.
- KataGo — David Wu's repository.
- dlshogi — Yamaoka Tadao's repository.
- Yaneura-ou — Yaneura's shogi engine.
- lichess.org source code (lila).
- chess.com.
- ChessBase Mega Database.
- Arena Chess GUI.
- Banksia GUI.
- NIBBLER GUI for Lc0.
- DeepMind OpenSpiel.
- Wikipedia: AlphaGo versus Lee Sedol.