Skip to content
Published on

超人間ゲームAI 2026 — Stockfish 17 / Leela Chess Zero / KataGo / AlphaZero / MuZero / Cicero / Pluribus / AlphaStar / 将棋 dlshogi 深掘りガイド

Authors

プロローグ — 人間が勝てない時代

2016年3月、李世乭(イ・セドル)はAlphaGoに1勝4敗で敗れた。多くの人が「もう囲碁は終わった」と言い、実際に終わった。2017年、AlphaGo Zeroは人間の棋譜をゼロにして自己対戦のみでAlphaGoを上回り、同年AlphaZeroは同じアルゴリズム一つでチェス・将棋・囲碁を制覇した。2019年にはMuZeroが「ゲームのルールを知らないまま」同じことをやってのけた。

チェスも同様だ。Stockfish 17は人間の世界チャンピオンをどの時間設定でもほぼ100%倒す。Stockfish vs Leela Chess Zero (Lc0)のTCEC決勝戦は、人間が観戦者となる大会だ。スマホで動くStockfishですら人間のグランドマスターを倒す。

しかしゲームAIはチェス・囲碁だけではない。Pluribus(Meta 2019)は6人ノーリミット・テキサスホールデムで人間プロを破り、Cicero(Meta 2022)はDiplomacyで自然言語による同盟・裏切りの交渉を行い上位10%に入った。AlphaStarはStarCraft 2で、OpenAI FiveはDota 2で、Suphxは麻雀で、そして2024年のAlphaProof + AlphaGeometryは国際数学オリンピック(IMO)で銀メダルレベルを記録した。

この記事は2026年時点で「どのゲームAIがどこまで来ていて、何をどうやっているか」を1か所にまとめる。単なる年代記ではなく、アルゴリズム(MCTS / NNUE / 自己対戦 / CFR / モデルベースRL)の観点で同じ系統をグループ化する。


1章 · 2026年ゲームAIの地図 — 4分類

ゲームAIをきれいに切る一本の軸は、情報の完全性プレイヤー数だ。

分類情報人数代表ゲーム代表AI
完全情報・2人公開2チェス、囲碁、将棋Stockfish, Lc0, KataGo, AlphaZero, dlshogi
完全情報・1人パズル公開1数学証明AlphaProof, AlphaGeometry
不完全情報・2人非公開2ヘッズアップポーカーLibratus, DeepStack
不完全情報・多人数非公開3+6人ポーカー、麻雀Pluribus, Suphx
不完全情報+言語非公開+自然言語7DiplomacyCicero
リアルタイム・部分観測一部公開2~10StarCraft 2, Dota 2AlphaStar, OpenAI Five

この軸が重要なのはアルゴリズムが変わるからだ。

  • 完全情報の2人ゼロ和ではミニマックスが効く → α-β(Stockfish)か MCTS + ニューラルネット(Lc0, KataGo, AlphaZero)。
  • 不完全情報ではミニマックスが破綻する → CFR(反実仮想後悔最小化)系統が標準。LibratusとPluribusがその系譜。
  • 多人数+言語+協力は上のどれも効かない → Ciceroのように強化学習+LLMの融合が必要。
  • リアルタイムでは時間そのものが行動 → ポリシーネット+分散自己対戦(AlphaStar, OpenAI Five)。

この地図を頭に入れて、次章から1種ずつ見ていく。


2章 · Stockfish 17 — チェスの最強

Stockfishは2008年から開発が続くオープンソースのチェスエンジンだ。C++、GPL v3ライセンス、github.com/official-stockfish/Stockfishで開発されている。2026年現在の最新安定版がStockfish 17で、CCRLとTCECの両方で1位を維持している。

何が変わったか — α-β + NNUE

伝統的なStockfishはα-β剪定+多数のヒューリスティック(null-move pruning, late move reductions, futility pruningなど)を使っていた。評価関数は手作りのチェス知識 — ポーン構造、キング安全、機動力など。

**Stockfish 12(2020)からNNUE(Efficiently Updatable Neural Network)**が導入された。日本将棋コミュニティ(やねうら王グループ、特に那須悠)が考案した構造で、小さなニューラルネットをCPU上で高速評価するのが核心だ。GPUは不要、1手ごとにネット全体を再計算せず変化分だけ更新 → 「Efficiently Updatable」。

Stockfish 17の主な特徴:

  • NNUEが標準。手作り評価関数はフォールバック程度。
  • 探索は依然としてα-βベース — Lc0のMCTSとは対照的。
  • マルチスレッドが非常によくできていて、128コアでもほぼ線形にスケール。
  • スマホでも動く — iPhone 16 Proで毎秒数十万ノード。

実行方法

# Linux / macOS — パッケージマネージャでインストール
brew install stockfish              # macOS
sudo apt install stockfish          # Debian / Ubuntu

# または直接ダウンロード: https://stockfishchess.org/download/
# UCIモードで実行
stockfish
# UCIセッションの例
uci
id name Stockfish 17
id author the Stockfish developers
...
uciok
position startpos moves e2e4 e7e5
go depth 20
info depth 20 seldepth 28 multipv 1 score cp 31 nodes 1234567 ...
bestmove g1f3 ponder b8c6

Stockfishはチェスを解いたか

「解いた」の強い意味ではまだ違う — チェスのゲーム木は約1012010^{120}、完全解は不可能。だが弱い意味では事実上「解けた」と言える — どんな時間設定でも人間はStockfishに勝てない。世界チャンピオン(2024年Ding Liren、2025年からGukesh Dommaraju)も同様だ。


3章 · Leela Chess Zero (Lc0) — ニューラルネット系チェスエンジン

Leela Chess Zero(Lc0)はAlphaZero論文(2017)を読んだ人たちが「うちらもやってみよう」と始めたオープンソースプロジェクトだ。lczero.orggithub.com/LeelaChessZero/lc0

Stockfishとの違い

項目Stockfish 17Leela Chess Zero (Lc0)
探索α-β + ヒューリスティックMCTS(PUCT)
評価NNUE(小型NN、CPU)大型NN(CNN / Transformer、GPU)
ハードウェアCPU中心、マルチコアGPU中心、NVIDIA RTX 5090が人気
学習無し(評価器のみ訓練)自己対戦で1から学習
毎秒ノード数数百万~数千万数万~数十万
スタイル戦術的、計算重視位置的、直感的

Lc0はノード効率(1ノードあたりどれだけ深く理解しているか)が圧倒的に高い。 Stockfishが毎秒1,000万ノード見るのに対し、Lc0は10万ノードしか見ない — それでも同程度の強さに到達する。理由はニューラルネットが「どの手が有望か」を事前に教えてくれるから(ポリシーネット+バリューネット)。

学習 — 分散自己対戦

Lc0は数万人のボランティアがGPU時間を寄付する分散自己対戦プロジェクトだ。各クライアントが1試合プレイして結果をサーバーにアップロードし、それが学習データになる。RTX 5090なら1時間に数十試合、累積学習試合数は数十億を超える。

# Lc0をビルドしてネットワークウェイトを取得
git clone https://github.com/LeelaChessZero/lc0
cd lc0
./build.sh
# ウェイトは https://lczero.org/play/networks/bestnets/ にある
# BT5やBT4シリーズが強い

誰がLc0を使うか

  • TCEC(Top Chess Engine Championship)でStockfishの永遠のライバル。
  • カールセン、カリャーキン、カルアナら一流棋士のオープニング準備。
  • ChessBase経由のデータとして。

4章 · Komodo Dragon 3 — 商用チェスエンジンの最後の雄

Komodo DragonはDon DaileyとLarry Kaufmanが作ったチェスエンジン。2018年にchess.comが買収、2026年現在はKomodo Dragon 3。商用エンジン(年間サブスクリプション)だが、chess.comの分析ツールのデフォルトエンジンなので実質1日数億回呼び出されている。

特徴

  • NNUEを早期に採用(Dragon 1、2021)。
  • 位置的スタイル — Kaufmanは元GM、その影響か人間が見て「人間らしい」手を出す。
  • マルチPV分析で人間が理解できる変化を出してくれる → コーチング用途で便利。
  • Stockfishよりやや弱いが、確実にトップ3。

Stockfishが無料・オープンソースなのに、なぜ商用を使うのか

  • chess.comのような商用サービスは安定したライセンスとサポートが必要。
  • 「人間を教える」分析ではKomodoの直感的評価が役に立つ。
  • chess.com Insightsの定跡分析はKomodoが標準。

5章 · AlphaZero → MuZero — DeepMindライン

AlphaZero (2017) — 1つのアルゴリズムで3つのゲーム

Silver et al., 2017, "Mastering Chess and Shogi by Self-Play..."

  • MCTS + 深層ニューラルネット(ポリシー + バリュー)。
  • 完全に自己対戦のみで学習 — 人間棋譜ゼロ。
  • チェス・将棋・囲碁すべて同じアルゴリズムで解いた。
  • 学習後にStockfish 8を100戦で28勝0敗72分(2017年時点 — その後StockfishがNNUEで追いついた)。
  • TPU 5,000台 + TPU 64台で数日学習。

AlphaZeroが変えたもの

これまでチェスエンジンはチェス知識を人間がコーディングしていた。ポーン構造、キング安全、ダブルルーク、ビショップペア — すべて元GMの開発者が書いたヒューリスティックだ。AlphaZeroはそれをすべて捨て、自己対戦のみで同レベルに到達した。これが衝撃だった。

MuZero (2019) — ルールを知らないとき

Schrittwieser et al., 2019, "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"

  • AlphaZeroはゲームのルールを知っている(ある手を打った後の盤面が分かる)。
  • MuZeroはルールを知らない — 「次の盤面」をニューラルネット自身が予測する
  • なのでAtariのようなピクセルゲームにもそのまま適用可能 → 同じアルゴリズムでボードゲーム+Atariを征服。
  • 後にEfficientZero(2021)、Stochastic MuZero(2022)に拡張。

コード

DeepMindから公式のオープンソースは無いが、有名な再実装がある:


6章 · Maia — 人間らしいチェス(MS Research + Toronto)

多くのエンジンは「最強の手」を打つ。Maiaはその正反対 — 人間が打ちそうな手を打つ。

作り方

  • lichessの匿名人間棋譜データで学習 — 各ELO帯ごとに別モデル
  • maia-1100, maia-1500, maia-1900など — 数字は学習対象のELO。
  • AlphaZero風CNN、MCTSは1ノード(ポリシー出力のみ)。
  • 結果: maia-1500は1500ELOの人間が最もよく打つ手を最もよく打つ

なぜ重要か

  • チェスのコーチング: 生徒のELOに合わせて「この局面ならあなたくらいの人は普通こう打つ」と教えられる。
  • AI安全研究の小さなケース: 「最強のAI」ではなく「人間と整合したAI」が必要な領域。
  • 人間との対戦: lichessのMaiaボットは、人間が対戦するのに最も自然な相手の一つ。

7章 · KataGo — 囲碁分散学習の頂点

チェスにLc0があるなら、囲碁にはKataGoがある

  • 開発者: David Wu(個人スタート → 分散学習へ拡大)。
  • GitHub: github.com/lightvector/KataGo
  • AlphaZero風だが、学習効率の改良が多数入っていて、同じ計算量でより強い。

AlphaGo Zeroより強いか

  • AlphaGo Master(2017)は李世乭バージョンのAlphaGoよりずっと強かった。
  • AlphaGo Zero(2017、社内完結)はMasterよりさらに強かった。
  • KataGoは分散学習でそのAlphaGo Zeroレベルをオープンソースで再現し、その後さらに強くなった。

改良点

  1. スコアベースの報酬モデリング — 「何目差で勝ったか」を直接学習 → 終盤で人間が理解しやすい手。
  2. 複数の盤サイズを1つのネットワークが扱う(9x9, 13x13, 19x19)。
  3. 置碁や非公式ルール(中国式・日本式数え方)。

誰がKataGoを使うか

  • ほぼ全てのプロ棋士が分析ツールとして使う。
  • 韓国・中国・日本の主要研究所がKataGoを動かしている。
  • 人気GUI: Lizzie, KaTrain, Sabaki

そしてLeela Zero(囲碁)

Leela ZeroはKataGo以前の分散囲碁プロジェクトで、Lc0の囲碁版。2017~2019年、AlphaGo Zero論文をオープンソースで再現した。後にKataGoのほうが効率的だったのでボランティアが移行し、実質終了。だがAlphaGo Zeroのレベルを外部から初めて再現したという歴史的意義がある。


8章 · AlphaGo — 2016年のあのシリーズ

2026年からするとAlphaGoは「歴史」だが、ゲームAI年代記の分岐点だ。

AlphaGoラインナップ

バージョン特徴結果
AlphaGo Fan2015CNN + MCTS, 人間棋譜で事前学習Fan Hui(欧州王者)5-0
AlphaGo Lee2016より大きなポリシーネット、分散推論李世乭4-1
AlphaGo Master2017.1単一ネットワーク、一部自己対戦オンライン60連勝、柯潔3-0
AlphaGo Zero2017.10人間棋譜ゼロ、自己対戦のみMaster 89-11
AlphaZero2017.12同アルゴリズムをチェス・将棋・囲碁に一般化Stockfish 8 / Elmo / AlphaGo Zero撃破

李世乭の第4局、78手目

2016年3月13日の第4局。李世乭は78手目に「神の一手」(divine move、2石の間に割り込む)を打った。AlphaGoの評価関数はこの手をほぼ0%の確率で予測しており、その後形勢を誤判断、李世乭が勝った。人間がトップの囲碁AIに勝った最後の公式対局として記録されている(2025年現在まで)。

李世乭は2019年に引退、「AIに勝てないゲームを続ける理由がない」という趣旨の発言をした。韓国社会においてAlphaGoは単なるAI事件ではなく、**「李世乭の第4局」**として記憶されている。


9章 · Pluribus — 6人ポーカーの征服(Meta 2019)

チェス・囲碁は完全情報ゲームなのでミニマックスが効く。ポーカーは違う — 相手のカードは見えないし、運があるし、ブラフはゲームの一部だ。

中核アルゴリズム — モンテカルロCFR + 深さ制限探索

  • CFR (Counterfactual Regret Minimization): 不完全情報ゲームの標準学習アルゴリズム。「もしこの時点で別の行動を取っていたらどれだけ後悔したか」を累積して戦略を更新する。
  • Blueprint strategy: オフライン自己対戦で巨大な「基本戦略」を学習。約8日間、12,400 CPUコア。
  • リアルタイムの深さ制限探索: 対局中は数手深さだけ再計算。1ハンドあたり約20秒。

何が衝撃だったか

  • ヘッズアップ(2人)ポーカーは2017年にLibratusがすでに人間を破っていた。
  • 6人は次元が違う問題 — 多エージェント、連携の可能性、サイドベット。CFRの収束理論が弱い。
  • Pluribusは理論的保証なしに人間トッププロに統計的有意差で勝った(13人のプロ、1万ハンド)。
  • 1日約1,000ドルのクラウドサーバーで動いた — AlphaZeroのようなスパコンは要らない。

人間が見て衝撃的だった行動

  • ランダム化されたベットサイズ — 同じハンドでも毎回ベット額が違う → 相手にハンドが読まれない。
  • ドンクベット — 人間プロがほとんど使わなかった手をPluribusは頻用。
  • ゲーム理論的に最適なブラフ頻度 — 多すぎず少なすぎず。

10章 · Cicero — Diplomacy(Meta 2022)

Pluribusが「数学的に難しい」ゲームを解いたなら、Ciceroが解いたDiplomacyは言語と人間交渉が難しいゲームだ。

Diplomacyが難しい理由

  • 7人がヨーロッパの地図上で同盟と裏切りを繰り返す。
  • 毎ターン自由形式のチャット交渉。チャットで何を漏らすか、誰と同盟するかがゲームそのもの
  • 嘘が合法 — 同盟を約束して裏切ってもルール違反ではない。
  • サイコロ無し、非対称情報+多人数協力+言語。

Ciceroのアーキテクチャ

  1. 言語モデル(LLM) — Diplomacyのチャットデータでファインチューンした27億パラメータのBART。
  2. 戦略モデル — 自己対戦で学習したポリシーネットワーク、RLベース。
  3. 意図推定 → メッセージ生成 → 行動決定 — 自身の意図と相手の意図を同時にモデル化。

結果

  • webDiplomacyの匿名トーナメントで上位10%、40局平均で人間平均の2倍のスコア。
  • 一度も「AIっぽい」と疑われずに人間相手と自然に会話して勝った。
  • 意図的に嘘をつくよう学習させていない — 一貫性が崩れると同盟自体が壊れるため。結果として「正直な協力者」が強い戦略だった。

これは単なるゲームAIの勝利を超え、AIが自然言語+戦略+多者交渉という人間社会のコアを扱えることを示した分岐点だ。


11章 · AlphaStar — StarCraft 2(DeepMind 2019)

StarCraft 2が難しい理由

  • リアルタイム — ターン無し、1試合に数万回のクリック。
  • 部分観測 — 戦争の霧で相手が見えない。
  • 巨大な行動空間 — 毎フレーム数百万通りの有効行動の組み合わせ。
  • 長期報酬 — 勝敗はゲーム終了時にしか確定しない(数十分)。
  • 3種族(Terran/Zerg/Protoss)が非対称。

アルゴリズム

  • 自己対戦RL + **リーグ(League)**システム。
  • 様々な「スタイル」のエージェントが互いに対戦、新エージェントは**「現チャンピオンが倒せないスタイル」**を学習する。
  • これが多様なメタを自動発見させる。
  • TPU 16台で14日間学習。

結果

  • Battle.netのラダーで**グランドマスター(上位0.2%)**到達。
  • 人間プロMaNaとTLOにシリーズ勝利(公開戦5-0)。
  • 人間視点で「非人間的なマイクロコントロール」(200+ APMの同時操作)と「非人間的な戦略」(常時マルチタスク)を見せた、どちらもルール上は合法。

12章 · OpenAI Five — Dota 2

Dota 2のさらに難しい点

  • 5対5のチームゲーム — 協力が本質。
  • 時間スケールがさらに長い — 平均1試合45分。
  • 100以上のヒーロー — 行動空間がさらに広い。
  • 長期戦略(アイテムビルド、レーン、終盤チームファイト) + 短期マイクロ

結果

  • 2018年OG戦のデモ、2019年に世界王者OGを2-0で破った。
  • 256 GPU + 12万8千CPUで10か月学習。
  • 累積学習試合時間は約45,000年分

これは事実上分散強化学習の産業規模デモだった。OpenAI Fiveが確立した「自己対戦+大規模計算」のパラダイムが、OpenAIをOpenAIたらしめた(その後のGPT路線)。


13章 · Suphx — 麻雀(Microsoft 2019)

Li et al., 2019, "Suphx: Mastering Mahjong with Deep Reinforcement Learning"

麻雀が難しい理由

  • 4人ゲーム(2人ではない)。
  • 手牌が非公開+ドロー(ツモ)がある。
  • スコアシステムが1局単位ではなく半荘単位で累積 → 長期意思決定。
  • 日本のリーチ麻雀には「テンパイ」「役」「ドラ」など複雑なルール。

Suphxのアプローチ

  • モデル: ResNet + 勾配モニタリングRL。
  • 学習トリック: グローバル報酬予測(今局の行動が試合全体にどれだけ価値があるかを予測)。
  • 実行時ポリシー適応 — 試合進行に応じて方針を微調整。

結果

  • 日本のオンライン麻雀プラットフォーム天鳳十段到達 — 上位0.01%、人間トッププレイヤーレベル。

14章 · AlphaProof + AlphaGeometry — IMO銀メダル(2024)

数学の証明はゲームではないが、本質的には巨大な探索問題だ。DeepMindはこれをゲームAI技法で解く。

AlphaGeometry (2024.1, Nature)

Trinh et al., 2024, "Solving olympiad geometry without human demonstrations"

  • 平面幾何に特化。
  • ニューラル言語モデルが補助線を提案 → 記号推論器が検証
  • IMO 2000~2022年の幾何問題30問中25問を解いた(人間IMO金メダリストの平均は25.9問)。

AlphaProof (2024.7)

DeepMindブログ: deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level

  • Lean 4形式証明言語で証明を書く。
  • パイプライン: 自然言語問題 → 形式化 → 証明
  • AlphaZero風自己対戦RLで証明探索。

2024 IMOの結果

  • IMO 6問中4問満点(28/42点)。
  • 銀メダル相当(2024年銀メダルのカットラインは29点なので1点差で逃したが、実質上位25%)。
  • 問題1・2(AlphaProof)/ 4(AlphaGeometry)/ 6(AlphaProof)。問題3と5は制限時間内に解けず。

15章 · チェスUI — lichess / chess.com / ChessBase / Arena / Banksia / NIBBLER

エンジンがどれだけ強くても、人間が使うにはUIが必要だ。2026年の整理:

lichess.org — FOSSの頂点

  • 無料・広告無し・オープンソース(AGPL v3)。
  • lichess.org, github.com/lichess-org/lila
  • 分析エンジンはStockfishが標準 — ブラウザでWebAssembly経由ローカル実行。
  • 重い分析はfishnetというボランティア分散ネットワークが処理。
  • 月間1億局以上を捌く。
  • 韓国でも無料+高速サーバーで急速に普及。

chess.com — 商用1位

  • 月間アクティブユーザー5,000万人以上。
  • 分析エンジン: Stockfish + Komodo Dragon(KomodoはOSchess.com保有)。
  • レッスンライブラリ(GMコース)、ボット対戦、トーナメント。
  • マグヌス・カールセンら一流GMがchess.comのSpeed Chess Championshipに出場。

ChessBase

  • ドイツのChessBase社のデスクトップ・データベース+エンジンツール。
  • 大会準備の事実上の標準 — Mega Databaseに1,000万局以上。
  • エンジン(Fritz, Komodo, Stockfish)はすべてUCIで接続。
  • 高価(年€100~)だがプロGMには必須。

Arena, Banksia, NIBBLER — エンジンテスト用

  • Arenaplaywitharena.de) — クラシックな無料Windowsチェスソフト。UCI / XBoardエンジン接続の標準。
  • Banksia GUIbanksiagui.com) — 比較的新しいGUI。CCRLの非公式標準。
  • NIBBLERgithub.com/rooklift/nibbler) — Lc0専用GUI。ポリシーネット出力を可視化する。

16章 · UCIとXBoardプロトコル

エンジンとGUIが通信する標準が2つある。

UCI (Universal Chess Interface)

1990年代後半にStefan Meyer-Kahlenが作った標準。現代のほぼすべてのエンジンがUCIを話す。

# GUI -> エンジン
uci                                    # エンジンに「UCIモード」に入るよう指示
setoption name Threads value 8
isready
position startpos moves e2e4 e7e5
go wtime 60000 btime 60000

# エンジン -> GUI
id name Stockfish 17
uciok
readyok
info depth 20 score cp 31 ...
bestmove g1f3 ponder b8c6

XBoard / CECP

もっと古い(1990年代前半)。一部のクラシックエンジン(Crafty, GNU Chess)が今でも使う。lichessはXBoard形式のボットもサポート。

違い

項目UCIXBoard / CECP
登場1990年代後半1990年代前半
時間管理GUIが時間を送るエンジン自身がクロック計測
オプション統一されたsetoptionエンジンごとに異なる
シェア圧倒的1位レガシー中心

今日新しいエンジンを作るならまずUCIだ。


17章 · 韓国 — NCsoftの韓乭、そして李世乭

韓乭(NCsoft)

NCsoftのAIセンターが作った韓国製囲碁AI。2017年に初公開、2019年12月、李世乭の引退対局で1局目を勝ち、2~3局を負けて1-2でシリーズを落とした。

  • 1局目で李世乭は78手目の左辺侵入で攻めをかけ、韓乭が形勢評価を誤った。
  • これは李世乭が公式対局でAIに勝った最後の勝利として記録されている(2025年現在まで)。

その後、韓乭はNCsoft社内研究にとどまり、一般向けの分析ツールとして大々的にはリリースされなかった。NCsoftはゲームAI全般(リネージュのNPC、強化学習ベースのコンテンツなど)に重心を移していった。

LG・カカオ — 韓国の囲碁AI

  • LGも2010年代後半に独自の囲碁AIを開発したが、韓乭ほど可視化されなかった。
  • カカオブレインは一時自社の囲碁AI(Katajaなどのコードネーム)を試したが、後にKataGoのオープンソース貢献にシフトした。

韓国における囲碁AIの意味

李世乭 vs AlphaGoは**「AI」という言葉が韓国の一般大衆に日常化した出来事**だ。2016年3月以前と以後で、韓国メディアでの「AI」という言葉の出現頻度が質的に違う。国家レベルのAI政策(2019年AI国家戦略)も、この事件の直接の結果である。


18章 · 日本 — 将棋AI発展史、dlshogi、やねうら王

将棋はチェスより駒の再利用があり、ゲーム木がチェスより遥かに大きい。日本のコンピュータ将棋コミュニティは1990年代から非常に活発だった。

主要エンジン(時系列)

エンジン特徴
激指1990年代日本初の強い将棋エンジン
ボナンザ (Bonanza)2005機械学習評価関数の元祖 — 保木邦仁
GPS将棋2009東京大学GPSグループ
Ponanza2013~17名人戦で初めて人間に勝利(2013)
Apery2014オープンソース
やねうら王2015~現在の日本標準エンジン — NNUE発祥地
dlshogi2018~AlphaZero風NN、RTX 5090で学習

ボナンザの衝撃 — Bonanza Method

保木氏の2006年論文 — 評価関数の重みをプロ棋譜からの最適化学習で得る手法。これがチェスのNNUEより10年早い機械学習評価関数の起源だ。後のStockfishのNNUE着想にも影響。

やねうら王 — NNUE発祥の地

やねうら王(磯崎元洋)が作ったオープンソース将棋エンジン。NNUEを初めて実用化した場所。後にStockfishがチェスに持ってきた。世界コンピュータ将棋選手権で優勝するのはほとんどがやねうら王の派生型だ。

dlshogi — AlphaZeroの将棋版

GitHub: github.com/TadaoYamaoka/DeepLearningShogi

  • AlphaZero風 — CNN + MCTS、自己対戦。
  • やねうら王(NNUE)とdlshogi(深層学習)は異なる路線で同程度の強さ。
  • 2021年世界コンピュータ将棋選手権優勝。
  • RTX 4090やRTX 5090を2台束ねた構成 — 日本のGPU学習議論では事実上のリファレンス。

人間 vs 将棋AI — 名人戦とNHK杯

  • 名人戦: 将棋で最も格式高いタイトル。
  • 2013年Ponanzaが佐藤天彦(現名人)ら一流プロを破った → 「もう人間とAIの公式対局はナンセンス」という雰囲気に。
  • NHK杯: 早指しの公開対局にAIが参加することも(公式タイトル戦ではなくイベント)。

19章 · 誰がゲームAIを学ぶべきか

1) RL研究者

  • AlphaZero, MuZero, AlphaStar, CiceroはRLの教科書だ。
  • OpenSpiel, RLlib, JAX/Acmeで手を動かして実験できる。
  • ゲームは環境がクリーンなのでRLのほぼ標準ベンチマーク。

2) ボードゲームエンジン開発者

  • Stockfish, Lc0, KataGoは単一ゲームをどこまで最適化できるかの見本。
  • C++ / CUDAを本気で深く触りたいなら良い入り口。

3) 多エージェント / 交渉AI

  • CiceroとPluribusは多人数+協力+自然言語の学術標準ケース。
  • LLMエージェントで交渉システムを作るなら必読。

4) ゲーム会社

  • ゲーム内ボット、マッチメイキング、コンテンツ生成にRLが入ってきている。
  • 例: NCsoft韓乭、OpenAI Five。

5) 教育・コーチング

  • Maia、そしてchess.com / lichessのコーチボット。
  • 生徒のELOに合わせて「人間らしい」相手を作る仕事。

20章 · 結び — 「超人間」が意味するもの

2026年のゲームAIはほぼすべての標準ゲームで人間より強い。チェス、囲碁、将棋、ヘッズアップ/多人数ポーカー、StarCraft 2、Dota 2、麻雀、Diplomacy。さらに国際数学オリンピックも銀メダルレベル。

しかしこれで終わりではない。新しいゲーム — 例えばMMOのPvEダンジョン攻略MOBAの新ヒーローメタ発見TCGの新セット発売直後のメタ探索 — などはまだ活発な研究領域だ。

そしてもっと興味深い方向は**「人間らしいAI」だ — Maiaのように、Ciceroのように。単に「より強いAI」ではなく、人間と一緒に**指し、人間が理解でき、人間を教えるAI。

ゲームAIは終わっていない。ただ**「勝つこと」がもはやゴールではない時代**に入ったに過ぎない。


参考文献 / References