Skip to content
Published on

模倣機械は発見できないのか — Rich Sutton の挑発と RL の反撃

Authors

はじめに — なぜ今この論争が話題なのか

2026年6月、強化学習(RL)の生ける伝説 Rich Sutton のツイートひとつが、GeekNews と Hacker News の議論欄を占拠しました。要旨は挑発的です。

教師あり学習で人間のテキストを模倣するよう訓練された生成 AI は、本質的に模倣モデルである。模倣は既知のものの再結合なので、真に新しい科学的発見はそのメカニズムからは生まれにくい。

タイミングが絶妙でした。2026年は AI コーディングエージェントが普遍化し、数時間の自律作業が可能な frontier モデル世代が登場し、「LLM が数学の難問を解いた」というニュースが周期的に流れる年です。誰もが「LLM がまもなく科学をやるようになる」と語る時期に、RL 陣営の長老が正面から「その方向では無理だ」と宣言したのです。

Sutton は単なる批評家ではありません。2024年チューリング賞受賞者であり、RL 教科書の共著者であり、何より AI 史上最も引用されるエッセイのひとつ The Bitter Lesson(2019)の著者です。興味深いのは、多くの人が Bitter Lesson を「スケーリングがすべて — だから LLM が正しい」と読んできた一方で、著者本人は現在の LLM パラダイムに批判的だという事実です。

本稿では Sutton の主張を正確に復元し、Bitter Lesson とのつながりを整理した上で、模倣学習と強化学習の本質的な違いを押さえます。そして反論(LLM も発見できる)と実際の科学発見 AI の事例を検討し、エージェントを作る開発者が持ち帰るべき実務的教訓で締めくくります。

Sutton の主張の要旨 — 模倣の天井

Sutton の論旨を段階的に再構成すると次のようになります。

  1. LLM の学習目標は次トークン予測である。 人間が書いたテキストの分布を真似ることが目的関数のすべてです。
  2. これは定義上、模倣(imitation)である。 モデルが得意なのは、訓練分布の中でもっともらしい続きを作ることです。
  3. 科学的発見は分布の外にある。 新しい理論は既存テキストのもっともらしい続きではなく、既存の合意と矛盾しながらも世界と一致する主張です。
  4. 世界との接点がない。 模倣モデルは自分の出力が正しいかどうか、世界から直接フィードバックを受け取りません。人間が書いたテキストという二次資料を通してしか世界を見ていません。
  5. したがって経験(experience)から学ぶシステム、すなわち目標を持って行動し、結果を観察して修正する RL 的エージェントだけが、本当の発見ができる。

Sutton は数年前からこの観点を「経験の時代(The Era of Experience)」という表現でまとめてきました。人間データの時代は天井に達しており、次の段階はエージェントが自ら作った経験データから学ぶ時代だ、というわけです。

核心の直観を図にするとこうなります。

        模倣学習の世界観                      経験学習の世界観

   [人間テキストのコーパス]               [世界 / 環境 / シミュレータ]
          |                                   ^        |
          v                                   | 行動    | 報酬/観測
   [次トークン予測モデル]                      |        v
          |                                [エージェントの方策]
          v                                   |
   「もっともらしいテキスト」                   v
   (分布内の補間が限界)                  「世界が検証した行動」
                                        (分布外の発見が可能)

Bitter Lesson の復習 — そしてよく誤解される部分

Bitter Lesson(2019)のメッセージは二文に要約できます。

  1. 70年の AI の歴史において、人間の知識を手作業で刻み込むアプローチは、常に短期的に勝ち、長期的に負けてきた。
  2. 長期的に勝ったのは、計算量の増加をそのまま吸収する汎用手法、すなわち**探索(search)と学習(learning)**だった。

ここでよく誤解される部分があります。多くの人がこのエッセイを「スケールすれば勝つ」と要約し、LLM スケーリングの根拠文書として引用してきました。しかし原文が強調する汎用手法は二つあり、そのひとつが探索です。Sutton の2026年の発言は自己矛盾ではなく、むしろ原文の再強調に近いものです。彼の視点から見ると、現在の LLM は次のように映ります。

  • 学習はスケールした。(合格)
  • しかしその学習の源泉は人間テキストという有限で二次的な資源である。(人間知識の注入という古い罠の洗練された変形)
  • 探索、すなわち世界と相互作用しながら新しいデータを作り出す軸は、まだ貧弱である。(不合格)

つまり Sutton にとって LLM は Bitter Lesson の勝者ではなく、「人間の知識を刻み込むアプローチ」の史上最大のバージョンかもしれない、ということです。この読み方こそが2026年6月の論争の本当の争点です。

模倣学習 vs 強化学習 — 本質的な違い

比較テーブル

模倣学習(教師あり/SSL)強化学習(RL)
データの源泉人間が作った固定コーパスエージェントが作る経験
目的関数分布一致(次トークン予測)報酬の最大化
真理の基準人間がそう書いたか世界で通用したか
分布外の行動回避するよう訓練される探索ボーナスで奨励可能
データの限界コーパス枯渇で天井環境が許す限り無限
失敗モードもっともらしいデタラメ(ハルシネーション)報酬ハッキング、探索コスト爆発
代表的成果GPT 系、翻訳、要約AlphaGo、AlphaZero、ロボット制御

補間と探索 — なぜこの違いが本質的なのか

模倣モデルの汎化は、本質的に訓練分布が定義する多様体(manifold)上の補間に近いものです。驚くべきは、この多様体が思ったよりはるかに広く、補間だけでも「一度も見たことのない組み合わせ」を作れることです。シェイクスピア風に書かれた Kubernetes 障害報告書はコーパスに存在しませんが、LLM は楽々と作ります。

問題は、科学的発見が要求するものが組み合わせ的な新鮮さではなく、分布との決別である場合があることです。地動説、相対性理論、大陸移動説は、当時のテキスト分布において尤度が極めて低い主張でした。「当時のすべてのテキストを完璧に模倣するモデル」にとって、こうした主張は定義上、異常出力です。

RL が違うのは、真理の基準が分布ではなく報酬である点です。AlphaGo の第37手(第2局)が象徴的です。人間の棋譜分布におけるその手の確率は1万分の1程度と評価されましたが、自己対局(self-play)という経験の蓄積は、その手が勝つことを発見しました。人間の分布基準ではミスに見える手が、世界(囲碁のルール)基準ではより良い手だったのです。

   人間の棋譜分布            第37手の位置
  ----------------       ---------------
   確率 高い  ████
   確率 中間  ██████
   確率 低い  █  <------- ここ(純粋な人間模倣なら選択ほぼ不可能)

   しかし自己対局の価値評価: 勝率寄与で上位  <-- RL はこの信号に従う

重要な但し書き — 事前学習なしの AlphaGo は存在しなかった

公平を期すと、最初の AlphaGo は人間の棋譜による模倣学習から始まりました。模倣で合理的な初期方策を作り、その上で RL が探索したのです。純粋な self-play の AlphaZero はその次の世代です。つまり歴史的事実は「模倣 vs RL」の二分法というより、「模倣が敷いた床の上で RL が天井を突き破った」に近いのです。この点は後の反論の節で再び重要になります。

反論 — LLM も発見できるという主張

Sutton の挑発に対する反論も手強いものです。主な論拠を整理します。

反論1: 組み合わせ的汎化も発見である

科学史における多くの発見は、無からの創造ではなく既存概念の新しい接続でした。ダーウィンはマルサスの人口論を生物学に接続し、シュレーディンガーは波動方程式を量子に接続しました。「異分野の概念を接続する能力」という意味なら、LLM は人間個人より広い読書範囲を持っています。分布内の補間だとしても、人類全体のテキストの分布の中には、まだ誰も明示的に接続していない組み合わせが天文学的な数だけ存在します。

反論2: 第37手を生んだのも結局 RL であり、LLM はすでに RL と結合している

2026年の frontier モデルはもはや純粋な模倣モデルではありません。RLHF を超えて、検証可能な報酬に対する強化学習(RLVR)が推論モデルの標準レシピになりました。数学の正答、コードのテスト通過、形式証明の検証器といった客観的報酬でモデルを訓練すると、モデルは人間テキストに存在しなかった解法経路を自ら発見します。DeepSeek-R1 系が示した「aha moment」(自発的な自己修正行動の創発)が代表例です。つまり Sutton の批判は純粋な事前学習モデルには有効ですが、現在デプロイされているシステムは、すでに彼の処方(経験と報酬)を部分的に受け入れたハイブリッドなのです。

反論3: 実際の発見事例が積み上がっている

  • FunSearch(2023): LLM がプログラムを提案し評価器が採点する進化ループで、cap set 問題において人間が知っていたものより良い構成を発見しました。数学で LLM が関与した新規の結果として広く引用されています。
  • AlphaGeometry(2024): ニューラルモデルと記号推論エンジンの結合で、国際数学オリンピックの幾何問題において金メダリスト水準に到達しました。
  • AlphaFold 系: タンパク質構造予測という科学的難問で実験科学の速度を変えました。2024年のノーベル化学賞にまでつながりました。

ただし、これらの事例をよく見ると共通の構造があります。LLM やニューラルネット単独ではなく、外部の検証器(evaluator、verifier、物理実験)と結合されたループだという点です。これは反論であると同時に、Sutton の論旨の部分的な承認でもあります。発見を生んだのは模倣モデルそのものではなく、模倣モデルを提案者として使い、世界(またはその代理人である検証器)が採点するシステムだったのです。

反論4: 人間の科学者も模倣から始まる

人間の博士課程の最初の3年間は、事実上の模倣学習です。論文を読み(コーパスの吸収)、既存手法を再現し(ファインチューニング)、指導教員のスタイルを真似します。発見はその模倣の土台の上から生まれます。「模倣だから発見不可能」という論理なら、人間も発見できないはずです。模倣は発見の反対語ではなく、前提条件かもしれません。

科学発見 AI 事例の検討 — 正確に何が分かっているのか

興奮も懐疑も誇張されやすい領域なので、2026年半ば時点で比較的確実に言えることだけを抽出します。

事例ニューラルネットの役割検証器の役割「発見」と認められるか
AlphaFold構造予測(補間に近い)実験構造データで学習/評価道具としての革命。新法則の発見とは別物
FunSearchプログラム提案スコア関数が即時採点狭い領域の新規結果。本当に新規
AlphaGeometry補助線の提案記号エンジンが証明を検証既知問題の解決。新定理の提示ではない
推論モデルの数学解法経路の生成正答/証明チェッカー競技数学レベルは突破。研究レベル難問は事例蓄積中
素材/創薬候補生成候補空間の提案シミュレーションと実験室検証候補提案まで。最終検証は物理世界

パターンが見えます。成果が実在する場所には、常に速くて正確な検証器がありました。囲碁の勝敗、数学の証明チェッカー、タンパク質の実験データ。逆に検証器が遅い(臨床試験)、または曖昧な(社会科学の理論)領域では、派手なデモに比べて確定的成果はまだ稀です。

「発見」の定義問題 — 論争が空回りする理由

この論争がしばしば空回りするのは、発見という言葉が少なくとも三つの異なる意味で使われるからです。

  1. レベル1 — 既知の答えの再発見: 人間がすでに知っている結果をモデルが独立に導出。ベンチマークには有用だが発見ではない。
  2. レベル2 — 既知の問題への新しい答え: cap set のような未解決だった具体的問題で人間の最善を超える答え。FunSearch がここに到達。ただし問題定義と採点関数は人間が与えた。
  3. レベル3 — 新しい問題/概念/理論の提示: 何を問うべきか自体を変えるパラダイムの提案。相対性理論級。どの AI もここに到達したという合意はない。

Sutton の主張を最も強く読めば「模倣モデルはレベル3に行けない」であり、最も弱く読めば「模倣だけではレベル2も難しい」です。反論陣営の証拠はほとんどレベル2に分布しています。つまり両陣営はしばしば異なるレベルをめぐって争っているのです。議論の前にこの区別に合意するだけで、論争の半分は整理されます。

実務への示唆 — エージェントに探索と検証のループを設計せよ

この論争は哲学ではなく、今日のエージェント設計に直接の示唆を与えます。2026年のコーディングエージェント、リサーチエージェントを作る人が持ち帰るべき教訓は明確です。モデルを提案者(proposer)として使い、検証器(verifier)をシステムに組み込め。

提案-検証-改善ループの基本形

# propose_verify_loop.py — エージェントに経験学習の構造を組み込む基本パターン
def discovery_loop(task, llm, verifier, budget):
    best = None
    history = []                      # エージェントの「経験」
    for step in range(budget):
        candidates = llm.propose(
            task=task,
            history=summarize(history),   # 過去の試行と失敗理由をコンテキストに
            diversity=temperature_schedule(step),  # 探索強度の調節
        )
        for cand in candidates:
            score, feedback = verifier.evaluate(cand)  # 世界の代理人
            history.append((cand, score, feedback))
            if best is None or score > best.score:
                best = Result(cand, score)
        if verifier.is_solved(best):
            break
    return best, history

この単純なループが、FunSearch、推論モデルの test-time search、コーディングエージェントの「テスト通過まで繰り返す」の共通骨格です。設計ポイントは四つあります。

  1. 検証器の品質が天井を決めます。 コーディングエージェントならテストスイート、型チェッカー、リンターが検証器です。検証器が甘いと(テストカバレッジ不足)、エージェントは報酬ハッキング(テストだけ通るデタラメなコード)を学びます。RL の古い教訓がエージェント時代にそのまま再現されるのです。
  2. 失敗履歴をコンテキストとして戻してください。 単純な再試行ではなく「なぜ失敗したか」を次の提案の入力に入れた瞬間、システムは模倣を超えて経験から学び始めます。
  3. 多様性スケジュールを明示的に管理してください。 序盤は温度を上げて探索し、終盤は下げて収束させる — RL の探索-活用バランスが LLM ループにもそのまま適用されます。
  4. 経験を資産として保存してください。 history は使い捨てではありません。蓄積された試行-結果のペアは、次のファインチューニングの訓練データ、すなわち Sutton の言う経験データになります。

シミュレータの価値 — 検証器を買えないなら作れ

検証器スペクトラム(左にあるほどエージェントループが強くなる)

  即時/正確                                          遅い/曖昧
  |----------|------------|------------|------------|
  コンパイラ    単体テスト     シミュレータ    人間レビュー   実世界実験
  型チェッカー  プロパティ     (物理/経済)    A/B テスト    (臨床など)
              テスト

実世界の実験が高くつくドメインほど、シミュレータが戦略資産になります。タンパク質(構造予測器)、回路(SPICE)、流体(CFD)、経済政策(エージェントベースシミュレーション)のように、シミュレータが十分正確な領域から発見型エージェントが動き始めるでしょう。逆に言えば、あなたのドメインで「AI に発見をさせたい」なら、最初の投資先はより大きなモデルではなく、より良い検証器とシミュレータである可能性が高いのです。

研究地形の展望 — 収束する二つの陣営

2026年半ばの研究地形は、「模倣陣営 vs RL 陣営」の戦争というより収束に近いものです。

  • LLM 陣営は RL を吸収中: RLVR、プロセス報酬モデル、test-time search が標準スタックになりました。事前学習の比重は相対的に減り、事後学習(post-training)と推論時計算の比重が増えています。
  • RL 陣営は LLM を事前知識として吸収中: 純粋 RL のサンプル非効率問題を LLM の事前知識で緩和する研究(LLM を方策の初期化、報酬設計、探索ガイドに使うアプローチ)が活発です。
  • 残る本当の難問: 検証しにくい報酬(良い理論とは何か)、長い時間軸(数か月規模の研究プロジェクトの報酬の希薄さ)、そして安全性(自ら仮説を立てて実験するシステムの制御)です。

Sutton の役割は、この収束の方向を批判によって加速することです。「人間データの天井」という警告は、合成データ、自己対局型環境、経験蓄積インフラへの投資を正当化する最も強力な物語になりつつあります。

開発者が持つべき視点 — 道具の限界の認識と活用

現場の開発者にとって、この論争が与える実用的な視点を整理します。

  1. LLM に「検証されたことのない新しさ」を期待しないでください。 モデルが自信満々に出す新しいアイデアは、分布内でもっともらしいものであって、世界が検証したものではありません。新鮮に見える提案ほど、まず検証コストを見積もるべきです。
  2. 逆に「広い模倣」の価値を過小評価しないでください。 文献の接続、既存手法の移植、ベースライン実装といった作業で、LLM はすでに超人的です。発見の前段階のコストを劇的に下げてくれます。
  3. パイプラインの中で検証器を一級市民に昇格させてください。 テスト、シミュレータ、評価関数への投資は、モデルのアップグレードより減価償却が遅い。モデルは四半期ごとに変わりますが、良い検証器は数年持ちます。
  4. エージェント設計ドキュメントに探索予算を明記してください。 いくつの候補を、どの多様性で、どの停止条件まで試すかが、エージェントの発見能力を決めます。ループエンジニアリングがプロンプトエンジニアリングを置き換えるという2026年の格言そのままです。

ミニ実習 — 検証可能な報酬で模倣を超える

RLVR の核心アイデアをおもちゃ規模で体験できる例です。「整数数列の規則探し」という小さな発見課題で、純粋サンプリング(模倣)と検証器結合ループ(経験)の違いを比較します。

# tiny_rlvr_demo.py — 模倣 vs 検証ループの違いを示すおもちゃ実験
import random

def verifier(formula, examples):
    """候補の数式がすべての例を満たすか検査する「世界の代理人」"""
    try:
        return all(eval(formula, None, dict(n=n)) == y for n, y in examples)
    except Exception:
        return False

def imitation_only(llm, task, k=20):
    """戦略A: 一度に k 個サンプリングして終わり(フィードバックなしの模倣サンプリング)"""
    candidates = [llm.sample(task) for _ in range(k)]
    return [c for c in candidates if verifier(c, task.examples)]

def experience_loop(llm, task, budget=20):
    """戦略B: 失敗理由をフィードバックしながら反復(経験ループ)"""
    feedback = ""
    for _ in range(budget):
        cand = llm.sample(task, hint=feedback)
        if verifier(cand, task.examples):
            return cand
        # どの例で間違えたかを次の試行のコンテキストに注入
        wrong = first_failing_example(cand, task.examples)
        feedback = f"candidate {cand} failed on input {wrong}"
    return None

同じモデル、同じ呼び出し予算でも、戦略Bの方が一貫してより難しい規則を見つけます。違いを作るのはモデルではなくループ構造、すなわち検証器とフィードバックチャネルの存在です。これがこの論争全体をコード5行に圧縮した絵だと思っています。

実験を拡張したい場合は、次のバリエーションをお勧めします。

  1. 検証器をわざと甘く(例を2つだけ検査)してみてください。報酬ハッキングが即座に現れます。甘い検証器の下では、ループは「例2つだけ合うデタラメな規則」へ収束します。
  2. feedback を累積履歴に変えてみてください。単発フィードバックより収束が速くなる区間と、コンテキストが長くなってかえって悪化する区間の両方を観察できます。コンテキストエンジニアリングがなぜ2026年のキーワードなのかを体感できます。
  3. 温度を段階的に下げるスケジュールを入れてみてください。探索-活用トレードオフが小さな規模でもはっきり現れます。

歴史の平行線 — この論争は初めてではない

「模倣か探索か」は、実は AI の歴史で3回目くらいの繰り返しになる論争です。

  1997  チェス: 人間棋譜のヒューリスティクス  vs  力任せ探索(Deep Blue)
        --> 探索の勝利。ただし評価関数には人間知識が残存

  2016  囲碁: 人間棋譜の模倣              vs  自己対局 RL(AlphaGo->Zero)
        --> 模倣で開始、RL で超越、最終的に模倣を除去

  2026  科学: 人間テキストの模倣           vs  経験/検証ループ(現在進行形)
        --> ??? (今われわれが見ている場面)

先の2回の結末には共通点があります。人間の知識(模倣)はブートストラップとして決定的でしたが、最終的な天井は常に探索と経験が突き破ったということです。そして毎回、「人間知識なしには不可能だ」という陣営と「人間知識こそバイアスだ」という陣営が激突し、答えは段階的なハイブリッドでした。科学的発見でも同じパターンが繰り返されるなら、現在の LLM 懐疑論と楽観論はどちらも部分的にしか正しくないことになります。

ただし、科学が囲碁と決定的に違う点がひとつあります。囲碁の検証器(勝敗判定)はタダでしたが、科学の検証器(実験)は高価で遅い。この非対称性のため、「科学の AlphaZero モーメント」は囲碁よりはるかに漸進的に、検証器が安い分野(数学、コード、シミュレーション可能な物理)から順番に来る可能性が高いのです。

よくある質問の整理

Q1. Sutton は LLM が役立たずだと言ったのですか?

いいえ。彼の主張は用途限界論に近いものです。模倣モデルは既知の知識の再構成に卓越していますが、新しい発見のエンジンとしては構造的に不向きだ、ということです。探索と学習のうち学習だけが肥大化した現状へのバランス要求として読むのが正確です。

Q2. RLVR で訓練された推論モデルは Sutton の批判を逃れますか?

部分的にだけです。RLVR は検証可能な報酬が存在する領域(数学、コード)に経験学習を導入したものですが、その報酬自体が人間の定義した問題の中にあります。レベル2(既知問題への新しい答え)には到達しても、レベル3(新しい問題の提示)は報酬を定義できないという根本問題が残ります。

Q3. では AGI 論争とはどういう関係ですか?

直結しています。「スケーリングだけで AGI」という立場は模倣学習の延長線上で汎用知能が創発するという仮説であり、Sutton の立場は経験ベースの学習という別の軸が必須だという仮説です。2026年の frontier 研究所のロードマップが事後学習とエージェント経験の収集へ重心を移しているのは、産業界が事実上後者へヘッジしているシグナルと見ることができます。

Q4. 開発者のキャリアの観点では何を準備すべきですか?

検証器を作る能力の価値が構造的に上昇しています。評価関数の設計、シミュレータの構築、テストインフラ、ドメイン特化ベンチマークの作成といったスキルは、モデルがどれだけ良くなっても需要が減りません。モデルを使う人は増えますが、モデルを採点できる人は依然として希少です。

経験の時代のためのインフラ — 今作っておくべきもの

Sutton の処方を真剣に受け止めるなら、次のボトルネックはモデルではなく、経験を収集・保存・再利用するインフラです。エージェントチームが今設計しておく価値のある最小構成を整理します。

経験ストアのスキーマ

-- experience_store.sql — エージェントの経験を学習資産として蓄積する最小スキーマ
CREATE TABLE episodes (
    episode_id     UUID PRIMARY KEY,
    task_family    TEXT NOT NULL,        -- 例: code_fix, theorem_search
    task_spec      JSONB NOT NULL,       -- 問題定義(再現可能であること)
    agent_version  TEXT NOT NULL,        -- モデル+プロンプト+ループのバージョン
    started_at     TIMESTAMPTZ NOT NULL,
    ended_at       TIMESTAMPTZ
);

CREATE TABLE steps (
    step_id        BIGSERIAL PRIMARY KEY,
    episode_id     UUID REFERENCES episodes(episode_id),
    action         JSONB NOT NULL,       -- 提案された候補/ツール呼び出し
    observation    JSONB NOT NULL,       -- 検証器の出力、エラーメッセージ
    reward         DOUBLE PRECISION,     -- 検証器スコア(なければ NULL)
    created_at     TIMESTAMPTZ DEFAULT now()
);

-- 核心: 失敗も保存する。失敗事例が次のモデルの学習信号になる。
CREATE INDEX idx_steps_reward ON steps (reward) WHERE reward IS NOT NULL;

ポイントは三つです。第一に、失敗を捨てないこと。RLVR 系の事後学習では誤答経路が対比学習の材料になります。第二に、再現可能性をスキーマレベルで強制すること。task_spec と agent_version なしに積まれた経験は学習データとして使えません。第三に、報酬カラムを最初から置くこと。今はヒューリスティックなスコアでも、後でより精緻な検証器で再採点(re-label)できる構造が重要です。

検証器ポートフォリオの点検表

[ ] 即時検証器: コンパイル/型チェック/リント — エージェントループの一次ゲート
[ ] 機能検証器: 単体/プロパティ/統合テスト — カバレッジが報酬品質そのもの
[ ] シミュレーション検証器: ドメインシミュレータ — 実世界実験の安価な代理
[ ] 統計検証器: A/B、オフライン評価 — 遅いが最終判定に最も近い
[ ] 人間検証器: レビュー/監査 — 最も高価なので上の段階で最大限フィルタリング
[ ] 敵対検証器: 報酬ハッキング検出 — 検証器を騙す解を捕まえる二次検証

最後の項目がよく抜け落ちます。検証器が報酬になった瞬間、検証器の穴はエージェントの目標になります。グッドハートの法則は RL の長年の敵であり、エージェント時代の運用リスクでもあります。

研究地形を一目で

流れ代表キーワード模倣-経験スペクトラム上の位置2026年の状態
事前学習スケーリングデータキュレーション、合成データ模倣側の端収穫逓減の論争が進行中
事後学習 RLRLVR、プロセス報酬中間推論モデルの標準レシピ
推論時探索test-time search、自己整合性中間費用対効果の検証段階
エージェント経験収集長時間自律作業、ループエンジニアリング経験側インフラ構築競争の初期
自律実験システム自動化ラボ、シミュレータ結合経験側の端素材/生物分野でパイロット

おわりに — 模倣と発見は敵ではない

論争を一文でまとめるとこうなります。模倣は発見の出発点になり得るが、発見の完成には世界による採点が必要である。

AlphaGo の歴史がすでに答えの形を示していたと思います。人間棋譜の模倣から始まり(模倣)、自己対局で天井を突き破り(経験)、最終的には模倣なしでもより強くなりました(AlphaZero)。LLM と科学的発見の関係も似た軌跡を描く可能性が高いでしょう。今われわれは、第一段階と第二段階の間のどこかにいます。

開発者としての結論は実用的です。モデルの模倣能力を発見の証拠と錯覚しないこと。しかし模倣能力の上に検証ループを載せれば実際に新しいものが生まれるという事実も無視しないこと。Sutton の挑発は LLM を捨てろという話ではなく、経験と検証という失われた半分をシステムに取り戻せという要求として読むのが、最も生産的です。

最後にチェックリスト形式で要約します。

[ ] 我々のエージェントの検証器は何か? その品質を測定しているか?
[ ] 失敗履歴が次の試行のコンテキストとしてフィードバックされているか?
[ ] 探索予算(候補数、多様性、停止条件)が明示されているか?
[ ] 経験(試行-結果のペア)が再利用可能な形で蓄積されているか?
[ ] 報酬ハッキングを捕まえる二次検証が存在するか?
[ ] 「新しい提案」に対する検証コストを意識的に見積もっているか?

この6行にイエスと答えられるなら、あなたのシステムはすでに模倣機械ではなく、小さな発見機械の方へ動き始めています。

参考資料