はじめに
人は行動する前に頭の中で結果を思い描きます。コップを押せば倒れるか、ドアを引けば開くか、私たちは世界がどう反応するかについての直感的なモデルを持っています。この内的モデルのおかげで、危険な行動を実際にやってみなくても想像だけで排除できます。
ロボットにもこの能力を与えようとするのがワールドモデル(World Model)です。ワールドモデルは環境の動力学、すなわち「現在の状態でこの行動をすれば次の状態はどうなるか」を学習した予測モデルです。こうしたモデルがあれば、ロボットは実際の環境で高価な試行錯誤をする代わりに、学習したモデルの中で未来を想像しながら計画を立てられます。
この記事では、ワールドモデルの概念、モデルベース強化学習、潜在空間での予測、動画予測と生成モデルの役割、そして想像ロールアウトと MPC による計画を扱います。最後に歩行と操作への適用と現在の限界を見ていきます。正確を期すため、特定モデルの詳細な数値は確実なもののみに触れ、不確かな部分は一般化して述べます。
ワールドモデルとは何か
ワールドモデルの核心は予測です。状態と行動を入力として、次の状態(そしてしばしば報酬)を予測する関数を学習します。
ワールドモデルの基本構造
────────────────────────
現在の状態 s ──┐
├──▶ [ ワールドモデル ] ──▶ 次状態の予測 ŝ'
行動 a ───────┘ ──▶ 報酬の予測 r̂
このモデルを繰り返し適用すれば、未来を複数ステップ先まで
「想像」で転がしてみることができる:
s ──a1──▶ ŝ1 ──a2──▶ ŝ2 ──a3──▶ ŝ3 ── ... (想像ロールアウト)
これをモデルフリー(model-free)強化学習と対比すると違いが明確になります。モデルフリーの方法は、環境と直接相互作用した経験だけから方策や価値関数を学習します。一方モデルベース(model-based)の方法は、まず環境の動力学モデルを学習し、そのモデルを活用して計画したり、想像の中で追加の経験を生成したりします。
モデルフリー vs モデルベース
────────────────────────────
[モデルフリー]
環境相互作用 ──▶ 経験 ──▶ 方策/価値を直接学習
(経験が多く必要、しかし単純)
[モデルベース]
環境相互作用 ──▶ 経験 ──▶ ワールドモデルを学習
│
▼
モデル内で想像・計画 ──▶ 方策を改善
(データ効率的、しかしモデル誤差に脆弱)
モデルベースのアプローチの最大の魅力はデータ効率です。一度学習したワールドモデルの中では、実際のロボットを動かさずに数多くの仮想経験を安価に生成できるからです。
ワールドモデルというアイデアの流れ
ワールドモデルという概念自体は突然現れたのではなく、長い研究の流れの上に立っています。その根をいくつかに分けてたどると、この分野を理解するのに役立ちます。
第一の根は制御理論です。システムの動力学モデルを立て、その上で最適制御を計算する伝統は、ロボット工学の長い基盤でした。ただし古典制御は人がモデルを手で立てる点で、データでモデルを学習する現代のワールドモデルとは区別されます。
第二の根は心理学と認知科学の「内的モデル」の概念です。人間や動物が世界についての内的表象を持ち未来を予測するという見方は、ロボットに予測的表象を学習させようとする動機を与えました。
第三の根はニューラルネットワークによる系列予測です。再帰型ニューラルネットワークやその後のさまざまな生成モデルは、観測の系列から次を予測する能力をデータで学習する道具を提供しました。
ワールドモデルというアイデアの三つの根
────────────────────────────────────
制御理論 認知科学 NN 系列予測
(動力学モデル) (内的モデル) (データで予測を学習)
│ │ │
└───────────────┼────────────────────┘
▼
現代の学習されたワールドモデル
(データで動力学を学習し、想像で計画する)
2018年頃に「World Models」というタイトルで広く知られた研究は、ニューラルネットで環境を圧縮しその中で方策を学習するというアイデアを印象的に示し、この流れを大衆化しました。以降、Dreamer 系をはじめとする複数の研究が潜在空間での想像学習を精緻に発展させてきました。
潜在空間での予測
初期のワールドモデルはピクセル単位で次の画像を予測しようとしました。しかし高解像度画像をピクセル一つ一つ予測するのは計算が重く、予測に不要な細部まで合わせようとして肝心の動力学を見落としがちです。
これへの解法が潜在空間(latent space)予測です。まずエンコーダが高次元の観測(画像など)を低次元の圧縮された表現(潜在状態)へ変換します。そのうえで動力学の予測はこの圧縮された潜在空間の中で行われます。重いピクセル空間ではなく軽い抽象空間で未来を転がすのです。
潜在空間ワールドモデル
────────────────────
観測 o ──[ エンコーダ ]──▶ 潜在状態 z
│
│ 行動 a
▼
[ 潜在動力学 ]──▶ 次の潜在 z'
│
▼
(必要なら) [ デコーダ ]──▶ 予測観測 ô'
要点: 重いピクセルの代わりに軽い潜在 z 空間で
複数ステップの未来を速く想像する。
Dreamer 系に代表されるこのアプローチは、潜在空間で想像ロールアウトを転がして方策を学習し、データ効率を大きく高めたことで知られています。詳細な構造はバージョンによって異なる場合があるため、具体的な仕様は原論文を確認するのがよいでしょう。
動画予測と生成モデル
近年では、大規模な動画予測・生成モデルがロボットのワールドモデルとして注目されています。発想はこうです。膨大な映像データで「次に何が起こるか」を予測するように学習したモデルは、物体がどう動き相互作用するかについての豊かな物理的常識を備えるようになります。この予測能力をロボットの行動に条件付けすれば、ロボットの行動に応じて未来の映像がどう展開するかを想像する道具になります。
行動条件付き動画予測
──────────────────────
現在のフレーム群 ──┐
├──▶ [ 動画予測モデル ]──▶ 未来フレームの予測
候補の行動系列 ───┘
複数の候補行動について未来を予測し、
目標に最も合致する行動系列を選択する。
こうした生成的ワールドモデルの利点は、人が直接物理をコーディングしなくても、データから複雑な相互作用を学べる点です。ただし予測が長くなるほど誤差が累積し、物理法則を常に正確に守るとは限らないという限界があります。
想像の中の計画 — MPC とロールアウト
ワールドモデルの真価は計画(planning)で発揮されます。代表的な方法がモデル予測制御(Model Predictive Control, MPC)です。
MPC の手順は次のとおりです。現在の状態から複数の候補行動系列をワールドモデルで先を見据えてシミュレーションします。各系列がもたらす未来とその報酬を評価します。最も良い系列を選び、その最初の行動だけを実際に実行します。1ステップ実行した後、新しい状態でこの過程を最初から繰り返します。
MPC 計画ループ (想像で先を見据える)
─────────────────────────────────
[1] 現在の状態から複数の候補行動系列を生成
候補A: a1 a2 a3 ...
候補B: a1'a2'a3'...
候補C: ...
│
▼
[2] 各候補をワールドモデルで想像ロールアウト
s ──▶ ŝ1 ──▶ ŝ2 ──▶ ŝ3 (候補ごとに)
│
▼
[3] 予測報酬が最も高い候補を選択
│
▼
[4] その候補の最初の行動だけを実際に実行
│
└──▶ 新しい状態で再び [1] (繰り返し)
MPC は毎ステップ計画し直すため、予測が少し外れても次のステップで実際の観測により軌道を修正できるという利点があります。この再計画の特性がワールドモデルの予測誤差をある程度緩衝してくれます。
もう一つの方式は、想像ロールアウトで方策を直接学習することです。実際の環境の代わりにワールドモデルの中で数多くの仮想エピソードを生成し、その中で強化学習を回して方策を改善します。こうすれば実際のロボットの摩耗なしに大量の学習経験を確保できます。
ワールドモデルはどう学習されるか
ワールドモデル自体も結局はデータで学習されます。学習の基本材料は、ロボットが環境と相互作用しながら残した軌跡です。すなわち、ある状態でどの行動をしたらどの次状態と報酬が出たか、という記録です。
学習目標はおおむね三つの損失に分かれます。
- 再構成/予測損失: エンコードされた潜在状態から観測を復元したり、次の観測を予測したりします。これが潜在表現に世界の情報を持たせます。
- 動力学予測損失: 現在の潜在状態と行動から次の潜在状態を正確に予測させます。ワールドモデルの核心です。
- 報酬予測損失: 潜在状態から報酬を予測させます。計画時にどの未来が良いかを評価するのに使われます。
ワールドモデル学習の三つの損失
──────────────────────────────
観測 o ──[エンコーダ]──▶ z ──┬──[デコーダ]──▶ ô (再構成/予測損失)
│
行動 a │
▼
[動力学]──▶ ẑ' (動力学予測損失)
│
▼
[報酬予測]──▶ r̂ (報酬予測損失)
三つの損失を一緒に最小化して、予測可能で
報酬まで持つ潜在表現を学習する。
ここで重要な設計要素が順環構造です。ロボットの観測は部分観測(partial observation)であることが多いのです。1フレームだけでは物体の速度や隠れた部分は分かりません。そのため多くのワールドモデルは過去の流れを要約する順環状態(recurrent state)を保持し、時間にわたる情報を蓄積します。この順環状態と確率的な潜在変数を一緒に使う構造が広く活用されています。
予測の不確実性を扱う
ワールドモデルの予測は間違いうるもので、特に学習データが不足する領域でより頻繁に間違います。問題は、方策がこの間違った予測を盲信して、モデルの中でだけ良く見える危険な行動を学習しうることです。
これを緩和するために、予測の不確実性を明示的に扱うアプローチがあります。
- アンサンブル: 複数のワールドモデルを一緒に学習し、それらの予測が互いに大きく食い違う状況を「不確実」と判断します。
- 保守的計画: 不確実性が大きい領域では楽観的な報酬を信頼せず、安全な側へ計画を偏らせます。
アンサンブルで不確実性を検知
──────────────────────────
同じ (状態, 行動) に対して:
モデル1 ──▶ 予測 A
モデル2 ──▶ 予測 A' 予測が互いに似ている ──▶ 信頼可能
モデル3 ──▶ 予測 A''
モデル1 ──▶ 予測 B
モデル2 ──▶ 予測 X 予測が大きく食い違う ──▶ 不確実(注意)
モデル3 ──▶ 予測 Y
不確実性を扱うことは、ワールドモデルを実際に信頼できるものにするうえで核心的です。「知らないことを知っている」モデルは、自分が確信できない領域で無謀な計画を立てません。
ワールドモデル vs 明示的シミュレータ
ワールドモデルと sim-to-real のシミュレータは、どちらも「未来を予測する道具」という点で似ていますが、根本的な違いがあります。
| 項目 | 明示的シミュレータ | 学習されたワールドモデル |
| --- | --- | --- |
| 作り方 | 人が物理をコーディング | データで学習 |
| 正確性の源 | 物理法則・パラメータ | 観測された経験 |
| 新しい物体・現象 | 人がモデリングする必要 | データにあれば自動反映 |
| 主な弱点 | 現実ギャップ・モデリングの労力 | 分布外に脆弱・予測誤差 |
| データなしで使用 | 可能(事前構築) | 不可(経験が必要) |
二つのアプローチは対立するより補完的です。明示的シミュレータは事前知識を安価に大量提供し、学習されたワールドモデルは人が モデリングしきれなかった現実の複雑さをデータで吸収します。実務ではシミュレータで大まかに学習し、現実の経験でワールドモデルを補正するといった組み合わせも可能です。
ロボットへの適用
ワールドモデルはさまざまなロボット課題に適用されます。
- 脚型歩行: 地形と接触の動力学を予測するモデルは、バランスを崩す前に危険な足の踏み出しを想像で排除するのに役立ちます。
- 操作: 物体を押したり掴んだりするときの結果を予測すれば、複数の把持戦略を実際に試す前に想像で比較できます。
- ナビゲーション: 移動経路に応じた未来の観測を予測し、障害物を避ける経路を事前に評価できます。
- 道具の使用: 道具を通じて物体に力を伝える課題で、道具の先端の相互作用の結果を想像で事前に確認できます。
核心の利点は共通しています。高価で危険な実際の試行錯誤の相当部分を、安価で安全な想像に置き換えられることです。
課題別のワールドモデルの役割
────────────────────────────
歩行 ──▶ 地形・接触の予測 ──▶ 危険な足の踏み出しを回避
操作 ──▶ 把持結果の予測 ──▶ 良い把持戦略を選択
ナビゲーション──▶ 経路別の未来予測 ──▶ 安全な経路を選択
道具の使用 ──▶ 道具の相互作用予測──▶ 力の伝え方を調整
▶ 共通原理: 実際に試す前に結果を想像で振るい落とす。
データ効率の観点から
ワールドモデルの最大の実用的価値はデータ効率です。先に扱った sim-to-real が人の作ったシミュレータに依存するのに対し、ワールドモデルはロボットが自らデータからシミュレータを学習する点で異なります。
データ効率の比較 (概念的な傾向)
──────────────────────────────
モデルフリー RL : 実経験 ██████████████████ (多く必要)
モデルベース RL : 実経験 ████ (少なく必要)
+ 想像経験 ░░░░░░░░░░░░░░ (安価に大量)
▶ 実経験を想像経験で相当部分置き換える
もちろんこれは概念的な傾向であり、実際の効率は課題とモデルの品質によって大きく変わります。
計画地平のトレードオフ
ワールドモデルで計画するとき必ず直面する決定が計画地平(planning horizon)の長さです。すなわち、未来を何ステップ先まで想像して評価するかです。
地平が短ければ予測誤差が少なく積もり、各予測は正確ですが、遠くを見通せず近視眼的な決定を下しかねません。地平が長ければ遠い未来の結果まで考慮できますが、誤差が複数ステップにわたって累積し、想像した未来が信頼を失います。
計画地平のトレードオフ
────────────────────
短い地平: s ─▶ ŝ1 ─▶ ŝ2 予測正確、しかし近視眼
(誤差小)
長い地平: s ─▶ ŝ1 ─▶ ... ─▶ ŝ10 遠くを見る、しかし誤差累積
(信頼低下)
▶ 通常は中間の地平 + 頻繁な再計画(MPC)でバランスを取る。
このトレードオフを扱う実用的な方法の一つが学習された価値関数との組み合わせです。短い地平までだけ明示的に想像し、それ以降の遠い未来の価値は別に学習した価値関数で近似します。こうすれば誤差の累積を抑えつつ、長期的な結果もある程度反映できます。
短い想像 + 価値関数で長期を近似
──────────────────────────────────
s ─▶ ŝ1 ─▶ ŝ2 ─▶ ŝ3
│
▼
[ 価値関数 V(ŝ3) ] ← それ以降の遠い未来の価値を近似
総評価 = (想像した短期報酬の和) + (価値関数の長期推定)
生成型ワールドモデルの台頭
2020年代半ばに入り、大規模な生成モデルをワールドモデルとして活用しようとする流れが目立ってきました。膨大なインターネット映像で学習した動画生成モデルは、物体が落ち、ぶつかり、流れるといった世界の物理的常識を相当程度備えるようになります。
こうしたモデルをロボットのワールドモデルとして使うには二つが必要です。第一に、ロボットの行動に条件付けして「この行動をすれば未来がどう変わるか」を予測させることです。第二に、その予測を計画に活用できるよう、報酬や目標達成の可否を判断する仕組みを付けることです。
生成型ワールドモデルの計画活用
────────────────────────────
目標画像/指示 ──┐
├──▶ [行動候補について未来映像を予測]
現在の観測 ─────┘
│
▼
目標に最も近い未来を作る
行動候補を選択 ──▶ 実行
このアプローチの魅力は、人が物理をコーディングしなくても膨大な映像データから豊かな常識を受け継ぐ点です。ただし、生成モデルの予測がもっともらしく見えても物理的に不正確だったり一貫性が崩れたりすることがあり、予測が長くなるほどこの問題が大きくなるという限界が依然として残ります。詳細な能力や性能はモデルやバージョンによって大きく異なる場合があるため、具体的な仕様は各公式資料を確認するのがよいでしょう。
ワールドモデルをどう評価するか
ワールドモデルの性能を評価することは、方策評価とはまた別の問題です。大きく二つの観点から見ます。
第一は予測精度です。モデルが予測した次の状態や観測が実際とどれだけ一致するかを見ます。ただし単一ステップの予測が正確でも複数ステップのロールアウトまで正確とは限らないので、複数の地平にわたる予測誤差を合わせて見る必要があります。
第二は下流性能(downstream performance)です。結局ワールドモデルはより良い方策を作るための手段なので、そのモデルで学習または計画した方策が実際にどれだけうまく動くかが最も重要な指標です。予測誤差が多少あっても、計画に必要な核心的な動力学さえよく捉えていれば十分な場合が多いのです。
ワールドモデル評価の二つの観点
──────────────────────────────
[1] 予測精度 ──▶ 予測状態 vs 実際の状態
│ (複数の地平で)
▼
[2] 下流性能 ──▶ このモデルで作った方策の実際の成功率
▶ 予測が完璧でなくても、計画に有用なら良いモデルである。
この区別が重要なのは、ピクセル単位で完璧な予測を追求することが必ずしも良い方策につながらないからです。計画に必要な情報をよく捉えることが、視覚的に完璧な再現より重要なことが多いのです。
関連概念の整理
これまで登場した概念を簡単に整理します。
- モデルベース RL: ワールドモデルを学習し、それで方策を改善する強化学習の系列。
- 潜在状態: 高次元の観測を圧縮した低次元表現で、予測はこの空間で行われます。
- 想像ロールアウト: 実際の環境の代わりにワールドモデルの中で未来を複数ステップ転がすこと。
- MPC: 短い地平を想像して最善の行動を選び、1ステップ実行した後に再び計画する方式。
- 計画地平: 未来を何ステップ先まで想像するかの長さで、正確性と近視眼の間のトレードオフ。
これらの概念は互いに絡み合って一つの絵をなします。潜在状態の上で想像ロールアウトを転がし、その上で MPC や方策学習で計画しつつ、計画地平と不確実性を慎重に扱う。それがワールドモデルに基づくロボット学習の大きな絵です。
落とし穴と限界
- モデル誤差の累積: ワールドモデルは完璧ではありません。予測を複数ステップつなぐほど小さな誤差が積み重なり、想像した未来が現実と大きくずれることがあります。
- モデルの悪用: 方策がワールドモデルの予測の穴を突いて、モデルの中でだけ高い報酬を得る非現実的な行動を学習することがあります。実際には通用しません。
- 分布外の状況: 学習データにない新しい状況では、ワールドモデルの予測は信頼しにくくなります。
- 長期予測の難しさ: 遠い未来ほど予測の不確実性が大きくなります。そのため通常は短い地平(horizon)の計画を頻繁にやり直す方が安全です。
こうした限界のため、実務ではワールドモデルを万能とみなすより、MPC の再計画や実際の観測による補正と組み合わせて誤差を緩衝するのが一般的です。
他の学習方式との関係
ワールドモデルは、先の記事で扱った模倣学習、強化学習、sim-to-real とどう組み合わさるのでしょうか。
模倣学習とはこう出会います。デモデータはワールドモデルを学習する良い材料になります。人がロボットを操作した軌跡から世界の動力学を学び、その上で計画すれば、デモを超える行動も想像してみることができます。
強化学習とはモデルベース RL という名前で直接結合します。ワールドモデルが提供する想像経験は、強化学習のデータ効率の問題を大きく緩和します。
sim-to-real とは相補的です。sim-to-real が人の作ったシミュレータを現実に合わせる問題なら、ワールドモデルはロボットがデータからシミュレータそのものを学習することです。二つを結合し、明示的シミュレータで大まかに学習してから現実データでワールドモデルを仕上げる方式も可能です。
ロボット学習の四つの軸とワールドモデル
────────────────────────────────────
模倣学習 ────┐
強化学習 ────┤
sim-to-real ┤──▶ ワールドモデルがこれらと結合し
ワールドモデル┘ 想像・計画・データ効率を提供
▶ 四つの軸は代替ではなく、一緒に使う道具である。
このように、ワールドモデルは独立した手法というより、他の学習方式と結合してロボットの学習と計画を強化する共通インフラに近いものです。
おわりに
ワールドモデルは、ロボットに「行動する前に想像する」能力を与えようとする試みです。環境の動力学を学習しておけば、ロボットは高価な実際の試行錯誤を安価な想像で相当部分置き換え、未来を見据えてより良い計画を立てられます。潜在空間予測はこれを効率的にし、大規模な動画予測モデルはデータから豊かな物理的常識を取り込み、MPC と想像ロールアウトはその予測を実際の行動へつなげます。
同時に、モデル誤差の累積と分布外の状況という根本的な限界も明らかです。ワールドモデルは完成した解法ではなく、ロボットが世界をよりよく理解し予測できるようにしようとする活発な研究分野です。模倣学習、強化学習、sim-to-real とともに、ワールドモデルはロボットが学ぶ方式のもう一つの重要な軸をなしています。
参考資料
- World Models 論文 (Ha and Schmidhuber, arXiv): https://arxiv.org/abs/1803.10122
- DreamerV3 論文 (arXiv): https://arxiv.org/abs/2301.04104
- OpenAI Spinning Up (強化学習入門): https://spinningup.openai.com/
- NVIDIA Isaac / ロボティクス: https://developer.nvidia.com/isaac
- Open X-Embodiment 論文 (arXiv): https://arxiv.org/abs/2310.08864
- RT-2 論文 (arXiv): https://arxiv.org/abs/2307.15818
- MuJoCo 物理エンジン: https://mujoco.org/
- Gymnasium (強化学習環境): https://gymnasium.farama.org/
현재 단락 (1/221)
人は行動する前に頭の中で結果を思い描きます。コップを押せば倒れるか、ドアを引けば開くか、私たちは世界がどう反応するかについての直感的なモデルを持っています。この内的モデルのおかげで、危険な行動を実際に...