Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

はじめに

ロボット学習の長年のボトルネックはデータです。ロボットが自ら試行錯誤で学ぶには実機を長く動かす必要があり、人が一つひとつ操作して実演を集めるのも遅くて高価です。言語モデルがインターネットの膨大なテキストで飛躍したのを見て、ロボット研究者は自然な問いを投げます。「インターネットにあふれる人の映像から、ロボットは学べないのか?」

YouTubeには、料理し、組み立て、物を片づける人の映像が無限に近く積み上がっています。その中には「手がどう物体に近づき、どんな順序で操作し、何を目標とするか」という豊かな知識が詰まっています。問題は、人の身体とロボットの身体が異なる点、そして映像にはロボットがまねすべき行動命令(action)が明示されていない点です。

この記事は、人の映像からロボットが学ぶ方法を見ていきます。何を学べるか(アフォーダンス・軌道・目標)、何が難しいか(ドメインギャップ)、どう克服するか(表現学習・事前学習・模倣)、そしてロボットデータとどう結合するかまで扱います。実在するアプローチとその限界を正直に押さえます。

なぜ今この問いなのか

このアイデア自体は新しくありません。「観察からの学習」は古くからのロボット研究のテーマです。ところが近年、この問いが特に熱くなったのには理由があります。

第一に、言語モデルの成功が強力な類推を提供しました。言語モデルはラベルのない膨大なテキストを事前学習して世界知識を吸収し、少量のデータで特定の課題に適応しました。ロボットも同じ道を進めるなら、ラベルのない人の映像がその「膨大な事前学習データ」になり得ます。

言語モデルとの類推

言語モデル: 膨大なテキスト(ラベルX) ──▶ 事前学習 ──▶ 少量の課題で適応

│

ロボット: 膨大な人の映像(ラベルX) ──▶ 事前学習 ──▶ 少量のロボットデータで適応

│

同じ発想: 「広く学び、狭く合わせる」

第二に、道具が成熟しました。手の姿勢推定、物体検出、映像理解のモデルが十分に良くなり、映像から有用な信号を取り出すことが現実的になりました。第三に、ロボットデータのボトルネックがより切実になりました。VLAのような大きなモデルを学習させるには膨大なデータが必要ですが、ロボット実演だけではその規模を満たしにくいのです。だから安価な人の映像への期待が高まりました。

この三つの流れが重なり、「人の映像から学ぶロボット」は古い夢から活発な現在の研究へと移ってきました。

人の映像から何を学べるか

人の映像には行動命令がありませんが、それでも複数の層で有用な信号を含んでいます。

人の映像の一場面から取り出せる信号

┌──────────────────────────────────────┐

│ アフォーダンス: このコップの取っ手は「握れる」│

│ 軌道: 手が A→B へこう動いた │

│ 目標: 結局は水をコップに注ぐことだった │

│ 順序: 蓋を開ける → 注ぐ → 閉じるの段階 │

│ 接触: いつ手が物体に触れ離れるか │

└──────────────────────────────────────┘

- アフォーダンス(affordance): 物体がどんな相互作用を許すかについての知識です。取っ手は握り、ボタンは押し、引き出しは引きます。人の映像を見れば、どの部位がどう扱われるかを学べます。

- 軌道(trajectory): 手や物体が空間に描く経路です。ロボットの関節角度に直接対応するわけではありませんが、「何がどこへ動いたか」という目標水準の情報は移せます。

- 目標(goal)と順序: 映像の最終状態と中間段階は、ロボットに「何を達成すべきか」を教えます。

肝心なのは、低水準の命令(どの関節をどれだけ動かせ)ではなく、高水準の知識(何を、どの順序で、どこへ)を移すことにあります。

信号を実際にどう取り出すか

こうした信号を映像から抽出するには、すでに成熟したコンピュータビジョンの道具が使われます。手の姿勢は手の関節推定(hand pose estimation)で、物体の位置と種類は検出・分割で、手と物体の接触はこの二つを組み合わせて推論します。こうして取り出した信号がロボット学習の材料になります。

人の映像 → 信号抽出のパイプライン

原フレーム ──▶ 手の関節推定 ──▶ 手の軌道(時間に沿った3Dの手の位置)

├─▶ 物体検出/分割 ──▶ 何を、どこで扱うか

└─▶ 接触推論 ──▶ いつ握り離すか(把持イベント)

結果: 「手がいつどの物体をどう扱ったか」の構造化された記録

ここで出た手の軌道は、ロボットのグリッパの軌道にそのままマッピングされるわけではありませんが、「どこへ接近し、どこで把持が起きるか」という骨格を提供します。この骨格にロボット固有の低レベル制御を埋め込むのが、以降の段階の仕事です。

アフォーダンスを地図にする

アフォーダンスはしばしばヒートマップの形で学習されます。画像の上に「ここを握れる」という確率を色で塗った地図です。人が実際に物体のどの部位を握るかを映像で観察すれば、その部位に高いアフォーダンス点を与えて学習できます。

アフォーダンスのヒートマップ(概念)

コップ画像アフォーダンス地図

┌────────┐ ┌────────┐

│ ▢▢ │ │ .. │ . = 低い(握りにくい)

│ ▢▢█ │ ──▶ │ ..## │ # = 高い(取っ手、握りやすい)

│ 取っ手 │ │ ### │

└────────┘ └────────┘

ロボットは # 領域を把持候補として優先

このアフォーダンス地図は、ロボットが新しい物体に出会ったとき「どこを握るか」を決める事前知識として使われます。人が無数の物体を扱う映像から学習すれば、ロボットは初めて見る物体についても、もっともらしい把持地点を推測できます。

ドメインギャップ — 最大の壁

人の映像から学ぶことの核心的な難関はドメインギャップ(domain gap)です。人とロボットは多くの面で異なります。

人の実演ロボットの実行

┌──────────────────┐ ┌──────────────────┐

│ 形態: 五本指 │ ギャップ1│ 形態: 2指グリッパ │

│ 視点: 一人称/三人称│ ギャップ2│ 視点: ロボットカメラ│

│ 速度・リズム: 人 │ ギャップ3│ 速度: 制御周期 │

│ 行動表記: なし │ ギャップ4│ 行動: 関節命令が必要│

└──────────────────┘ └──────────────────┘

これらの隙間をどう埋めるかが研究の核心

- 形態ギャップ(embodiment gap): 人の手は五本指で関節が多いですが、ロボットのグリッパはしばしば二本指です。人の繊細な手の動きをそのまま移せません。

- 視点ギャップ(viewpoint gap): 映像は人の目や第三者視点ですが、ロボットは自分のカメラで見ます。同じ場面もまったく違って見えます。

- 行動ギャップ(action gap): 映像にはピクセルしかなく、ロボットが実行する関節命令がありません。この「行動ラベルの不在」が最も根本的です。

これらのギャップのため、人の映像をロボットにそのまままねさせることはできません。そこで研究は、ギャップを迂回するか埋める複数の戦略を発展させてきました。

形態ギャップに対処する方法

形態ギャップへの対応は、大きく三つの筋に分けられます。

形態ギャップ対応の戦略

1) 手をロボットの手へリターゲット

人の手の関節 ──▶ ロボットグリッパの形状へ対応

(完璧ではないが、把持地点・接近方向は移る)

2) 手自体を無視し物体中心に

「手」ではなく「物体がどう動いたか」に集中

──▶ ロボットは同じ物体の変化を自分のやり方で再現

3) 目標状態だけを取る

実演の最終/中間の状態を目標とし

──▶ ロボットはその目標を自分の体で達成

とくに物体中心(object-centric)の視点は、形態ギャップを優雅に回避します。「人の手がどう動いたか」はロボットと異なりますが、「コップが食卓から棚へ移された」という結果は、ロボットでも人でも同じだからです。結果に集中すれば、体の違いは重要でなくなります。

視点ギャップとドメイン適応

視点ギャップには、ドメイン適応(domain adaptation)の技法が使われます。人の視点の映像とロボットの視点の映像が「同じ特徴空間」に置かれるように表現を整列するのです。すると人の映像で学んだことが、ロボットの視点でも通じます。

視点の整列(概念)

人の視点の特徴 ─┐

├──▶ 共有特徴空間 ◀── 視点差を消した表現

ロボット視点の特徴 ─┘ │

▼

ここで学んだ知識は両方に通用

この整列がうまくいくと、三人称で撮られた料理映像で学んだ知識が、ロボットの一人称カメラでも有用になります。ただし視点差が極端だと(例: 真上から見下ろした映像 vs 指先のカメラ)、整列が難しくなり、性能が下がります。

表現学習と事前学習

最も広く使われる戦略は、人の映像からまず良い視覚表現(representation)を学ぶことです。行動を直接まねる代わりに、映像を理解する能力を事前学習(pre-training)しておき、その上に少量のロボットデータで実際の操作を微調整(fine-tuning)します。

2段階学習の戦略

1段階目: 大規模な人の映像で表現を事前学習

┌────────────────────────────┐

│ ウェブ動画 ──▶ エンコーダ学習 │ 「世界を理解」

│ (物体・手・動きの特徴) │

└────────────────────────────┘

│ 学習した表現を転移

▼

2段階目: 少量のロボットデータで微調整

┌────────────────────────────┐

│ ロボット実演 ──▶ 方策学習 │ 「実際の操作」

│ (関節命令まで接続) │

└────────────────────────────┘

このアプローチの利点は明確です。高価なロボットデータは少なく、安価な人の映像は多く使います。事前学習された表現が「物体が何で、手がどう動くか」をすでに知っているので、実際の操作学習ははるかに速くなります。言語モデルの事前学習・微調整のパラダイムをロボットに移したわけです。

関連して、人の映像から視覚・言語の特徴を学び、ロボット方策のバックボーンとして使う研究があります。ただし、どの表現が操作に本当に有用かは依然として活発に探究される問題であり、万能の解はありません。

ワンショット/フューショット模倣

もう一つの興味深い方向は、ワンショット(one-shot)またはフューショット(few-shot)模倣です。人が新しい作業を一度(あるいは数回)見せると、ロボットがそれをすぐにまねすることを目標とします。

ワンショット模倣の理想

人が1回実演 ──▶ ロボットが即座に再現

┌──────────┐ ┌──────────┐

│「こう畳み │ │ ロボットが │

│ ます」 │ ─────▶ │ 類似作業実行│

└──────────┘ └──────────┘

(事前に多様な作業で「学び方」を学習しておく)

これが可能になるには、ロボットがあらかじめ数多くの作業にわたって「実演を見てまねる方法そのもの」を学んでおく必要があります(メタ学習の発想)。すると新しい作業の実演一つだけで一般化が可能になります。現実にはまだ限られた作業範囲でしかうまく動作せず、形態・視点ギャップが大きいほど性能が下がります。それでも「一度見せればまねる」という方向はロボット活用を大きく広げる潜在力があり、着実に研究されています。

目標条件学習 — 人の映像を目標に使う

もう一つの有用な視点は、人の映像を目標(goal)の源とみることです。ロボットに「こういう状態を作れ」と目標を与えると、ロボットは自らその目標に到達する方法を見つけます。人の映像は、まさにこの「望ましい状態」の豊かな例を提供します。

目標条件方策(goal-conditioned policy)

人の映像の目標フレーム ──▶「この状態を作れ」

│

▼

現在状態 + 目標状態 ──▶ 方策 ──▶ 行動

│

▼

目標に近づいたか? ── いいえ ──▶ 反復

└─ はい ──▶ 完了

この方式の長所は、行動ラベルがなくてよい点です。人の映像から「どんな命令を出したか」はわからなくても、「どんな状態を望んだか(目標)」はフレームから読み取れるからです。ロボットはその目標を自分の体で達成する方法を、ロボットデータや試行錯誤で別に学びます。

人の映像を報酬信号に

さらに一歩進んで、人の映像を強化学習の報酬(reward)の定義に使うアプローチもあります。ロボットの現在状態が人の実演の進行とどれほど似ているかを測り、似ているほど高い報酬を与えるのです。すると、ロボットは「人がしたように近づいていく」方向へ学習します。

人の映像に基づく報酬(概念)

人の実演の進行: [開始]──[中間]──[完了]

│ │ │

ロボット状態と比較: 類似度を測定

│

▼

報酬 = 人の進行との類似度 ──▶ 高いほど「よく追随中」

このアプローチは、細かい報酬関数を人が一つひとつ設計しなくてよい魅力があります。ただし類似度を何で測るかが厄介で、設計を誤るとロボットが「見かけだけ似た」抜け道を見つける危険があります。これは先の安全・アラインメントの記事で扱った仕様ゲーミングと通じています。

ウェブ動画のスケールアップ

言語や画像のモデルがデータ規模で飛躍したように、ロボットもウェブ動画のスケールアップの夢を追います。インターネットの膨大な人の活動映像を学習に取り込めば、狭いロボットデータセットを超えた幅広い世界知識が得られるという期待です。

データ規模の比較(概念的)

ロボット実演 ▓▓ 小さいが正確(行動ラベルあり)

人の実演映像 ▓▓▓▓▓▓ 中間(直接操作、ラベルなし)

ウェブ動画全体 ▓▓▓▓▓▓▓▓▓▓▓▓▓▓ 膨大(多様、ノイズが多い)

└── 規模は大きいが直接使いにくいので精製・接続が必要

ただし規模がすなわち有用性ではありません。ウェブ動画は多様ですがノイズが多く、ロボット作業と無関係な内容がほとんどです。関連する操作場面を選び出し、有用な信号(手の姿勢、物体との相互作用)を抽出し、ドメインギャップを越えて転移することが、いずれも難題です。そのため実際には、ウェブ動画だけでロボットを学習させるより、ウェブ動画で幅広い表現を得てロボットデータで正確な行動をつなぐ結合方式が主流です。

ロボットデータとの結合

最も実用的な流れは、人の映像とロボットデータを一緒に使う共同学習(co-training)です。広いが不正確な人のデータと、狭いが正確なロボットデータの長所を合わせます。

結合学習の構造

ウェブ/人の映像 ─────┐

(広い世界知識) │

▼

┌───────────┐

│ 共同学習 │──▶ 汎化するロボット方策

└───────────┘

▲

ロボット実演 ────────┘

(正確な行動命令)

この結合は、近年のビジョン・言語・行動(VLA)モデルの流れで際立ちます。ウェブの視覚・言語データで事前学習されたモデルにロボット軌道を一緒に学習させる共同微調整(co-fine-tuning)は、広い世界理解と具体的な操作能力を同時に得ようとする試みです。たとえば、ウェブ規模の視覚・言語知識をロボット行動につないだRT-2、複数ロボットのデータを交差して集めたOpen X-Embodiment、オープンなVLAモデルであるOpenVLAなどが、この方向の代表的な事例です。これらは、ロボットごとに一から学ぶ代わりに、膨大な事前知識を共有しようとする大きな流れを示しています。(具体的な性能や機能はバージョン・設定によって異なる場合があります。)

データの層

人の映像学習で使われるデータは、性格に応じて複数の層に分かれます。各層は規模と正確さを異なる形で引き換えにします。

| --- | --- | --- | --- |

この表の核心は「上ほど多いが不正確、下ほど少ないが正確」という点です。良いシステムはこれらの層を梯子のように登ります。広い層で世界を理解し、狭い層で正確な行動を身につけます。

カリキュラムのように積む

これらの層を学習の順序に並べると、一種のカリキュラムになります。

学習カリキュラム(広く安価なものから → 狭く高価なものへ)

[ウェブ視覚・言語] ──▶ [一人称映像] ──▶ [人の実演] ──▶ [ロボット実演]

世界・言語手・物体アフォーダンス正確な行動

理解相互作用・軌道

│ │

└────── 各段階が次の段階の土台になる ──────────────────┘

この順序には直感的な理由があります。世界や物体をまったく知らない状態からロボットデータで直接学ぶと、少ないデータで多くを学ばねばならず非効率です。一方、広いデータで基礎を固めた後なら、ロボットデータは最後の「行動の接続」だけを担えばよいので、はるかに少なくて済みます。

事例で見る感覚

概念を具体化するため、人の映像信号がロボット学習へ流れ込む典型的なパイプラインをまとめると次のようになります。

典型的なパイプライン

1) 収集: 人の操作映像を大量に確保

2) 抽出: 手の姿勢・物体・接触・軌道の信号を取り出す

3) 表現: この信号で視覚エンコーダを事前学習

4) 転移: ロボットカメラ視点へ表現を適応

5) 結合: 少量のロボット実演で行動まで学習

6) 配備: 実環境で検証しながら補正

この流れの各段階が、ドメインギャップを少しずつ埋めます。どの段階も完璧ではないので、実際のシステムは複数の段階を重ねて互いの弱点を補います。

効果をどう評価するか

「人の映像が本当に役立ったか」を証明するには、公正な比較が必要です。最も一般的な方法は統制された実験です。人の映像を使ったロボットと使わないロボットを同じ作業で競わせ、成功率・学習効率・一般化を比較します。

公正な比較の設計(ablation)

条件A: ロボットデータのみで学習

条件B: 人の映像の事前学習 + ロボットデータ

│

▼

同じ作業・同じロボットデータ量で評価

│

▼

測定: 成功率 / 必要データ量 / 新しい物体への一般化

BがAより良ければ → 人の映像が寄与した証拠

測定指標としてはいくつかが併せて使われます。作業成功率は最も直接的で、データ効率(同じ性能に必要なロボット実演の数)は人の映像の実用的価値を示し、一般化は訓練になかった物体・配置での成功を見ます。とくに一般化の指標が重要で、人の映像の本当の約束が「広い世界知識」だからです。

注意すべき落とし穴もあります。よく選んだ数本のデモ映像だけで成功を示すと、それが広い能力なのか狭い過学習なのか見分けにくいのです。だから評価は、ロボットが初めて見る条件で、何度も繰り返し、失敗まで含めて正直に報告されるべきです。

実務ワークフローでの考慮

人の映像学習を実際に回すときにぶつかる、現実的な考慮があります。

- データ精製のコスト: ウェブ映像はそのまま使えません。関連する場面を選び、著作権・個人情報を検討し、信号を抽出するのにかなりの労力がかかります。

- 計算資源: 大規模な映像の事前学習は重いです。多くのチームには、公開された事前学習モデルを使うほうが現実的です。

- ロボットデータとのバランス: 人の映像を混ぜすぎるとロボットの正確な行動がぼやけ、少なすぎると広い知識を得られません。比率の調整が微妙です。

- 安全検証: 人の映像で学んだ行動も、先の安全の記事で扱った安全層を必ず通さねばなりません。「人がしていたとおり」が常に安全とは限りません。

実務パイプラインの現実

理想: ウェブ映像 ──▶ 魔法 ──▶ 有能なロボット

現実: ウェブ映像 ──▶ [精製] ──▶ [事前学習 or 既存モデル]

──▶ [ロボットデータ結合] ──▶ [安全層] ──▶ [現場検証]

│

各段階ごとに人の判断とコストがかかる

限界と開かれた問い

- 形態ギャップは根本的です。人の手の繊細さを二本指のグリッパへ移すには物理的な限界があります。

- 行動ラベルの不在は依然として大きな壁です。映像から正確なロボット命令を推し量ることは本質的にあいまいです。

- 転移の信頼性が問題です。表現がどれほどうまく移るかは作業と環境に大きく左右されます。

- 評価が難しいです。「人の映像が本当に役立ったか」を公正に測ること自体が研究課題です。

- 過大解釈への注意。印象的なデモがすなわち汎用能力を意味するわけではありません。狭い条件での成功を一般化と誤解しないことです。

いつ輝き、いつかすむか

人の映像学習は万能ではなく、似合う問題があります。どんな場合に効果が大きく、どんな場合に難しいかを知ることが、実用の核心です。

人の映像学習の適合度

よく合う問題難しい問題

┌──────────────────┐ ┌──────────────────┐

│ 人がよくやること │ │ ロボット特有の │

│ (料理・片づけ・操作)│ │ 精密作業 │

│ 物体中心の目標 │ │ (人がやらないこと) │

│ 広い物体の一般化 │ │ 微妙な力制御 │

│ │ │ 人の手特有の技巧 │

└──────────────────┘ └──────────────────┘

人が日常でよくやること、そして物体の状態変化で目標を表現できることでは、人の映像が大きな力を発揮します。インターネットに例があふれ、形態ギャップを物体中心で回避できるからです。逆に、人があまりやらないロボット特有の作業(精密組立の特定の動作など)や、人の手の五本指があってこそ可能な技巧では、人の映像の助けは限られます。

この区別は実務で重要です。すべての作業に人の映像を無理に押し込むより、人の映像が実際に有利な作業を選んで適用することが、資源を節約する道です。良いエンジニアリングは「使える」と「使うべき」を区別します。

三つの枝を一目で

これまで扱った学習信号の種類をまとめると、人の映像を使う方式は大きく三つの枝に分かれます。

| --- | --- | --- | --- |

三つのアプローチは排他的ではなく、しばしば混ぜて使われます。表現で基礎を固め、目標で方向を与え、報酬で細部を磨く、という組み合わせが可能です。どの組み合わせが最善かは作業と利用可能なデータによって変わるので、正解を選ぶより、複数の方式を実験で比較する態度が実用的です。

おわりに

人の映像から学ぶロボットは魅力的な夢です。インターネットに積み上がった人の活動の知識を、高価なロボットデータのボトルネックを越えてロボットへ伝えられれば、ロボット学習は言語モデルが経たような飛躍を遂げるかもしれません。

同時に、この道には形態・視点・行動の根本的なギャップが横たわっています。現在の実用的なアプローチは、人の映像で広い表現を得て、ロボットデータで正確な行動をつなぐ結合にあります。VLAモデルの共同学習の流れが、その代表的な証拠です。完成した解はまだありませんが、方向は明確です。安価で膨大な人の知識と、高価だが正確なロボットの経験をいかにうまく織り合わせるか — ここにウェブスケールのロボット学習の未来がかかっています。

この三編のロボットの記事を貫く糸は一つです。ロボットを有能にすることと、その有能さを私たちが理解し信頼できるようにすることは、別々ではないということです。世界をよく見て(認識)、安全に行動し(安全・アラインメント)、人類の膨大な経験から学ぶ(人の映像学習)という三つの軸が共に育つとき、ロボットはようやく私たちのそばで役に立ち信頼できる存在になります。技術は速く動きますが、この三つの軸のバランスを失わないことが、長く続く進歩の条件です。

参考資料

- [RT-2: Vision-Language-Action Models (arXiv: 2307.15818)](https://arxiv.org/abs/2307.15818)

- [Open X-Embodiment (arXiv: 2310.08864)](https://arxiv.org/abs/2310.08864)

- [OpenVLA (arXiv: 2406.09246)](https://arxiv.org/abs/2406.09246)

- [R3M: ロボット向け視覚表現 (arXiv: 2203.12601)](https://arxiv.org/abs/2203.12601)

- [Ego4D: 大規模一人称映像データセット (arXiv: 2110.07058)](https://arxiv.org/abs/2110.07058)

- [DROID ロボットデータセット (arXiv: 2403.12945)](https://arxiv.org/abs/2403.12945)

- [Physical Intelligence 公式サイト](https://www.physicalintelligence.company/)

- [ROS(ロボットオペレーティングシステム)公式ドキュメント](https://docs.ros.org/)