Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

はじめに: なぜヒューマノイドは難しいのか

ここまで見てきたVLAモデルは、主に机の上の単腕マニピュレータを扱ってきました。ヒューマノイドは次元の異なる挑戦です。二本の腕と二つの手、頭、そしてバランスを取りながら歩く脚まで、制御すべき自由度が爆発的に増えます。さらに、人の環境(ドアの取っ手、階段、食器)に合わせて設計されているため、精密さと安定性が同時に求められます。

この複雑さを一つのモノリシックなニューラルネットワークで解こうとするとジレンマに直面します。速く反応するにはモデルが小さく軽くなければならず、賢く推論するには大きく重くなければなりません。バランスを取る脚の制御は毎秒数百回更新される必要がありますが、「冷蔵庫から飲み物を取り出してコップに注いで」という指示を理解するのにそれほど速い周波数は必要ありません。

解決策として提示されたのがデュアルシステム(dual-system)・アーキテクチャです。人間の認知の速い直観(System 1)と遅い熟考(System 2)という比喩に着想を得て、ロボットの脳を二つの部分に分けます。本稿では、NVIDIA GR00T N1とFigure AI Helixを中心にこの構造を見ていきます。実在する事実に基づきつつ、細かな仕様はバージョンによって異なる場合があるため、確実なものだけを一般化して扱います。

デュアルシステム・アーキテクチャ

速い脳と遅い脳

デュアルシステムの核心的な発想は役割分担です。

┌────────────────────────────────────────────────────────────┐

│ ヒューマノイドのデュアルシステム構造(概念) │

└────────────────────────────────────────────────────────────┘

カメラ・言語の指示

│

▼

┌─────────────────────────┐

│ System 2 (遅い脳) │ 低い周波数(例: 数Hz)

│ - ビジョン-言語理解 │

│ - 場面解釈・作業計画 │ 「何をするか」

│ - 意味的推論 │

└───────────┬─────────────┘

│ 潜在表現(意図・目標) ──▶

▼

┌─────────────────────────┐

│ System 1 (速い脳) │ 高い周波数(例: 数十~数百Hz)

│ - 低レベルの運動制御 │

│ - diffusion/連続行動 │ 「どう動くか」

│ - バランス・精密操作 │

└───────────┬─────────────┘

▼

関節トルク/位置の指令 ──▶ ロボットが実行

- **System 2(遅い脳)**: 大きなビジョン・言語モデルが場面を理解し、何をすべきかを計画します。自然言語の指示を受けて意味的に推論します。重いため、相対的に低い周波数で動作します。

- **System 1(速い脳)**: 小さく速い方策が実際の関節を制御します。System 2が下ろした意図(潜在表現)を条件として、滑らかで連続的な行動を高周波で生成します。バランス維持や精密把持のように、即座の反応が必要な作業を担います。

この分離の利点は明確です。賢さ(遅いが豊かな推論)と機敏さ(速いが単純な反射)を一つのシステムの中で同時に確保できます。

二つのシステムの接続

二つのシステムは潜在表現(latent)で接続されます。System 2は「このコップに向かって手を伸ばして握れ」という意図を、明示的な座標ではなく連続的な潜在ベクトルとして伝え、System 1はそのベクトルを条件に具体的な関節指令を作り出します。こうすると、System 2は一瞬一瞬の細かい制御を気にせずに高レベルの意図を表現できます。

二つのシステムの時間スケールとデータの流れ

t(時間) ─────────────────────────────────────────▶

System 2: [計画] [再計画] [再計画]

│ │ │

▼ (潜在意図) ▼ ▼

System 1: ▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮

(速い制御ステップが密に連なる)

→ 遅い計画が速い制御の「舵」を更新する

NVIDIA GR00T N1

GR00T N1は、NVIDIAがヒューマノイドのための基盤モデル(foundation model)として提示したオープンなモデルです。大枠で先述のデュアルシステムの思想に従います。ビジョン・言語理解を担う遅いモジュールと、diffusionベースで滑らかな低レベル行動を速く生成するモジュールを結合します。

┌────────────────────────────────────────────────────────────┐

│ GR00T N1(概念的な構成) │

└────────────────────────────────────────────────────────────┘

複数カメラ・言語の指示

│

▼

┌──────────────────────────┐

│ ビジョン-言語モジュール(遅)│ 場面理解・指示の解釈

└────────────┬─────────────┘

│ 潜在文脈

▼

┌──────────────────────────┐

│ diffusion 行動モジュール(速)│ 連続行動をデノイジングで生成

└────────────┬─────────────┘

▼

ヒューマノイドの関節制御

GR00T N1の学習で重要な点はデータの多様性です。ヒューマノイドの実演だけではデータがまったく足りないため、複数の出所のデータを一緒に活用する戦略を取ります。

┌────────────────────────────────────────────────────────────┐

│ 多様なデータ出所を結合する学習(概念) │

└────────────────────────────────────────────────────────────┘

┌────────────┐ ┌────────────┐ ┌────────────┐ ┌──────────┐

│ 実ロボット │ │ シミュレーション│ 人の映像 │ │ ウェブVL │

│ 実演 │ │ (合成軌道) │ │ (動作観察) │ │ データ │

└─────┬──────┘ └─────┬──────┘ └─────┬──────┘ └────┬─────┘

└───────────────┴────┬─────────┴──────────────┘

▼

┌────────────────────┐

│ 共同学習 │

│ (co-fine-tuning) │

└─────────┬──────────┘

▼

ヒューマノイド方策(GR00T N1)

- **実ロボット実演**: 最も正確だが最も高コストです。

- **シミュレーション**: 大量の合成軌道を安価に生成します。ただし現実との差(sim-to-real gap)を縮めるのが課題です。

- **人の動作映像**: 人の手・体の動きを観察し、豊かな行動の事前知識を得ます。

- **ウェブのビジョン・言語データ**: 意味的汎化のための常識を提供します。

このように出所の異なるデータを一緒に学習(co-fine-tuning)すると、高価な実演の量を補いながら汎化を引き上げられます。NVIDIAがGR00Tをオープンで提示した理由の一つは、ヒューマノイド研究の共通の土台を提供して生態系を育てることです。

Figure AI Helix

Helixは、Figure AIがヒューマノイドのために提示した汎用VLAです。同様に、速い制御と遅い推論を結合するデュアルシステム系のアプローチを取ります。Helixが強調する点は、ヒューマノイドの上半身制御を幅広く汎化すること、そして以前に学習していない物体や指示に対しても自然言語で指示されて動作することです。

┌────────────────────────────────────────────────────────────┐

│ Helix(概念的な流れ) │

└────────────────────────────────────────────────────────────┘

車載カメラ + 音声/テキストの指示

│

▼

┌──────────────────────────┐

│ 遅いシステム(理解・計画) │ 場面・指示を意味的に解釈

└────────────┬─────────────┘

│ 潜在意図

▼

┌──────────────────────────┐

│ 速いシステム(運動制御) │ 上半身・手の連続制御を高周波で

└────────────┬─────────────┘

▼

ヒューマノイドの上半身・両手の動作

Helix系のアプローチの意義は次のとおりです。

- **自然言語の汎化**: 人が言葉で指示すれば新しい作業も試せる方向を志向します。

- **車載動作**: ロボットに搭載された資源で推論することを目標とし、実際の家庭・作業環境での自律動作を狙います。

- **上半身の精密制御**: 両手の協調が必要な作業(物を一緒に運ぶ、片付ける)を扱おうとします。

正確なモデルサイズ、制御周波数、評価数値などの細かな仕様は、公開情報とバージョンによって異なる場合があるため、ここでは構造的なアイデアを中心に一般化して説明します。

GR00T N1とHelixの比較

| 項目 | GR00T N1 (NVIDIA) | Helix (Figure AI) |

| --- | --- | --- |

| 性格 | ヒューマノイド基盤モデル(オープン志向) | ヒューマノイド製品向け汎用VLA |

| 共通構造 | デュアルシステム(遅い理解+速い制御) | デュアルシステム(遅い理解+速い制御) |

| 速い脳 | diffusionベースの連続行動 | 高周波の連続制御 |

| 学習データ | 実+シム+人映像+ウェブVLを結合 | ロボット実演中心の汎化学習 |

| 強調点 | 共通の土台・再現性 | 自然言語の汎化・車載自律性 |

両アプローチとも核心は同じです。重い意味理解と軽い速い制御を分離しつつ、潜在表現で滑らかにつなぐことです。表の詳細は出典・バージョンによって異なる場合があります。

さらに深く: 二つのシステムのハンドオフ

潜在表現で意図を伝える

デュアルシステムの妙味は、遅い脳が速い脳へ「何を望むか」を伝える方式にあります。明示的な座標(例:「手を(0.3, 0.1, 0.5)へ移せ」)で伝えることもできますが、より柔軟な方法は意図を連続的な潜在ベクトルで表現することです。速い脳はこのベクトルを条件として受け取り、具体的な関節指令を作ります。

┌──────────────────────────────────────────────────────────┐

│ System 2 → System 1 ハンドオフ(概念) │

└──────────────────────────────────────────────────────────┘

System 2 (遅い脳)

│ 場面理解 + 作業計画

▼

┌──────────────────┐

│ 潜在意図ベクトル z │ 「このコップに向かって滑らかに近づき握れ」

└────────┬─────────┘ (座標ではなく抽象的な意図)

│ 周期的に更新(低い周波数)

▼

System 1 (速い脳)

│ zを条件に連続行動を生成(高い周波数)

▼

┌──────────────────┐

│ 関節トルク/位置 │ ──▶ ロボットが実行

└──────────────────┘

この方式の利点は、速い脳が意図を「どう」実現するかを自分で決められる点です。障害物が突然現れたり物体が滑ったりすると、速い脳は同じ意図を保ちつつ即座に経路を調整します。遅い脳が一瞬一瞬の細部をいちいち指示する必要はありません。

時間スケールの整列

二つのシステムが互いに異なる周波数で回る分、時間スケールをうまく合わせることが重要です。

周波数の整列(概念的な数値、実際は実装ごとに異なる)

System 2: 数Hz 程度 (計画・再計画)

System 1: 数十~数百Hz 程度 (低レベル制御)

→ 一つの遅い計画の間に速い制御が何度も実行

→ 環境が速く変わると速い脳がまず対応し、

遅い脳は次の計画で大きな絵を更新

正確な制御周波数は、ハードウェア、モデルサイズ、作業の性格によって変わり得ます。核心は「速い反応は速い脳が、大きな決定は遅い脳が」担う役割分担です。

移動と操作の統合

ヒューマノイドならではの難しさ

単腕マニピュレータと異なり、ヒューマノイドはバランスを取りながら同時に手で作業しなければなりません。脚の制御(移動・バランス)と腕の制御(操作)が互いに影響します。例えば重い物体を片手で持つと重心が移動し、バランス制御が即座に反応しなければなりません。

┌──────────────────────────────────────────────────────────┐

│ 移動-操作の相互作用(概念) │

└──────────────────────────────────────────────────────────┘

上半身(腕・手) 下半身(脚・バランス)

操作作業支持・移動

│ │

└────── 重心の変化 ────┘

│

▼

┌──────────────────┐

│ 全身協調が必要 │ 腕を伸ばすと脚がバランスを補正

└──────────────────┘

→ 速い脳(System 1)が全身を併せて考えて制御すると安定的

多くのヒューマノイドシステムは移動(locomotion)と操作(manipulation)を分けて扱うこともあり、次第に全身を併せて制御する方向へ進んでいます。デュアルシステムでは、速い脳がこうした全身協調を高周波で担うのが自然です。

シミュレーションとsim-to-real

なぜシミュレーションが必要か

ヒューマノイドの実演は収集が非常に難しく危険です。そこでシミュレーションで大量の合成データを生成し、学習を補完します。しかしシミュレーションと実世界の間には物理、センサ、外観の差(sim-to-real gap)があり、シムでうまくいった方策が実際で失敗することもあります。

ドメインランダム化

この隔たりを縮める代表的な手法がドメインランダム化(domain randomization)です。シミュレーションで照明、質感、物理パラメータ(摩擦・質量など)を無作為に変えながら学習すると、モデルが特定の条件に過適合せず、多様な変動に頑健になります。

┌──────────────────────────────────────────────────────────┐

│ ドメインランダム化(概念) │

└──────────────────────────────────────────────────────────┘

シミュレーションで学習ごとに無作為に変更:

- 照明・色・質感

- 摩擦・質量・慣性

- カメラ位置・ノイズ

│

▼

┌──────────────────┐

│ 多様な変動に │ 特定の条件に過適合しない

│ 頑健な方策 │ ──▶ 実環境への転移が容易

└──────────────────┘

ドメインランダム化のほかにも、実データでシムを補正する、実とシムを併せて学習する、人の動作映像を追加で活用するといった方法が組み合わされます。GR00Tが強調した多出所データの結合も、この大きな流れの一部です。

課題

ヒューマノイドVLAは魅力的ですが、解くべき課題が多いです。

- **安全性**: 人と同じ空間で重いロボットが動くため、衝突・転倒のリスクを厳格に管理する必要があります。分布外の状況での失敗は物理的な被害につながり得ます。

- **遅延(latency)**: 遅い脳の計画が遅すぎると、速い脳が古い意図で動作してしまいます。二つのシステムの時間スケールをうまく合わせる必要があります。

- **データ不足**: ヒューマノイドの実演は収集が非常に難しいです。シミュレーションと人の映像で補いつつ、sim-to-real gapを縮める必要があります。

- **汎化と信頼性のバランス**: 新しい作業を試す能力と、既知の作業を安定して遂行する能力の間のバランスが必要です。

- **評価の難しさ**: ヒューマノイドは環境・ハードウェアの差が大きく、結果の再現と公正な比較が難しいです。

デュアルシステムでの遅延問題(概念)

System 2 の計画周期が遅すぎるとき:

t ───────────────────────────────────▶

計画(古い) ─────────────── 次の計画

System 1: ▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮ ← その間、古い意図で制御

環境が変わるとずれる

→ 計画周波数、意図の更新方式、安全ガードを併せて設計する必要

なぜ今ヒューマノイドなのか

一般化された形態の魅力

ヒューマノイドが注目される理由の一つは、「人の環境にそのまま合う形態」である点です。私たちの家、工場、オフィスは、人の手や身長、歩行に合わせて設計されています。人型のロボットは、環境を変えずにドアを開け、階段を上り、人が使っていた道具をそのまま扱えるという潜在力があります。

一般化された形態の論理(概念)

専用ロボット: 作業ごとに異なる機械設計

+ 単一作業に最適

- 新しい作業ごとに新しいハードウェア

ヒューマノイド: 一つの形態で多様な作業

+ 人の環境・道具を再利用

- 制御難度が高い(自由度・バランス)

→ 「ハードウェアの一般化」と「ソフトウェアの一般化(VLA)」が出会う地点

もちろんこれは潜在力であると同時に難しさでもあります。人型は多才ですが、その分制御すべき自由度が多く、バランスという追加の難題を抱えます。デュアルシステムとVLAの発展が、この難しさを解く道具として期待される理由です。

基盤モデルとデータフライホイール

言語・ビジョンの分野がそうだったように、ロボットも、より多くのデータでより良い方策を学習し、より良い方策がより多くの展開につながって再びデータを集める好循環(データフライホイール)を期待します。

データフライホイール(概念)

より多くのデータ ──▶ より良い方策

▲ │

│ ▼

より多くの展開 ◀── より広い作業の遂行

(現場で新しいデータを収集)

※ 安全・信頼性が満たされてこそ、この循環が実際に回る

GR00Tをオープンで提供したり、統合データセット(Open X-Embodiment)を共有したりする流れは、このフライホイールを共同体の次元で回そうとする試みと見られます。ただしこの循環が実際に回るには、安全性と信頼性という前提が満たされる必要があります。

どんな作業を狙うのか

ヒューマノイドVLAが狙う作業は、おおむね人の日常・作業環境で手のかかる仕事です。

代表的な目標作業の領域(概念)

┌─ 片付け・搬送: 物を運び、分類し、整える

├─ 両手協調: 両手で一緒に扱う必要がある作業

├─ 柔らかい操作: 布・ひも・柔軟な物体の取り扱い

└─ 道具の使用: 人が使っていた道具をそのまま活用

→ 定型化しにくい「多様で変動の多い」作業ほど

VLAの汎化・言語指示の価値が大きくなる

伝統的な産業用ロボットは、高度に定型化された反復作業に強いです。一方、ヒューマノイドVLAが狙う領域は、物体・配置・指示が毎回異なる、定型化しにくい作業です。こうした変動の大きい作業ほど、意味的汎化と自然言語の指示の価値が際立ちます。もちろん、信頼性と安全性が十分に確保されるまでは、人の監督のもとで適用範囲を段階的に広げていくのが現実的です。

認知の比喩を見直す

デュアルシステムは、人間の認知の「速い直観(System 1)と遅い熟考(System 2)」という比喩から出発しました。ただしこの比喩は着想の出発点にすぎず、人間の脳の正確なモデルではありません。

比喩と工学的実装の差(概念)

認知の比喩: 速い直観 ↔ 遅い熟考

│ │

工学の実装: 高周波制御 ↔ 低周波計画

(小さな方策) (大きなVLM)

→ 比喩は「役割分担」の直観を与えるだけ

実際の設計は遅延・周波数・安全・データで決まる

工学で重要なのは比喩の忠実さではなく、速い反応と遅い推論をいかに効率よく分担し、滑らかにつなぐかです。二つのシステムの境界、潜在表現の形、更新周期、安全層といった設計の選択が、実際の性能を左右します。

展望

デュアルシステム・アーキテクチャは、「速い反射と遅い思考を同時に」というヒューマノイドの本質的な要求によく合う設計です。大きなビジョン・言語モデルの意味理解を失わずに、バランスや精密操作に必要な高周波の制御を確保できるからです。NVIDIA GR00T N1のように共通の土台をオープンで提供しようとする流れと、Figure AI Helixのように実際の製品での自律動作を狙う流れが、ともに進展しています。

これからの方向は明確に見えます。より多様なデータ(シム・人の映像・ウェブ)を結合した共同学習、sim-to-realの隔たりを縮める手法、安全を保証するガードレール、そして二つのシステムの時間スケールを滑らかにつなぐ設計が核心です。ヒューマノイドが人の環境で幅広く汎化する日までには解くべき問題が多いですが、「二つの脳」というアイデアは、その道の確かな土台になるでしょう。

最後に、ここまでの三編を貫く大きな絵を一枚にまとめます。

┌──────────────────────────────────────────────────────────┐

│ ロボットVLAの大きな絵(三編のつながり) │

└──────────────────────────────────────────────────────────┘

第1編: VLMを方策へ → 離散行動トークン (RT-2, OpenVLA)

│ (意味的汎化、しかし離散化・周波数の限界)

▼

第2編: 連続行動生成 → 滑らかさ・高周波 (Diffusion Policy, π0)

│ (多峰性・滑らかさ、flow-matchingで速い制御)

▼

第3編: ヒューマノイドへ拡張 → デュアルシステム (GR00T N1, Helix)

(遅い理解 + 速い制御、全身協調・sim-to-real)

共通の土台: 多様なデータ(Open X-Embodiment)、効率的な適応(LoRA)、

安全ガードレール、そして認識と行動の統合

この流れは「認識と行動を一つの学習システムでつなぐ」という一貫した方向を示しています。各段階は前の段階の限界を補い、より一般的で、より滑らかで、より複雑な機種へと進みます。安全と信頼性という前提を忠実に守れば、ロボットが人の言葉を理解し、人の環境で幅広く働く未来が一歩ずつ近づくでしょう。

参考資料

- GR00T N1: An Open Foundation Model for Generalist Humanoid Robots, arXiv: [2503.14734](https://arxiv.org/abs/2503.14734)

- RT-2: Vision-Language-Action Models, arXiv: [2307.15818](https://arxiv.org/abs/2307.15818)

- OpenVLA: An Open-Source Vision-Language-Action Model, arXiv: [2406.09246](https://arxiv.org/abs/2406.09246)

- Open X-Embodiment: Robotic Learning Datasets and RT-X Models, arXiv: [2310.08864](https://arxiv.org/abs/2310.08864)

- Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, arXiv: [2303.04137](https://arxiv.org/abs/2303.04137)

- NVIDIA Isaac GR00T: [developer.nvidia.com/isaac/gr00t](https://developer.nvidia.com/isaac/gr00t)

- Figure AI: [figure.ai](https://www.figure.ai/)

- Physical Intelligence: [physicalintelligence.company](https://www.physicalintelligence.company/)