ヒューマノイドの全身制御 — 二足で歩き、手で扱う

はじめに
問題の地形: なぜ二足歩行は難しいのか
ZMP: 倒れないための基準点
歩みの解剖: 歩行周期
ハードウェア: 何がロボットを動かすか
制御の階層と時間スケール
MPC: 先を見ながら歩く
全身制御: 全身を一つの目標で
バランスと転倒回復
学習ベースのロコモーション: RLの台頭
- 報酬設計という技芸
- カリキュラム学習
評価: うまくやるとはどう測るか
Sim2Real: シミュレーションから実機へ
歩行と操作の統合: ロコ・マニピュレーション
学習された方策の階層: 行動基盤モデルへの流れ
実機ヒューマノイドロボットたち
落とし穴と限界
制御パラダイムの比較
遠隔操縦とデータ収集
これからの方向
おわりに
参考資料

はじめに

ヒューマノイドロボットは古くからの夢です。人のように二足で立って歩き、手で物をつかんで扱い、人が使う空間や道具をそのまま使う機械。ここ数年でこの夢は、研究室のデモを超えて、少しずつ現実の作業現場へ歩み出しています。

しかし「二足で歩く」という一文は、言葉ほど単純ではありません。人は歩くとき毎瞬間倒れており、その倒れを次の足で受け止めることを無意識に繰り返しています。ロボットにとってこの作業は、数十個の関節をリアルタイムに調律しながら、接触する足裏の力分布を管理し、上体の姿勢や腕の動きまで一緒に考える必要のある高次元の制御問題です。

本記事ではヒューマノイド制御を大きく二つの軸に分けて見ていきます。一つは二足歩行(bipedal locomotion)制御、もう一つは全身の関節を一つの目標のもとで一緒に動かす**全身制御(whole-body control)**です。そしてこの二つがどのように操作(manipulation)と統合されるのか、最近の学習ベースのアプローチや基盤モデルの流れが何を変えているのかまで続けて話します。

正確さのため先に断っておきます。ロボットメーカーの具体的な仕様や性能値は、発表時点やハードウェア世代によって大きく変わるため、本記事では広く知られた概念と公開された方法論を中心に扱い、具体的な数値は慎重に一般化します。

問題の地形: なぜ二足歩行は難しいのか

車輪ロボットは安定しています。支持面(support polygon)が広く、静止していても倒れません。一方、二足ロボットは違います。

狭い支持面: 片足で立つ瞬間、支持面は足裏一つに縮まります。
本質的な不安定性: 人の体は足首の上に逆立ちした倒立振子(inverted pendulum)に近く、放っておくと倒れます。
不連続な接触: 一歩ごとに足が地面に触れては離れ、接触状態が刻々と変わります。
高次元: 全身ヒューマノイドは通常、関節自由度が数十に及びます。

この地形を理解するためによく使う単純モデルが**線形倒立振子モデル(Linear Inverted Pendulum Model, LIPM)**です。上体の質量を一つの点(重心, CoM)と見なし、その下を長さのない棒で地面につないだ振子として近似します。

        (CoM)  ● ── 重心
               │
               │   倒立振子: 上に立とうとするが
               │   放っておくと倒れる構造
               │
     ──────────┴────────── 地面
              足(ZMP)

この単純化のおかげで、複雑な全身動力学を扱う前に、「重心をどこに置けば倒れないか」という問いを先に扱うことができます。

ZMP: 倒れないための基準点

二足歩行制御で最も古く重要な概念の一つが**ZMP(Zero Moment Point, ゼロモーメント点)**です。

ZMPは、地面反力が生み出すモーメントがゼロになる地面上の一点です。直観的に言えば、足裏が地面を押す圧力の「中心」に相当します。核心となる規則はこうです。

ZMPが支持面(足裏、あるいは両足がつくる多角形)の内側にとどまる間、足は地面から浮いたり回転したりせず、安定して接触を保つ。

つまり歩行を計画するとき、毎瞬間のZMPが支持多角形から外れないように重心軌道を設計すれば、「動的に安定した」歩行を作ることができます。

   支持多角形(両足)                       片足支持区間
   ┌───────────────┐                    ┌────────┐
   │   ● ZMP       │  安定               │        │  ● ZMPが外へ
   │  (内側)       │                    │   ●────┼──▶ 外れると不安定
   └───────────────┘                    └────────┘

伝統的なZMPベースの歩行生成器は、おおむね次の流れに従います。

足を置く位置(footstep)の順序を決める。
各足位置で許容されるZMP軌道を決める。
そのZMPを満たす重心(CoM)軌道を逆に計算する。
重心軌道と足軌道を満たすよう、関節角度を逆運動学で解く。

この方式は予測可能で安定していますが、あらかじめ決めた軌道をたどる性格が強いため、荒れた地形や予期しない外乱には相対的に弱いことがあります。

歩みの解剖: 歩行周期

一歩を細かく見ると、足が地面についている**立脚期(stance phase)と、足が宙に浮いている遊脚期(swing phase)**が交互に現れます。歩きと走りを分ける決定的な違いもここにあります。

歩き: 常に最低一つの足は地面についています。両足がつく短い**両脚支持(double support)**の区間が存在します。
走り: 両足がともに宙に浮く**飛行区間(flight phase)**が生じます。着地の瞬間の衝撃管理がはるかに重要になります。

   歩きの一周期(右足基準)
   ┌────────────┬──────────┬────────────┬──────────┐
   │  右足       │  両脚     │  右足       │  両脚     │
   │  立脚期     │  支持     │  遊脚期     │  支持     │
   │ (地面に接地) │          │ (宙)        │          │
   └────────────┴──────────┴────────────┴──────────┘
     力を受ける   体重移動   前へ伸ばす   着地・交代

両脚支持の区間は短いですが非常に重要です。この瞬間に重心を次の支持足の方へ移す必要があり、ZMPも滑らかに移動しなければなりません。この遷移が狂うと、歩みがぎくしゃくしたり均衡を失ったりします。歩行生成器のかなりの部分が、まさにこの遷移を滑らかにすることに使われます。

ハードウェア: 何がロボットを動かすか

制御の話をする前に、その命令を実際に実行するハードウェアを押さえておく必要があります。どれほど良い方策でも、体がそれを実現できなければ無意味だからです。

構成要素	役割	核心的な考慮点
アクチュエータ	関節を動かす筋肉	トルク・速度・バックドライバビリティ
減速機	モータの力を増幅	効率・バックラッシュ・剛性
慣性センサ(IMU)	胴の姿勢・角速度を測定	ドリフト・ノイズ
関節エンコーダ	各関節の角度・速度	解像度・遅延
力・トルクセンサ	足・手の接触力を測定	精度・耐久性

特に**バックドライバビリティ(back-drivability)**が重要です。外部から関節を押したとき、どれほど素直に押されるかを意味します。減速比が非常に高い伝統的な関節は力は強いですが硬く、予期しない衝撃を吸収せずそのまま伝えます。逆に適切にバックドライバブルな関節は衝撃を吸収し、力制御(force control)を滑らかにして、人のそばでより安全です。最近の力動的なヒューマノイドが力制御に有利なアクチュエータを採用する理由です。

制御の階層と時間スケール

ここまで見た様々な要素は、実は異なる時間スケールで動作します。これを一つの図に整理すると、全体のシステムがどう噛み合うかが見えてきます。

   遅い ◀──────────────────────────────────────────▶ 速い

   課題計画        歩行/足接地計画     全身制御(WBC)     低レベルモータ制御
   (数Hz以下)      (数〜数十Hz)        (数百Hz)         (数kHz)
      │                 │                   │                 │
   「何をするか」   「どこに足を置くか」  「全身をどう」    「関節電流」
      │                 │                   │                 │
      └────────▶────────┴────────▶──────────┴────────▶────────┘
                     上位 → 下位へ目標を渡す
                     下位 → 上位へ状態をフィードバック

この階層構造が重要なのは、各層が自分に合った速度で自分に合った問題だけを解くからです。遅い計画層がkHzで回る必要はなく、速いモータ制御が全体の作業を知る必要もありません。関心事を分離(separation of concerns)するこの設計は、ソフトウェア工学の階層化とまったく同じ哲学です。

MPC: 先を見ながら歩く

ZMPの考えをもう一段進めたものが**モデル予測制御(Model Predictive Control, MPC)**です。MPCは毎制御周期ごとに次を繰り返します。

現在の状態を観測する。
動力学モデルを用いて、未来の一定区間(予測地平, horizon)の動きを予測する。
その区間でコスト(バランス逸脱、エネルギー、目標逸脱など)を最小化する制御入力列を最適化で求める。
そのうち最初のステップだけ実際に実行し、次の周期に再び最初から繰り返す。

  現在状態 ─┐
            ▼
     ┌──────────────────────────────┐
     │  予測地平で未来軌道を最適化      │
     │  t ── t+1 ── t+2 ── ... ── t+N │
     └───────────────┬──────────────┘
                     │ 最初の入力だけ実行
                     ▼
              ロボットに命令を適用
                     │
                     ▼  (次の周期に再び観測 → 再最適化)
                  反復 (receding horizon)

MPCの強みは「先を見る」ことにあります。今すぐは少し損に見えても、数ステップ先のバランスに有利な選択ができ、外乱が入れば次の周期ですぐに計画を更新します。脚・腕・胴を単純化した剛体モデル(例: 単一剛体動力学, SRBD)の上で接触力を直接最適化するMPCは、動的な歩き・走り・階段登りのような動きで広く使われます。

代償は計算量です。予測地平が長く、モデルが精緻なほど、リアルタイム(数百Hz〜数kHz)の最適化が負担になります。そこで実務では、モデルを適切に単純化し、高速な低レベル制御と低速な計画を階層に分けます。

全身制御: 全身を一つの目標で

ここまでは主に「重心と足」に集中してきました。しかしヒューマノイドは、両腕、胴、首まで数十個の関節を同時に使います。歩きながら物を持ち、ドアを押し、倒れそうな瞬間に腕を伸ばして踏ん張ることは、脚だけではできません。

**全身制御(Whole-Body Control, WBC)**は、これらすべての関節を一つの最適化問題にまとめます。複数の目標(task)を同時に満たしつつ、物理的制約(関節限界、接触力、摩擦)の中でバランスを保つように、関節トルクや加速度を計算します。

           ┌────────── 上位計画(遅い) ──────────┐
           │  足接地計画 · 歩行パターン · 目標姿勢   │
           └────────────────────┬───────────────┘
                                │ 目標(task)を渡す
                                ▼
           ┌────────── 全身制御(WBC) ────────────┐
           │  複数目標の優先順位:                    │
           │   1) バランス(重心/ZMP維持) ← 最優先    │
           │   2) 足/手の軌道追従                    │
           │   3) 姿勢・視線など付加目標              │
           │  制約: 関節限界 · 接触摩擦 · トルク限界   │
           └────────────────────┬───────────────┘
                                │ 関節トルク/加速度
                                ▼
           ┌────────── 低レベル駆動(速い) ─────────┐
           │  各関節モータの電流/トルク制御(高周波)   │
           └────────────────────────────────────┘

WBCの核心となる考えは優先順位です。バランス維持のように絶対に譲れない目標を最上位に置き、手の軌道追従のような目標はその下に置きます。上位目標を害さない範囲(零空間, null space)の中でのみ下位目標を追求するようにすれば、腕を伸ばしながら倒れることを防げます。

実装はふつう**制約付き最適化(例: 二次計画法, QP)**の形で行われます。概念を大きく単純化した擬似コードは次のとおりです。

# 概念的な全身制御QP(単純化した擬似コード)
# 変数: 関節加速度 qdd, 接触力 f
# 目標: 複数のtask誤差を最小化、制約は物理法則と限界

minimize   sum_i  w_i * || J_i @ qdd + dJ_i @ qd - a_desired_i ||^2
subject to
    M @ qdd + h == S.T @ tau + Jc.T @ f      # 全身動力学方程式
    friction_cone(f)                         # 接触摩擦円錐の制約
    tau_min <= tau <= tau_max                # トルク限界
    qdd within joint_limits                  # 関節限界

ここで各 J_i は特定の目標(重心、足、手など)に対するヤコビアンで、w_i は優先度の重みです。実際には重みの代わりに厳密な階層(hierarchical QP)を使うこともあります。重要なのは「全身を物理法則の中で複数目標を調律して動かす」という視点です。

バランスと転倒回復

どれほどうまく歩いても、押され、滑り、踏み外す瞬間は来ます。バランス回復戦略は、おおむね人と同じく三段階に分かれます。

戦略	説明	人の例
足首戦略	足首トルクで重心を微調整	小さな揺れを足首で受け止める
腰戦略	上体を曲げて重心を素早く移動	大きく押されたとき腰を曲げる
ステップ戦略	足を新たに踏み出し支持面を移す	強く押されたとき一歩踏み出す

外乱が小さければ足首で、大きければ腰で、さらに大きければ足を踏み出す順です。ステップ戦略で特に重要な概念がキャプチャポイント(capture point)、あるいは運動の発散成分(divergent component of motion)です。大まかに言えば、「今ここに足を踏み出せば重心がその上で止まる」という地点をリアルタイムに計算し、次の足位置を決めるものです。

それでも倒れるときがあります。最近は転倒そのものを管理する研究も活発です。転倒が避けられないとき衝撃を減らす姿勢をとり、床に横たわった状態から再び起き上がる(get-up)動作を学習で身につけるのです。高価なハードウェアを守り、倒れた後にも自力で復旧できる能力は、実戦配備で非常に重要です。

学習ベースのロコモーション: RLの台頭

伝統的なモデルベース制御(ZMP、MPC、WBC)は物理を明示的に扱うため、解釈可能で安定しています。しかしモデルが不正確だったり地形が予測不可能だったりすると限界が生じます。この地点で**強化学習(Reinforcement Learning, RL)**ベースのロコモーションが注目されました。

考えは単純です。シミュレーションの中でロボットに「前へうまく歩けば報酬、倒れれば罰点」を与え、無数の試行錯誤を経て歩行方策(policy)を学習させます。方策はふつう、観測(関節角度・速度、胴の姿勢、指令速度など)を入力に受け、関節目標(トルクや目標角度)を出力するニューラルネットワークです。

  ┌─────────────── シミュレーション学習ループ ───────────────┐
  │                                                          │
  │   観測 s_t ──▶ [方策ネットワーク] ──▶ 行動 a_t             │
  │      ▲                              │                     │
  │      │                              ▼                     │
  │   シミュレータ(数千の並列環境) ◀── 関節目標を適用          │
  │      │                              │                     │
  │      └──── 報酬 r_t(前進·安定·エネルギー) ◀───────────────┘
  │                                                          │
  │   数十億ステップの試行錯誤で方策を更新                      │
  └──────────────────────────────────────────────────────────┘

RLロコモーションの強みは荒れた地形と外乱への頑健性です。多様な地形や妨害をシミュレーションでランダムに経験させると、方策はあらかじめプログラムしていない回復動作まで自ら身につけます。階段、砂利道、滑りやすい床でも倒れずに歩く四足・二足の方策が、この方式で作られてきました。

報酬設計という技芸

RLの成否は、かなりの部分が報酬関数の設計にかかっています。「うまく歩けば報酬」という一文を実際の数式に移すには、複数の項を慎重に組み合わせる必要があります。概念的には次のような項を足します。

   総報酬 = 
       + 前進速度の追従    (指令速度に近いほど +)
       + 生存             (倒れずに生きていれば +)
       - エネルギー消費     (関節トルクが大きいほど -)
       - 胴の揺れ          (姿勢が大きく傾けば -)
       - 足の滑り          (接触中に足が滑れば -)
       - 関節限界への接近   (限界に張り付けば -)

ここで各項の重みが方策の性格を決めます。エネルギー項を強くすれば節約して歩く方策が、速度項を強くすれば猛進する方策が出ます。重みを誤ると、ロボットが「報酬を裏技で稼ぐ」予想外の行動(reward hacking)を学習することもあります。たとえば前進報酬だけを大きくすると、均衡を無視して前へ倒れ込むように進む奇妙な歩みを覚えかねません。だから報酬設計は科学であり経験の技芸です。

カリキュラム学習

最初から階段や砂利道を与えると、方策は何も学べずただ倒れ続けるだけです。そこで**カリキュラム(curriculum)**を使います。最初は平地でゆっくり歩く易しい課題を与え、方策が成功し始めたら、地形の粗さと指令速度を徐々に上げます。人が歩き始めから学ぶように、ロボットも難度を段階的に上げてこそよく学びます。

評価: うまくやるとはどう測るか

「このロボットはうまく歩く」を公正に比較するには、指標が必要です。よく使われるものはこうです。

成功率: 定めた課題(例: 階段10段を上る)を何回中何回成功したか。
外乱頑健性: 横からどれほど強く押されても倒れないか。
移動効率(CoT, cost of transport): 単位距離を進むのに要したエネルギー。低いほど効率的です。
速度・地形の範囲: どれほど速く、どれほど多様な地形を扱えるか。

問題は、これらを測る実験環境が研究ごとに異なり、異なる論文の数字を直接比較しにくいことです。標準化された評価プロトコルの不在は、この分野の長年の宿題です。デモ映像一つで「我々が最高」と言いやすいほど、再現可能で公正な評価の重要性はむしろ増しています。

Sim2Real: シミュレーションから実機へ

RLの決定的な難関が**シミュレーションと現実の隔たり(sim-to-real gap)**です。シミュレータの物理は完璧ではなく、実際のモータには遅延・摩擦・バックラッシュがあり、センサにはノイズがあります。シミュレーションで完璧だった方策が実機で倒れることはよくあります。

これを狭める核心的な手法が**ドメインランダム化(domain randomization)**です。学習中に物理パラメータ(質量、摩擦、モータ剛性、遅延など)をランダムに揺らし、方策が特定の値に過適合せず、広い範囲で動作するようにします。現実がどんな値であっても、学習分布の中に入れば、方策はそれを「経験した状況の一つ」として扱います。

  シミュレーション(一つの完璧な物理)          現実(不確実な一つの物理)
        ●  ← ここだけに最適化                       ?  ← ここで失敗の危険

  ドメインランダム化適用後:
    ● ● ● ● ● ●  ← 広く分布した複数の物理で学習
        └──────────▶  現実(?)がこの分布に入れば頑健に動作

このほかにも、実測データでシミュレータを補正するシステム同定、実機で少量のデータで微調整する方法、観測を体から直接得られる値(固有受容感覚, proprioception)中心に構成してセンサ依存を減らす設計などが一緒に使われます。

歩行と操作の統合: ロコ・マニピュレーション

歩くのがうまいだけでは足りません。実際の仕事は「歩いて行って何かをつかみ、別の場所に置く」ことです。移動(locomotion)と操作(manipulation)を一緒に扱う問題を**ロコ・マニピュレーション(loco-manipulation)**と呼びます。

この二つは互いを妨げます。重い物を片手に持てば重心が移ってバランスが揺れ、ドアを押そうと体を傾ければ足の力分布が変わります。だからよくできたシステムは、腕の操作目標と脚のバランス目標を一つの全身制御の中で一緒に解きます。

   ┌── 操作目標 ──┐        ┌── 移動/バランス目標 ──┐
   │ 手の位置·力   │        │ 重心 · 足接地          │
   └──────┬───────┘        └─────────┬────────────┘
          │                           │
          └───────────┬───────────────┘
                      ▼
              全身制御(WBC)で一緒に最適化
                      │
                      ▼
        「持ちながら歩く」·「押しながら踏ん張る」が一つの動きに

学習された方策の階層: 行動基盤モデルへの流れ

最近の流れは制御を階層に積む方向です。下層には歩行・バランスのような速く頑健な低レベル方策(主にRLで学習)があり、上層には「何をするか」を決める遅い高レベル方策があります。

この上層で最近注目される概念が**行動基盤モデル(behavior foundation model)の流れです。多様な作業や体(embodiment)から集めた大規模データで一つの大きな方策を学習し、多くの動作を幅広く扱おうとする試みです。特にロボット分野では、視覚・言語・行動を一緒に扱うVLA(Vision-Language-Action)**モデルが急速に発展しています。

RT-2(Google DeepMind, arXiv 2307.15818): 視覚言語モデル(VLM)をロボットデータでファインチューニングし、行動を離散化(discretized action)されたトークンとして出力させるアプローチです。
OpenVLA(arXiv 2406.09246): 約97万件の実ロボット実演で学習した7B規模のオープンVLAモデルで、DINOv2・SigLIPの視覚エンコーダとLlama 2言語モデルを組み合わせました。
π0(Physical Intelligence): フローマッチング/拡散ベースで連続的な高周波の行動を生成する方向の方策です。
GR00T N1(NVIDIA): 速い反応を担うSystem 1(拡散系)と計画を担うSystem 2を組み合わせた二重構造を掲げます。
Helix(Figure AI): ヒューマノイドを狙った汎化VLAの流れの事例として言及されます。

こうした上位モデルが「赤いコップをつかんで引き出しに入れて」という目標を手・足の目標に解きほぐすと、下層のロコモーション・WBC方策がその目標を物理的に実現する、という分業が自然に現れます。ただしこの分野は非常に速く変化しているため、具体的な性能・構造は発表や世代によって異なることがあります。

実機ヒューマノイドロボットたち

事実に基づき、広く知られた事例を概念レベルだけで押さえます。詳細な仕様は世代・発表時点によって大きく変わるため、ここでは方向性のみ言及します。

ロボット	開発主体	知られた特徴(概念レベル)
Atlas	Boston Dynamics	力動的な全身の動きと移動デモで広く知られる
Figure	Figure AI	商用作業を狙ったヒューマノイド、VLAの流れと関連して言及
Unitree ヒューマノイド	Unitree Robotics	相対的にアクセスしやすい二足プラットフォームとして知られる
Digit	Agility Robotics	物流・倉庫作業を狙ったヒューマノイドとして紹介される

各社の最新モデル、正確な関節数、速度、可搬重量などは、公式資料で確認するのが安全です。

落とし穴と限界

シミュレーション過信: シミュレーションの成功が実機の成功を保証しません。sim2realの隔たりは依然として大きな壁です。
安全: 重いロボットが人のそばで動く以上、転倒・衝突・誤作動に対する安全設計が前提でなければなりません。
エネルギーと持続時間: 二足で立って動くことはエネルギー消費が大きいです。バッテリーの持続時間は実用性の大きな制約です。
汎化の錯覚: デモ映像は特定の条件に最適化されている場合が多いです。見慣れない環境・物体への汎化は、別の難しい問題です。
評価の難しさ: 「うまく歩く」「うまく扱う」を公正に比較する標準指標は、まだ成熟の途上です。
ハードウェアの信頼性: 数十個の高出力アクチュエータを長く反復的に耐えさせることは、ソフトウェアと同じくらい難しい工学問題です。

制御パラダイムの比較

ここまで見たアプローチを一目で整理すると、それぞれの居場所が明確になります。

アプローチ	核心的な考え	強み	弱み
ZMPベース	支持面内にZMPを維持	予測可能、安定	軌道追従的、外乱に弱い
MPC	予測地平で最適化	先を見る、力動的	計算負担
WBC	多目標の優先順位最適化	操作・均衡を統合	モデル精度に依存
RLロコモーション	試行錯誤で方策学習	地形・外乱に頑健	sim2real、解釈が難しい
VLA/基盤	大規模データで汎化	言語指示、幅広い	データ・安全・評価の課題

重要なのは、これらが競争関係というより階層の異なる層を担うという点です。よくできたシステムは、上位に基盤モデル、中間にMPC・WBC、下位に学習された低レベル方策を置く形で複数のアプローチを組み合わせます。「一つの銀の弾丸」を探すより、各層に合った道具を配置する工学的な感覚が、実戦ではより重要です。

遠隔操縦とデータ収集

学習ベースの操作・歩行のボトルネックは、結局データです。ヒューマノイドに新しい仕事を教える最も直接的な方法の一つは、人が遠隔でロボットを操縦して実演を見せることです。

   人の操作者 ──▶ [遠隔操縦装置]
                       │  (動作マッピング)
                       ▼
                   ヒューマノイドロボット ──▶ 実際の動作を実行
                       │
                       ▼
              (観測・行動の組をデータとして記録)
                       │
                       ▼
              模倣学習で方策を学習 ──▶ 以後は自律実行

遠隔操縦には様々な方式があります。人の腕の動きをモーションキャプチャでロボットの腕にマッピングしたり、VRコントローラで手の目標位置を指示したりします。いずれにせよ目標は「人の意図をロボットの体へ移し、その過程をデータとして残す」ことです。こうして集めた実演は、後で模倣学習や基盤モデル学習の燃料になります。

ただし遠隔操縦には難しさがあります。人とロボットの体が異なると(腕の長さ、関節配置)動作がそのまま移らず、遅延があると操作感が落ちます。それでも実機から出たデータという点で、シミュレーションだけでは埋めにくい隙間を補ってくれます。

これからの方向

ヒューマノイド制御は、複数の流れが同時に収束する地点にあります。

モデルベースと学習の融合: ZMP・MPCの安定性とRLの頑健性を結合しようとするハイブリッドなアプローチが増えています。低レベルは学習、上位計画はモデルベースという役割分担です。
操作と歩行の統合の深化: ロコ・マニピュレーションを一つの方策で扱おうとする試みが続きます。
基盤モデルの上向きの浸透: VLAと行動基盤モデルが上位計画層を徐々に置き換え、言語で指示するインターフェースが自然になっています。
ハードウェアの成熟: 力制御に有利で耐久性のあるアクチュエータ、軽い素材、長持ちするバッテリーが実用性の鍵です。

これらの流れがどこで出会うかは、まだ開かれています。確かなのは、どれか一つの技術だけでヒューマノイドが完成することはない、という点です。物理、学習、ハードウェア、安全がともに成熟しなければなりません。

一つ強調しておきたいのは、派手なデモ映像と、日々の作業を確実にこなす実用性の間には、まだ大きな距離があるという点です。特定の条件で最適化された一回の成功と、見慣れない環境で繰り返し成功する信頼性は、まったく別の難しさです。この距離を冷静に見つめることが、技術を正確に理解する出発点になります。

おわりに

ヒューマノイド制御は、物理と学習が出会う地点です。ZMPやMPC、全身制御のようなモデルベースの方法は物理を明示的に扱い、安定性と解釈可能性を与えます。強化学習とsim2realは、荒れた現実への頑健性を加えます。そしてその上に、VLAと行動基盤モデルの流れが「何をするか」を幅広く扱おうとします。

二足で歩くことと手で扱うことを、一つの体の中で一緒に成し遂げること — その統合が、いまこの分野の最も熱い前線です。まだ道は遠いですが、ロボットが人の空間を人のように歩き回って働く未来は、デモ映像の中から少しずつ実際の作業へと移りつつあります。

参考資料

RT-2: Vision-Language-Action Models (arXiv): https://arxiv.org/abs/2307.15818
OpenVLA: An Open-Source Vision-Language-Action Model (arXiv): https://arxiv.org/abs/2406.09246
Open X-Embodiment (arXiv): https://arxiv.org/abs/2310.08864
Physical Intelligence (π0): https://www.physicalintelligence.company/
Boston Dynamics Atlas: https://bostondynamics.com/atlas/
Agility Robotics Digit: https://www.agilityrobotics.com/
Unitree Robotics: https://www.unitree.com/
NVIDIA Isaac (ロボットシミュレーション/学習): https://developer.nvidia.com/isaac