SOTA自動運転認識分析 — BEV、Occupancy、エンドツーエンド

はじめに
自動運転スタックの概要
大きな絵: 認識表現の発展
認識の根本課題
- 2D画像から3D世界へ
BEV認識
- BEVとは何か
- 画像からBEVへの変換
- 時間情報の活用
Occupancy Network
- ボックスでは足りない
- 3D占有表現
ビジョン中心 vs LiDAR融合
- LiDAR融合アプローチ
- ビジョン中心アプローチ
センサーの役割分担
エンドツーエンド学習
- パイプラインから一体型学習へ
- エンドツーエンドの長短
ワールドモデルとシミュレーション
- なぜシミュレーションか
- ワールドモデル
3D再構成とシミュレーション技術
安全とロングテール問題
センサー整合と座標系
認識出力が含む情報
多物体追跡
予測と計画へつなぐ
データセットとベンチマーク
比較: 認識表現の整理
限界と注意点
まとめ
参考資料

はじめに

自動運転は、人工知能が最も挑戦的に立ち向かう物理世界の問題の一つです。毎秒数十回、周囲数百メートルの状況を把握し、他の車や歩行者の動きを予測し、安全な経路を計画し、実際に車を動かさねばなりません。一度のミスが命に直結するため、精度と安全性の基準が非常に高いです。

本記事では自動運転システム、特に世界を理解する認識(perception)段階の最新アーキテクチャを見ていきます。BEV(Bird's-Eye-View)認識、occupancy network、ビジョン中心対LiDAR融合の論争、エンドツーエンド学習、ワールドモデルまで扱います。この分野は商用システムの詳細が非公開の場合が多く非常に速く変わるため、特定企業の具体仕様を断定するよりアーキテクチャの原理と公開された概念を中心に慎重に説明します。

自動運転スタックの概要

自動運転ソフトウェアは通常、複数段階に分かれたパイプラインとして理解されます。

[センサー]  カメラ / LiDAR / レーダー / GPS / IMU
   |
   v
[認識 Perception]  周囲の物体検出、車線、3D構造の把握
   |
   v
[予測 Prediction]  他車/歩行者の未来の動きを予測
   |
   v
[計画 Planning]  安全で効率的な経路/行動を決定
   |
   v
[制御 Control]  操舵/加速/制動の指令を生成
   |
   v
[車両駆動]

本記事の焦点は認識段階です。認識が誤ると以後の予測、計画、制御がすべてずれるため、認識は全体の安全の土台と言えます。ただし最近はこれらの段階を1つに統合するエンドツーエンドアプローチも台頭しており、後で併せて扱います。

参考までに、自動運転の「自律性レベル」はよく複数の段階に区分されます。運転者がすべてを行う段階から、特定の条件でシステムが運転を担うが人が備える段階、そして条件内で人の介入がほぼ不要な段階まで続きます。レベルが上がるほど認識と判断の正確性への要求が急激に上がります。本記事は特定製品のレベルを断定するより、どのレベルでも共通して必要な認識技術の原理に集中します。

大きな絵: 認識表現の発展

詳細に入る前に、認識表現がどう発展してきたかを一目で整理します。

[認識表現の発展の流れ]
 2D検出 (画像上の箱)
        ->
 3Dバウンディングボックス (物体ごとの3D箱)
        ->
 BEV (上から見た統合地図)
        ->
 Occupancy (高さを含む3D占有)
        ->
 エンドツーエンド (認識-予測-計画の統合学習)

この流れの大きな方向は2つです。第一に、表現がますます3次元的で範疇に縛られない方へ進みました。第二に、認識だけを別に最適化する方式から、全体の走行目標を一緒に最適化する方へ進みました。以下で各段階を順に見ていきます。

認識の根本課題

2D画像から3D世界へ

カメラが撮るのは3次元世界を2次元平面に投影した画像です。しかし運転に必要なのは「あの車が前方20メートル、右3メートルにいる」といった3次元空間情報です。したがって認識の核心課題の一つは、2D画像から3D空間を復元することです。

[複数台のカメラ画像 (2D)]
 前、後、左右など複数方向
        |
        |  それぞれ異なる視点と歪み
        v
[統合された3D空間表現]
 1つの一貫した座標系で物体位置を把握

複数のカメラが異なる方向を見ているため、これらを1つの一貫した座標系にまとめることが重要です。この問題を優雅に解く方法が次に見るBEV表現です。

BEV認識

BEVとは何か

BEVはBird's-Eye-View、すなわち鳥の目で上から見下ろした視点を意味します。自動運転でのBEV認識は、複数のカメラ画像を上から見下ろした1つの平面地図(top-down)に変換して表現する方式です。

[複数方向のカメラ画像]           [BEV表現 (上から見た地図)]

  前方カメラ ↑                          北
  左 →    車   ← 右         →       西 [自車] 東
  後方カメラ ↓                          南
                              周囲の車両/車線を格子地図に配置

BEVの利点は明確です。計画と制御は結局「地図の上でどこへ行くか」の問題なので、上から見下ろした地図の形が次の段階に自然につながります。また複数のカメラを1つの座標系にまとめるため、物体を重複なく一貫して扱えます。

画像からBEVへの変換

核心技術は、複数カメラの2D特徴をBEV格子へ移すことです。代表的な2つの方向が知られています。

[方向A: 順方向投影 (Lift-Splat系列)]
 各ピクセルに深度分布を予測して3Dに持ち上げ(lift)、
 BEV格子にまく(splat)

[方向B: 逆方向照会 (アテンション/トランスフォーマー系列)]
 BEV格子の各マスが「私はどのカメラピクセルを見るべきか」を
 アテンションで照会し特徴を取得

方向AはLSS(Lift, Splat, Shoot)系列として知られ、方向BはBEVFormerのようにトランスフォーマーのアテンションでBEVクエリが画像特徴を参照する方式です。どちらも複数カメラを1つのBEVに融合する目標は同じです。

時間情報の活用

BEV認識は一瞬の複数カメラだけでなく、過去フレームの情報も併せて融合し性能を高めます。物体の動き(速度)や一時的に隠れた物体を扱うには時間的文脈が重要だからです。複数時点のBEV特徴を整列して積み重ねると、静止物体と移動物体を区別し速度を推定するのに役立ちます。

Occupancy Network

ボックスでは足りない

従来の3D検出は物体を3Dバウンディングボックスで表現します。「ここに車1台、あそこに歩行者1人」という具合です。しかし道路にはあらかじめ定義された範疇に入らない物体が多くあります。道路に落ちた貨物、変わった形の工事車両、はみ出した木の枝などは「車」や「歩行者」のボックスで表現しにくいです。

[バウンディングボックス方式]
 あらかじめ定義した範疇(車、人など)だけを四角い箱で検出
 → 範疇外の物体や変な形を見逃しうる

[Occupancy方式]
 空間を3D格子(voxel)に分け、
 各マスが「物あり/空き」を予測
 → 範疇と無関係に空間の占有有無を把握

3D占有表現

occupancy networkは周囲空間を小さな3D格子セル(voxel)に分け、各セルが占有されているか(何かがあるか)を予測します。さらに占有されたセルがどの種類か(車両、道路、建物など)まで併せて予測することもあります。こうすると、あらかじめ定義した範疇にない物体でも「あそこの空間がふさがっている」と分かり、安全に有利です。

occupancyはBEVの拡張とも見られます。BEVが上から見た2D平面地図なら、occupancyは高さ情報まで含む3D占有地図です。最近の認識研究でこの表現が注目され、商用システムでも類似の概念が活用されていると言われています。

ビジョン中心 vs LiDAR融合

自動運転認識の長年の論争の一つがセンサー構成です。大きく2つの陣営があります。

LiDAR融合アプローチ

LiDARはレーザーで距離を直接測定し精密な3D点群(point cloud)を得るセンサーです。多くの自動運転企業がLiDAR、カメラ、レーダーを併用する多センサー融合を採用します。

[LiDAR融合アプローチ]
 LiDAR(精密距離) + カメラ(色/テクスチャ) + レーダー(悪天候/速度)
 複数センサーの長所を合わせて頑健な認識
 - 長所: 距離情報が正確、暗い環境に強い
 - 短所: LiDARコスト、センサー整合(calibration)が複雑

ビジョン中心アプローチ

逆に、カメラだけで認識を行おうとするビジョン中心(vision-only)アプローチもあります。テスラがカメラ中心のアプローチを公に追求してきたことでよく知られています。ただし各社の具体的なセンサー構成やアルゴリズムの詳細は時点によって変わり公開範囲が限られるため、ここでは「ビジョン中心アプローチが存在する」という事実とその概念的な長短だけを扱います。

[ビジョン中心アプローチ]
 主にカメラだけで3D認識を実行
 - 長所: センサーコスト削減、人のように視覚ベース
 - 短所: 深度を直接測れず推定に依存
        (先に見たBEV/occupancyで3Dを復元)

ビジョン中心アプローチでは、カメラ画像から深度と3D構造をニューラルネットで推定せねばなりません。このため先に見たBEV変換、occupancy予測のような技術が特に重要になります。どちらが優れているかは断定しにくく、コスト・安全・拡張性のバランスに対する異なる判断と見るのが公正です。

センサーの役割分担

自動運転に使われる主要なセンサーは、それぞれ得意なことと苦手なことが異なります。そのため複数のセンサーを併用すると互いの弱点を補えます。

[主要センサーの特性]
 カメラ  : 色/テクスチャ/標識の認識に強い、距離推定は間接的
          暗さ/逆光/悪天候に弱い
 LiDAR   : 精密な3D距離測定に強い
          雨/雪/霧の影響、コストが高い
 レーダー: 速度(ドップラー)測定と悪天候に強い
          解像度が低く形状の把握は弱い

例えば暗い夜にはカメラが弱いがLiDARとレーダーが補い、吹雪ではLiDARが弱いがレーダーが相対的に持ちこたえます。ビジョン中心アプローチはこのうちカメラに集中する代わりに、先に見たニューラルネットベースの3D復元(BEV、occupancy)で距離情報を埋めようとします。どの組み合わせが最善かは、コスト、安全目標、運行環境によって異なります。

エンドツーエンド学習

パイプラインから一体型学習へ

先に認識-予測-計画-制御を分けたパイプラインを紹介しました。この方式は各段階を別々に開発・検証でき理解しやすい一方、段階の間で情報が失われ、各部品の目標が最終的な運転品質とずれうるという限界があります。

そこで最近は、センサー入力から走行行動までを1つのニューラルネットで学習しようとするエンドツーエンド(end-to-end)アプローチが注目されます。

[伝統的モジュール型]
 センサー → [認識] → [予測] → [計画] → [制御] → 行動
        各モジュールを別々に開発/検証

[エンドツーエンド]
 センサー → [1つの大きなニューラルネット] → 行動
        中間表現は学習で形成
        (認識/予測/計画を微分可能につなぐ)

エンドツーエンドの長短

エンドツーエンドの魅力は、全体が最終目標(安全で快適な走行)へ向けて一緒に最適化される点です。中間段階の情報損失を減らし、人がいちいち規則を組まなくてもデータから行動を学びます。最近の研究では、認識と予測、計画を1つの微分可能な構造でつなぎつつ、途中に解釈可能な表現(例: BEV、occupancy)を置いて透明性と性能を両立しようとする方向が示されました。

ただしエンドツーエンドは解釈と検証が難しく、まれな危険状況でなぜそう行動したかを説明しにくいという短所があります。安全が最優先の分野なので、この解釈可能性の問題は非常に重要な課題です。

例えばモジュール型では「認識が歩行者を見逃して事故が起きた」のように、どの段階で問題が生じたかを指摘しやすいです。一方、純粋なエンドツーエンドではニューラルネット内部がなぜそう判断したかを覗きにくいです。そのため実務では完全な一体型より、認識と計画の中間表現を残して検証可能性を保ちつつ全体を一緒に学習する折衷的な設計が好まれる傾向があります。

ワールドモデルとシミュレーション

なぜシミュレーションか

自動運転を実際の道路だけで学習・検証するには膨大な走行距離が必要で、危険な状況をわざと作ることもできません。そのためシミュレーションが必須です。仮想環境で多様な状況(悪天候、急な割り込み、まれな事故状況)を安全に繰り返し生成して学習し検証します。

ワールドモデル

ここからさらに進んだ概念がワールドモデル(world model)です。ワールドモデルは「私がこう行動すると世界がどう変わるか」を予測する学習されたモデルです。すなわち未来のセンサー観測やシーンを予測する生成モデルを作り、その中で計画を立てたりデータを増やしたりするのに使います。

[ワールドモデルの役割]
 現在の状態 + 仮定した行動
        |
        v
[ワールドモデル]  未来のシーン/観測を予測
        |
        v
「この行動をするとこんな状況になる」を事前にシミュレーション
 → 計画の検討、まれな状況データの生成に活用

ワールドモデルは最近、自動運転だけでなくロボットなど物理世界AI全般で熱い主題です。ただし予測が常に正確とは限らないため、シミュレーションと現実の差(sim-to-real gap)を扱うことが依然として課題として残っています。

3D再構成とシミュレーション技術

シミュレーションの現実感を高めるには、実際の道路を精密な3Dで復元する技術が必要です。最近この分野で3Dガウシアンスプラッティング(3D Gaussian Splatting)やニューラル放射輝度場(NeRF)のような3D再構成技法が注目されています。

[3D再構成の活用]
 実際の走行映像 (複数視点)
        |  3D再構成 (ガウシアンスプラッティング/NeRF系列)
        v
 写実的な3Dシーン
        |  新しい視点/条件でレンダリング
        v
 シミュレーションデータ生成 (別の角度、別の天候など)

こうした技法で実際のシーンを3Dに復元すると、その中でカメラ位置を変えたり物体を追加したりして新しい状況を作れます。これは先に見たワールドモデル、シミュレーションと組み合わせてまれな状況データを増やすのに活用できます。ただし再構成したシーンが実際の物理(反射、影、材質)を完璧に含むわけではないため、依然として現実との差に注意が必要です。

安全とロングテール問題

自動運転で最も難しいのは、よくある状況ではなくまれな状況です。これをロングテール(long-tail)問題と呼びます。

[状況の発生頻度]
  多い |#########  日常的な走行 (直進、停止、車線変更)
       |####
       |##
  少ない|#         まれな状況 (道路上の異常物体、急な事故、
       |          特異な天候、予測できない歩行者行動)
       +---------------------------------------------
             よくある状況        まれな状況(ロングテール)

日常的な走行はデータが多くよく学習されますが、まれに起こる危険状況はデータが少なく学習が難しいです。ところが安全はまさにこのまれな状況で決まります。occupancyのように範疇に縛られない表現、ワールドモデルによるまれな状況の生成、大規模データ収集などがすべてこのロングテール問題を緩和しようとする努力です。

また安全のためには認識性能だけでなく、不確実なときに保守的に行動すること、複数センサーの相互検証、そして人の介入余地を残すことなど、システムレベルの設計も併せて必要です。

センサー整合と座標系

複数のセンサーを1つの3D世界にまとめるには、各センサーが互いにどこにどう付いているかを正確に知る必要があります。これを扱うのがセンサー整合(calibration)と座標系です。

[座標系の階層]
 カメラ座標系 (各カメラ基準)
        |  外部パラメータ (位置/方向)
        v
 車両座標系 (自車基準)
        |  自己位置推定 (localization)
        v
 世界座標系 (地図基準)

各センサーには2種類の整合情報が必要です。内部パラメータ(intrinsic)はカメラレンズの焦点距離や歪みのようなカメラ自体の特性で、外部パラメータ(extrinsic)はそのセンサーが車両のどこにどの方向で取り付けられているかです。この情報が不正確だと、複数カメラの画像をBEVにまとめる際に物体がずれて見えます。そのため正確な整合は認識品質の隠れた土台です。

また自車が今、地図のどこにいるかを知る自己位置推定(localization)も重要です。GPSだけでは精度が不足するため、地図とセンサー観測を照合したり、複数のセンサーを融合して位置を精密に推定します。

認識出力が含む情報

認識段階が次の段階に渡す情報は、単純な「物体リスト」より豊かです。整理すると次のようになります。

[認識出力に含まれるもの]
 - 動的物体: 車、歩行者、自転車の位置/大きさ/方向/速度
 - 静的構造: 車線、停止線、横断歩道、縁石
 - 信号/標識: 信号機の状態、速度制限標識
 - 自由空間: 進める領域 (occupancyで表現可能)
 - 不確実性: 各情報に対する信頼度

特に最後の不確実性が重要です。認識が「あそこに何かあるが確信は60パーセント」と正直に伝えれば、計画段階が保守的に対応できます。逆に認識が根拠なく過信すると危険な判断につながります。そのため最新の認識システムは、結果だけでなくその結果の信頼度も併せて出すよう設計されます。

多物体追跡

認識は一瞬の物体検出で終わりません。「あの車がさっきのあの車と同じ車か」をフレーム間でつなぐ多物体追跡(multi-object tracking)が必要です。追跡ができてこそ物体の速度と移動方向が分かり、それで予測が可能になります。

[検出と追跡]
 フレーム t   : 物体 A, B, C を検出
 フレーム t+1 : 物体 A', B', C' を検出
        |  同じ物体どうしを連結 (データ関連付け)
        v
 軌跡: AはずっとA、速度/方向を推定可能

追跡の核心課題はデータ関連付け(data association)、すなわち前フレームの物体と現フレームの物体を正しく組み合わせることです。物体が一時的に隠れたり(occlusion)、互いに近くを通るとき、組み合わせが難しくなります。先に見たBEV表現は複数時点を1つの座標系で扱うため、追跡にも有利です。

予測と計画へつなぐ

認識が「今、何がどこにあるか」なら、予測は「それがこれからどう動くか」です。他の車や歩行者の未来の軌跡を予測することは非常に難しいです。人の意図は不確実で、複数の可能性が同時に存在するからです。

[予測の不確実性]
 前の車両が交差点に接近

 可能性1: 直進 (確率が高い)
 可能性2: 右折 (ウインカー点灯)
 可能性3: 停止 (信号待ち)

 → 1つに断定せず複数のシナリオを確率で表現

そのため最新の予測モデルは1つの未来ではなく、複数の可能な未来を確率とともに出します。計画段階はこの複数の可能性を考慮して安全余裕を持たせて経路を決めます。認識-予測-計画はこのように鎖のようにつながり、前段階の不確実性が後段階へ伝播するため、各段階が自身の不確実性を正直に表現することが重要です。

データセットとベンチマーク

自動運転認識の研究は公開データセットとベンチマークの上で発展してきました。代表的なものがあります。

[代表的な公開データセット (概念)]
 - nuScenes  : マルチカメラ + LiDAR + レーダー、3D検出/追跡
 - Waymo Open: 大規模マルチセンサー走行データ
 - KITTI     : 初期の代表的な自動運転ベンチマーク

こうしたデータセットは複数のセンサーで同じシーンを記録し、物体の3D位置と種類を人がラベリングして提供します。研究者は同じデータで互いの方法を公正に比較できます。ただし公開データセットは特定の地域と条件に偏りうるため、ここでよく動作するからといってすべての道路で安全とは限りません。先に見たロングテール問題がここでも当てはまります。

認識性能を定量化する指標もあります。3D物体検出では、予測箱と正解箱がどれだけ重なるかを基準に適合率と再現率を計算し、これを総合した平均適合率(mAP, mean Average Precision)をよく使います。

[3D検出評価の概念]
 予測箱 vs 正解箱
   - 位置/大きさ/方向が十分合えば正解(TP)
   - そうでなければ誤検出(FP) または未検出(FN)
        |
        v
 適合率-再現率曲線 → 平均適合率(mAP)
 (距離誤差、速度誤差なども併せて見る総合指標も使用)

こうした指標は方法の比較に有用ですが、ベンチマークのスコアと実際の道路の安全が常に一致するとは限りません。特にまれな危険状況はデータセットに少なく、指標に表れにくいです。したがって指標は参考にとどめ、安全検証は別の厳格な手続きで扱うべきです。

比較: 認識表現の整理

表現	形態	強み	留意点
3Dバウンディングボックス	物体ごとの箱	明確、扱いやすい	範疇外の物体に弱い
BEV	上から見た2D地図	計画に自然につながる	高さ情報が不足
Occupancy	3D占有格子	範疇無関係、任意形状に対応	計算量が大きい
エンドツーエンド表現	学習された内部表現	全体最適化	解釈/検証が難しい

上表は概念比較であり、実際のシステムは複数の表現を併用する場合が多いです。

限界と注意点

精度と公開情報: 商用自動運転システムの詳細仕様は非公開の場合が多いです。特定企業の具体実装を断定するより公開された概念中心に理解するのが安全です。
ロングテールと安全: まれな危険状況が安全を左右し、これは依然として未解決の課題です。
sim-to-real格差: シミュレーションとワールドモデルは強力ですが現実との差を完全になくせません。
解釈可能性: エンドツーエンドは性能は良いがなぜそう行動したか説明しにくく、安全検証に挑戦となります。
最新性: この分野のSOTAと商用システムは非常に速く変わります。本記事はアーキテクチャ原理の理解のためであり、具体仕様は公式資料で確認が必要です。
社会的受容: 技術性能のほかにも規制、責任の所在、社会的信頼が実際の導入の大きな変数です。

まとめ

自動運転認識は、2Dカメラ画像から3D世界を復元する問題を中心に発展してきました。複数のカメラを1つの上から見た地図にまとめるBEV、範疇に縛られず空間の占有を表現するoccupancy、そして全体を1つに最適化するエンドツーエンドまで流れが続きます。

覚えておきたい核心は3つです。第一に、認識の根本課題は2Dから3Dを復元することで、BEVとoccupancyがそのための強力な表現です。第二に、ビジョン中心とLiDAR融合は優劣の問題というより、コスト・安全・拡張性に対する異なる判断です。第三に、自動運転の本当の難題はよくある状況ではなくまれなロングテール状況であり、安全はここで決まります。この分野の具体仕様は速く変わりますが、こうした原理と安全優先の姿勢は長く有効です。

参考資料

Lift, Splat, Shoot, LSS (arXiv 2008.05711): arxiv.org/abs/2008.05711
BEVFormer (arXiv 2203.17270): arxiv.org/abs/2203.17270
nuScenes 自動運転データセット (arXiv 1903.11027): arxiv.org/abs/1903.11027
Planning-oriented Autonomous Driving, UniAD (arXiv 2212.10156): arxiv.org/abs/2212.10156
PointPillars: LiDAR 3D検出 (arXiv 1812.05784): arxiv.org/abs/1812.05784
CARLA 自動運転シミュレータ: carla.org
nuScenes 公式サイト: nuscenes.org
Waymo Open Dataset: waymo.com/open