自律走行とロボティクスシステムは、単一技術ではなく数十の技術の融合体である。センサーから生データを受け取り、環境を認識し、経路を計画し、車両を制御する全パイプラインには、C++、GPUプログラミング、ディープラーニング、センサーフュージョン、シミュレーション、クラウドインフラのすべてが関与する。
本記事では、自律走行/ロボティクスエンジニアが知っておくべき13の中核技術領域を実践的な観点から整理する。
┌────────────────────────────────────────────────────────────────┐
│ 自律走行技術スタック全体構造 │
│ │
│ ┌──────────┐ ┌───────────┐ ┌───────────┐ ┌──────────────┐ │
│ │ センサー層 │ │ 認識層 │ │ 判断層 │ │ 制御層 │ │
│ │ GPS/IMU │→│ CV/DL │→│ Planning │→│ Control │ │
│ │ Camera │ │ センサー │ │ Prediction│ │ CAN/Ethernet │ │
│ │ LiDAR │ │ フュージョン│ │ │ │ │ │
│ └──────────┘ └───────────┘ └───────────┘ └──────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ インフラ層: C++ | ROS2 | CUDA | TensorRT | Cloud/MLOps │ │
│ └──────────────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 検証層: SIL/HIL | Simulation(CARLA/Isaac) | VR/AR │ │
│ └──────────────────────────────────────────────────────────┘ │
└────────────────────────────────────────────────────────────────┘
ロボティクスは決定論的実行、ゼロオーバーヘッド抽象化、ハードウェアへの直接アクセスを要求する。Modern C++はこの3つすべてを提供しつつ、コードの安全性と表現力を大幅に向上させる。ROS2ノードからCUDAカーネル、リアルタイム制御ループまで、すべての性能クリティカルなコードはC++で記述される。
| 機能 | ロボティクスでの活用 |
|---|
std::optional / std::variant | センサー状態の表現(「値あり/なし」) |
| Structured bindings | auto [x, y, z] = getPosition(); |
if constexpr | センサー抽象化レイヤーのコンパイル時分岐 |
std::filesystem | ログ管理、マップファイルの読み込み |
Parallel STL (std::execution::par) | ポイントクラウドの並列処理 |
template<typename T>
concept Sensor = requires(T s) {
{ s.read() } -> std::convertible_to<SensorData>;
{ s.calibrate() } -> std::same_as<bool>;
};
auto obstacles = pointCloud
| views::filter(isAboveGround)
| views::transform(toWorldFrame)
| views::take(maxObstacles);
- Concepts: テンプレートパラメータ制約 → コンパイル時の型安全性
- Ranges: 組み合わせ可能なlazyデータ変換
- Coroutines: 組込みプラットフォームの非同期I/O
std::jthread: 協調的キャンセルが可能なスレッド
std::expected<T, E>: 例外を使わないエラー処理(リアルタイムコードでは例外は禁止)std::mdspan: 画像/テンソルデータの多次元配列ビュー(コピー不要)std::print: 型安全なフォーマット出力
✗ ホットパスでの動的メモリ割り当て → ✓ std::pmrアロケータまたは事前割り当てプール
✗ リアルタイム制御ループでの例外 → ✓ std::expectedまたはエラーコード
✗ ミューテックスベースの通信 → ✓ std::atomic、lock-freeデータ構造
✗ デフォルトスケジューリング → ✓ SCHED_FIFO / SCHED_RR (POSIX)
ROS2はロボットアプリケーション構築のためのオープンソースミドルウェアである。ROS1を完全に再設計し、リアルタイム、マルチロボット、プロダクショングレードのデプロイをサポートする。最新のLTSリリースはROS2 Jazzy Jalisco(2024.05)である。
| 項目 | ROS1 | ROS2 |
|---|
| ディスカバリ | 中央集権型(roscore) | 分散型(DDSディスカバリ) |
| ミドルウェア | カスタムTCPROS/UDPROS | DDS/RTPS標準 |
| リアルタイム | 非対応 | DDS QoSで第一級サポート |
| セキュリティ | なし | DDS-SROS2(認証、暗号化、ACL) |
| マルチロボット | 複雑なネームスペースハック | ネイティブマルチドメイン |
| ライフサイクル | なし | Managed Node (configure, activate, deactivate) |
| OS対応 | Linuxのみ(公式) | Linux, macOS, Windows, RTOS |
| ビルドシステム | catkin | colcon + ament |
ROS2はData Distribution Service (DDS) 標準を通じて通信する。
| DDS実装 | 特徴 |
|---|
| Eclipse Cyclone DDS | 軽量、高性能(Jazzyのデフォルト) |
| eProsima Fast DDS | 機能豊富、広く利用 |
| RTI Connext DDS | エンタープライズグレード、安全認証 |
中核QoSプロファイル: Reliability(Best-Effort vs Reliable)、Durability(Volatile vs Transient-Local)、History Depth、Deadline、Liveliness
| 概念 | 説明 | 例 |
|---|
| Node | モジュール式プロセス | 認識ノード、計画ノード、制御ノード |
| Topic | Pub/Subチャネル | センサーデータストリーム |
| Service | 同期Request/Reply | 「キャリブレーショントリガー」 |
| Action | 非同期の長期タスク+フィードバック | 「ウェイポイントへ移動」 |
| Executor | コールバック実行ポリシー | SingleThreaded, MultiThreaded |
| Component Node | 動的ロード可能な共有ライブラリ | Zero-copyイントラプロセス通信 |
| Lifecycle Node | 決定論的な開始/終了ステートマシン | configure → activate → deactivate |
2024〜2026年の支配的パラダイムは、複数カメラビューを統合BEV特徴空間に投影することである。
Front Camera ──┐
Left Camera ──┤
Right Camera ──┼──→ [BEV Feature Space] ──→ 3D Detection
Rear Camera ──┤ Lane Detection
Side Cameras ──┘ Occupancy Prediction
| モデル | 手法 | 性能 (nuScenes NDS) |
|---|
| BEVFormer | Deformable Attention + Spatiotemporal Transformer | 56.9% |
| BEVDet/BEVDepth | 明示的深度推定による2D→3Dリフティング | - |
| LSS | ピクセル単位の深度分布推定 | - |
| ステージ | 技術 | 代表モデル |
|---|
| 2D物体検出 | リアルタイム検出 | YOLOv8, YOLOv9, RT-DETR |
| 3D物体検出 | カメラベース3D | DETR3D, PETR, StreamPETR |
| 車線検出 | パラメトリック/アンカーベース | CLRNet, LaneATT, TopoNet |
| 深度推定 | 単眼/多視点 | MiDaS, Depth Anything V2 |
| Occupancy予測 | 3Dボクセルグリッド | SurroundOcc, Occ3D |
| 信号/標識認識 | 交通インフラ分類 | 専用分類器 |
認識の進化パス:
CNN (2011-2016) → RNN+GAN (2016-2018) → BEV (2018-2020)
→ Transformer+BEV (2020-現在) → Occupancy (2022-現在) → End-to-End VLA (2024-現在)
- UniAD(CVPR 2023 Best Paper):認識+予測+計画を一つのネットワークで実行
- VAD:ベクトル化されたシーン表現に基づくEnd-to-End走行
- DriveTransformer(ICLR 2025):効率的な並列End-to-Endアーキテクチャ
Vision-Language-Action(VLA) モデルは、視覚入力(カメラ画像)と言語指令を受け取り、ロボットの行動を直接出力するFoundation Modelである。インターネット規模のVision-Language事前学習とロボット制御を結ぶ架け橋の役割を果たす。
| モデル | 組織 | 時期 | 主な特徴 |
|---|
| PaLM-E | Google | 2023 | 562Bマルチモーダルモデル、視覚トークンをLLMに埋め込み |
| RT-2 | DeepMind | 2023 | 初のVLA、離散化された行動トークン出力、Chain-of-Thought推論 |
| Octo | UC Berkeley | 2024 | オープンソース汎用ポリシー、Open X-Embodiment学習、Diffusionヘッド |
| OpenVLA | Stanford | 2024.06 | 7Bパラメータ、Llama 2 + DINOv2 + SigLIP、LoRAファインチューニング可能 |
| pi0 | Physical Intelligence | 2024末 | 約3.3B、Flow Matchingによる連続的行動出力 |
| Helix | Figure AI | 2025.02 | 初の全身ヒューマノイドVLA(腕、手、胴体、頭、指) |
| GR00T N1 | NVIDIA | 2025.03 | ヒューマノイドFoundation Model、Isaac Sim統合 |
行動出力方式の比較:
RT-2方式 (Action Tokenization):
"move arm" → LLM → [トークン256] [トークン128] [トークン064] → 離散行動
pi0方式 (Flow Matching):
"move arm" → VLM → Flow Expert → 連続的ベクトル場 → 滑らかな行動
- Action Tokenization: 連続行動を語彙トークンに離散化(RT-2)
- Flow Matching: 学習されたベクトル場で連続行動を生成(pi0)
- Cross-Embodiment Transfer: 複数のロボットタイプで学習 → 汎化
- Open X-Embodiment: 21以上の機関、100万以上のエピソードからなる共同データセット
自律走行車両は、複数のカメラストリーム、LiDARポイントクラウド、レーダー信号を同時に処理しながら、複数のニューラルネットワークを100ms以内に実行しなければならない。CPUだけでは不可能である。
┌─────────────────────────────────────────────┐
│ CUDAメモリ階層 │
│ │
│ レジスタ(スレッドごと) │
│ ↓ │
│ 共有メモリ(ブロックごと、約48-164KB) │
│ ↓ │
│ L2キャッシュ │
│ ↓ │
│ グローバルメモリ(VRAM) │
│ │
│ スレッド → ワープ(32個) → ブロック(最大1024) → グリッド │
└─────────────────────────────────────────────┘
| 概念 | 説明 |
|---|
| Kernel | GPU上で数千スレッドが並列実行する関数 |
| Warp | 32スレッドがSIMTで同期実行 |
| Stream | カーネルの同時実行および演算/メモリ転送のオーバーラップ |
| Coalesced Access | 隣接スレッド → 隣接メモリアクセス → 最大帯域幅 |
| Shared Memory | ブロック内データ再利用のためのユーザー管理スクラッチパッド |
| Pinned Memory | DMAによる非同期CPU-GPU転送 |
| 用途 | 具体的な処理 |
|---|
| ポイントクラウド処理 | ボクセル化、地面除去、クラスタリング |
| 画像前処理 | 歪み補正、リサイズ、色空間変換、正規化 |
| ニューラルネット推論 | 畳み込み、アテンション、正規化カーネル(cuDNN, cuBLAS) |
| 後処理 | NMS、BEVグリッド生成 |
| センサー同期 | 複数センサーストリームのタイムスタンプ整列 |
| プラットフォーム | 性能 | 用途 |
|---|
| Orin SoC | 254 TOPS INT8 | 現行L2+〜L4 |
| Thor(次世代) | 2,000 TOPS | L4集中コンピューティング |
cuDNN(ディープラーニング)、cuBLAS(線形代数)、Thrust(並列STL)、CUB(ブロック/デバイスプリミティブ)、NCCL(マルチGPU通信)、cuPCL(ポイントクラウド)
NVIDIAの高性能ディープラーニング推論SDKである。PyTorch/TensorFlow/ONNXモデルをグラフ最適化、カーネル自動チューニング、精度キャリブレーション、メモリ管理を通じて最適化する。一般的に2〜10倍の高速化を達成する。
最適化前: Conv → BatchNorm → ReLU(3カーネル実行)
最適化後: Conv+BN+ReLU(1カーネル実行)
効果: カーネル実行オーバーヘッド最大80%削減
メモリ帯域幅最大50%削減
スループット約30%向上
| 変換 | スループット向上 | 精度低下 | キャリブレーション要否 |
|---|
| FP32 → FP16 | 2倍 | ほぼなし | 不要 |
| FP32 → INT8 | 4倍 | 1%未満(適切なキャリブレーション時) | 必要(500-1000サンプル) |
| FP32 → FP8 | 最良(Hopper/Blackwell) | 最小 | 必要 |
PTQ(Post-Training Quantization):再学習不要、キャリブレーションデータのみで量子化 QAT(Quantization-Aware Training):学習中に量子化をシミュレーション → より高い精度
PyTorch Model
→ ONNX Export (torch.onnx.export)
→ TensorRT Builder (trtexecまたはPython API)
→ グラフ最適化 + レイヤーフュージョン
→ 精度キャリブレーション (INT8/FP8)
→ カーネル自動チューニング
→ シリアライズされたエンジン (.engineファイル)
→ TensorRT Runtime(推論)
| ツール | 用途 |
|---|
| trtexec | CLIビルドおよびベンチマーク |
| TensorRT Python/C++ API | プログラム制御 |
| Torch-TensorRT | PyTorchネイティブ統合 |
| ONNX-TensorRT | ONNXモデルの直接最適化 |
| Triton Inference Server | TensorRTバックエンドモデルサービング |
BEVFormerモデルはFP32で50+ TFLOPSを要する――車載SoCでは不可能である。モデル最適化により4〜16倍の削減を実現しつつ、元の精度の95%以上を維持できる。
重みと活性化の数値精度を下げる技法。
| 方法 | 再学習 | 精度 | 適するケース |
|---|
| PTQ | 不要(キャリブレーションのみ) | やや低い | 迅速なデプロイ、量子化に頑健なモデル |
| QAT | 必要(Fake Quantization) | PTQより高い | 本番モデル、精度重視 |
精度レベル:
| 精度 | 圧縮率 | 精度低下 |
|---|
| FP16 | 2倍 | ほぼなし |
| INT8 | 4倍 | 1%未満 |
| INT4 (AWQ, GPTQ) | 8倍 | わずか |
| FP8 (H100/H200) | 最良 | 最小 |
不要な重み/ニューロン/チャネルを除去する技法。
| 種類 | 方法 | 利点 | 欠点 |
|---|
| 非構造化 | 個別の重みをゼロ化 | 90%以上のスパース性が可能 | 専用ハードウェアが必要(2:4 sparsity) |
| 構造化 | チャネル/ヘッド/レイヤー全体を除去 | FLOPsを直接削減、汎用ハードウェア | 圧縮率が非構造化より低い |
大きな「教師」モデルの知識を小さな「生徒」モデルに転移する。
- Logit蒸留:生徒が教師の出力確率分布を模倣
- Feature蒸留:生徒が教師の中間表現を模倣
- QAD:量子化エラーに対処しつつ教師を模倣
Large Teacher (FP32)
→ Knowledge Distillation → Smaller Student
→ Structured Pruning → チャネル/ヘッド除去
→ QAT Fine-tuning → INT8/FP8
→ TensorRT Export → フュージョン・最適化エンジン
| センサー | 強み | 弱点 |
|---|
| Camera | 豊富な意味情報、低コスト | 直接的な深度測定不可、照明に敏感 |
| LiDAR | 精密な3Dポイントクラウド | 高コスト、遠距離ではスパース |
| Radar | 全天候で動作 | 低い角度分解能 |
| GPS | グローバル位置 | メートル級の誤差、トンネル/都心で脆弱 |
| IMU | 高頻度モーションデータ | 時間経過に伴うドリフト |
フュージョンは各センサーの弱点を相互補完する。
| レベル | 方法 | 例 |
|---|
| Early(データ) | 生データ結合後に特徴抽出 | LiDARポイントにカメラRGBをペインティング |
| Mid(特徴) | 各センサーのNN特徴を共有空間で結合 | BEVFusion, TransFusion |
| Late(決定) | 独立検出後にルール/学習で結合 | アンサンブル投票 |
2025年の支配的トレンド:Unified BEV + Token-Level Cross-Modal Attention
Predict (予測): x̂ₖ|ₖ₋₁ = F·x̂ₖ₋₁ + B·uₖ
Pₖ|ₖ₋₁ = F·Pₖ₋₁·Fᵀ + Q
Update (補正): Kₖ = Pₖ|ₖ₋₁·Hᵀ·(H·Pₖ|ₖ₋₁·Hᵀ + R)⁻¹
x̂ₖ = x̂ₖ|ₖ₋₁ + Kₖ·(zₖ - H·x̂ₖ|ₖ₋₁)
| フィルタ | 特徴 | 適するケース |
|---|
| KF | 線形システム、ガウシアンノイズ | 単純なGPS+Odometry |
| EKF | ヤコビアンによる非線形の線形化 | GPS+IMUフュージョン標準 |
| UKF | シグマポイント(ヤコビアン不要) | 高度に非線形なシステム |
| Particle Filter | ノンパラメトリック、多峰分布 | 都心GPS曖昧性 |
状態ベクトル(EKF一般的): [x, y, z, roll, pitch, yaw, vx, vy, vz, ax, ay, az]
| 種類 | 内容 | ツール |
|---|
| Extrinsic | センサー間の回転+並進関係 | Kalibr (ETH Zurich)、チェッカーボードベース |
| Intrinsic | センサー内部パラメータ(焦点距離、歪み係数) | OpenCV calibrateCamera |
| Temporal | センサー間の時間オフセット | PTP, GPS PPS, 信号相関 |
物理的な道路テストで安全性を統計的に証明するには110億マイルの走行が必要である(Waymo推定)。SIL/HILシミュレーションは1日で数百万マイルをシミュレートできる。
┌──────────────────────────────────────────────────┐
│ SIL環境 │
│ │
│ [認識アルゴリズム] ←→ [センサーシミュレーション] │
│ [計画アルゴリズム] ←→ [シナリオエンジン] │
│ [制御アルゴリズム] ←→ [車両ダイナミクスモデル] │
│ │
│ 実行環境: ホストPC (x86) │
│ 物理ハードウェア: なし │
│ 反復速度: 秒〜分 │
│ CI/CD統合: 可能(クラウド並列化) │
└──────────────────────────────────────────────────┘
利点:ハードウェアコスト不要、完全再現可能、CI/CD統合、クラスタ並列化
┌──────────────────────────────────────────────────┐
│ HIL環境 │
│ │
│ [実ECU (DUT)] ←→ [HILシミュレータ] │
│ ├ 車両ダイナミクスモデル │
│ ├ センサー信号注入 (HDMI/ETH) │
│ ├ バスシミュレーション (CAN/ETH) │
│ └ 故障注入 │
│ │
│ 実行環境: 実ターゲットハードウェア (Orin, EyeQ等) │
│ リアルタイム: ハードウェアクロックレート │
│ ISO 26262: 機能安全認証に必須 │
└──────────────────────────────────────────────────┘
MIL (Model-in-the-Loop) — MATLAB/Simulinkプロトタイピング
→ SIL — ホストPC + シミュレーション環境
→ PIL (Processor-in-the-Loop) — ターゲットプロセッサコンパイル、ホスト実行
→ HIL — ターゲットECU + シミュレーション環境
→ VIL (Vehicle-in-the-Loop) — 実車 + シナリオ注入
→ Road Testing — 実車 + 実環境
| ツール | 用途 |
|---|
| dSPACE SCALEXIO | HILシミュレーション |
| NI PXI | PXIベースHIL |
| Vector CANoe | バスシミュレーション |
| Applied Intuition HIL Sim | ADAS/AD HILプラットフォーム |
| IPG CarMaker | SIL/HIL車両ダイナミクス |
| 特性 | CARLA | Isaac Sim | LGSVL | CarSim | Simulink |
|---|
| オープンソース | O | O | O* | X | X |
| エンジン | Unreal | Omniverse | Unity | 独自 | 独自 |
| センサーシミュレーション | 高 | 非常に高い | 高 | 低 | 中程度 |
| 車両ダイナミクス | 中程度 | 中程度 | 中程度 | 非常に高い | 高 |
| ROS2対応 | O | O | O | ブリッジ | ツールボックス |
| 合成データ | O | 最高 | O | X | 限定的 |
| ML学習 | API | Isaac Lab (RL) | API | X | RL Toolbox |
| 活発な開発 (2025) | O | O | X* | O | O |
*LGSVLはLGにより開発中止
docker pull carlasim/carla:0.9.15
docker run --privileged --gpus all --net=host \
carlasim/carla:0.9.15 /bin/bash ./CarlaUE4.sh
pip install carla
import carla
client = carla.Client('localhost', 2000)
world = client.get_world()
blueprint = world.get_blueprint_library().find('vehicle.tesla.model3')
spawn_point = world.get_map().get_spawn_points()[0]
vehicle = world.spawn_actor(blueprint, spawn_point)
camera_bp = world.get_blueprint_library().find('sensor.camera.rgb')
camera = world.spawn_actor(camera_bp, carla.Transform(), attach_to=vehicle)
- Omniverse(USD)ベース、RTXレンダラーによるフォトリアリスティックRGB、深度、セグメンテーションマスク
- PhysX GPU加速物理エンジン
- NuRecニューラルレンダリングでSim-to-Realギャップを最小化
- Isaac Lab(RL学習)、Replicator(合成データ)、Cosmos(生成AI環境)
┌─────────────────────────────────────────────────────────────────┐
│ 自律走行フルスタック │
│ │
│ 1. Sensing センサードライバ、時刻同期、ロギング │
│ ↓ │
│ 2. Localization HDマップマッチング、V-SLAM、LiDAR SLAM、GNSS/IMU │
│ ↓ → 6-DOF車両姿勢 (100+ Hz) │
│ 3. Perception 3D検出、追跡、セマンティックセグメンテーション、Occupancy │
│ ↓ → 3Dバウンディングボックス、トラックID、セマンティックマップ │
│ 4. Prediction エージェントの将来軌跡予測 (3-8秒) │
│ ↓ → エージェントごとのマルチモード軌跡 │
│ 5. Planning 経路計画、行動計画、モーション計画 │
│ ↓ → 軌跡(姿勢+速度シーケンス) │
│ 6. Control 横方向(操舵)+縦方向(加減速)制御 │
│ ↓ → CANコマンド (steer-by-wire, brake-by-wire) │
└─────────────────────────────────────────────────────────────────┘
| アプローチ | 利点 | 欠点 |
|---|
| モジュール式 | 明確なインターフェース、テスト容易、解釈可能 | エラー伝播、モジュール間の情報損失 |
| End-to-End | 全体最適化、情報保存 | 解釈困難、安全検証の難易度 |
| ハイブリッド | 学習された認識+ルールベースの安全 | 現在の業界主流 |
| スタック | 特徴 |
|---|
| Autoware | 世界最高峰のオープンソースADスタック、ROS2ベース、完全モジュール式 |
| Apollo (Baidu) | 包括的ADプラットフォーム、ロボタクシーの実運用 |
| 分野 | 説明 |
|---|
| デジタルツイン | 物理的なロボット/環境の仮想レプリカ、リアルタイム同期 |
| テレオペレーション | VRによる遠隔ロボット操作(手術、危険環境、宇宙) |
| データ収集 | VRでの人間デモ → ロボットポリシー学習データ |
| シミュレーション可視化 | 開発者がロボットの世界に没入してデバッグ |
- NVIDIA Omniverse: USDベース、リアルタイムレンダリング、物理シミュレーション、マルチユーザーコラボレーション
- Unity + ROS: Unity Robotics HubでROS-Unity統合
- WebXR + rosbridge: ブラウザベースVRロボット制御
自律走行車両は1時間あたり1〜5TBのデータを生成する。認識モデルの学習には数千GPU時間が必要である。クラウドは選択肢ではなく必須のインフラである。
車両 (Edge)
→ セルラー/WiFiで生ログをアップロード
→ Object Storage (S3/GCS/Azure Blob)
→ データカタログ & インデクシング(シナリオマイニング)
→ 自動アノテーション(既存モデルで事前ラベリング)
→ 人間によるアノテーション(検証、コーナーケース)
→ データセットバージョン管理 (DVC, LakeFS)
→ 学習クラスタ
→ モデルレジストリ
→ 検証パイプライン(オフラインメトリクス、SIL)
→ OTAデプロイ
| 技術 | 役割 |
|---|
| Apache Kafka | リアルタイムストリーミング(テレメトリ、OTA、車両通信) |
| Apache Flink | ストリーム処理(リアルタイムシナリオ検知) |
| Apache Spark | 大規模バッチデータ変換 |
| Apache Airflow | MLパイプラインワークフローオーケストレーション |
| MCAP | マルチモーダルログデータフォーマット(rosbag後継) |
A/Bパーティション: 非アクティブパーティションを更新 → 再起動時に切り替え
デルタアップデート: 変更バイトのみ送信 (100-500MB vs 10+GB)
段階的ロールアウト: 1% → モニタリング → 段階的拡大
ロールバック: 異常検知時に前バージョンへ復元
- 暗号署名、安全状態でのみ適用、ISO 24089標準
モデルデプロイ → 実走行データ収集 → 失敗事例の自動マイニング
→ アノテーション追加 → 再学習 → SIL検証 → A/Bテスト → 全体デプロイ
→ [反復]
- NVIDIA CUDA Programming Guide
- NVIDIA TensorRT Documentation
- ROS2 Jazzy Documentation
- CARLA Documentation
- NVIDIA Isaac Sim Documentation
- Autoware Documentation
- Li, Z., et al. (2022). "BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers". ECCV 2022.
- Hu, Y., et al. (2023). "Planning-Oriented Autonomous Driving (UniAD)". CVPR 2023 Best Paper.
- Brohan, A., et al. (2023). "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control". arxiv.org/abs/2307.15818
- Black, K., et al. (2024). "pi0: A Vision-Language-Action Flow Model for General Robot Control". arxiv.org/abs/2410.24164
- Team, O., et al. (2024). "Octo: An Open-Source Generalist Robot Policy". octo-models.github.io
- Kim, M., et al. (2024). "OpenVLA: An Open-Source Vision-Language-Action Model". arxiv.org/abs/2406.09246
- carla-simulator/carla
- autowarefoundation/autoware
- ApolloAuto/apollo
- openvla/openvla
- octo-models/octo
- OpenDriveLab/UniAD
- NVIDIA/Model-Optimizer
- NVIDIA: How DRIVE AGX Achieves Fast Perception
- NVIDIA: Top 5 AI Model Optimization Techniques
- Multi-Sensor Fusion Survey (MDPI)
- VLA Models Overview (DigitalOcean)
- NetApp: Data Pipeline for Autonomous Driving