SOTA 3D ビジョン分析 — 単眼深度と 3D ガウシアンスプラッティング

はじめに
深度推定の問題定義
- 相対深度とメートル深度
- 深度が使う手がかり
Depth Anything 系の概念
ステレオと MVS の概要
3D 表現とレンダリング: NeRF から 3D ガウシアンスプラッティングへ
ボリュームレンダリングをもう少し
表現方式のトレードオフ
動的シーンと時間の問題
学習とデータの観点
3D 再構成パイプライン
応用分野
深度と 3D をつなぐ
共通して難しい状況たち
ベンチマークの読み方
強みと限界のまとめ
おわりに
参考資料
クイズ

はじめに

2D 画像は 3D の世界を平らに押しつぶした結果です。カメラは深度情報を一度捨て、私たちはその失われた次元を取り戻そうと苦心します。3D ビジョンは大きく二つの問いに分けられます。一つは「各ピクセルがどれだけ遠いか」という深度推定であり、もう一つは「このシーンを任意の視点から描き直せるか」という 3D 表現・レンダリングです。

この二つの問いは異なる道具を呼びます。深度推定はカメラ一台の画像から距離を推論する問題で、人が片目でも遠近を感じる能力に似ています。3D 表現・レンダリングは複数視点の情報を集めてシーンを丸ごと収めておき、望む角度から描き直す問題です。本記事は二つの問いを順に追いながら、各分野の代表的アイデアがどうつながってきたかを見ていきます。

本記事は二つの軸を、アーキテクチャの原理を中心に整理します。単眼深度推定とその代表系統、ステレオ・多視点の概要、そして NeRF から 3D ガウシアンスプラッティングへと続くリアルタイムレンダリングの流れを扱います。3D ビジョンの SOTA も速く変わるため、特定モデルの順位・数値は断定せず概念中心に説明します。

一つ用語を先に整理しておきます。深度マップはよく「2.5D」と呼ばれます。各ピクセルの距離を持ちますが、カメラの裏側や隠れた部分は分からず完全な 3D ではないからです。一方、NeRF やガウシアンスプラッティングが作るのは任意視点から描き直せる 3D 表現です。本記事で「深度」と「3D 表現」を区別する理由がここにあります。二つはつながっていますが、収める情報の完全性が異なります。

深度推定の問題定義

深度推定は画像から各ピクセルまでの距離を予測する課題です。入力構成によって大きく分かれます。

単眼深度（monocular depth）: 画像一枚で深度を推定します。根本的に**不良設定（ill-posed）**問題です。同じ 2D 画像が複数の 3D シーンから生じうるからです。モデルは学習した事前知識（遠近、物体サイズ、テクスチャ、隠れ関係など）でこの曖昧さを埋めます。
ステレオ（stereo）: 二つのカメラの視差（disparity）で三角測量して深度を計算します。幾何が明確で比較的よく定義された問題です。
多視点ステレオ（MVS）: 複数視点の画像でシーンの 3D 構造を復元します。

   深度推定の入力構成（概念）

  単眼:   [画像 1 枚] --> 事前知識で深度推論 (曖昧さあり)
  ステレオ: [左][右] --> 視差で三角測量 (幾何明確)
  MVS:    [複数視点] --> 多視点整合で 3D 復元

相対深度とメートル深度

単眼深度でよく登場する区別があります。

相対深度（relative depth）: 「A が B より近い」のような順序・比率情報を与えます。絶対的なメートル値はありません。シーン理解・編集には十分な場合が多いです。
メートル深度（metric depth）: 「このピクセルは 3.2 メートル」のように実際の物理単位の深度を与えます。ロボット・測量のように絶対距離が必要な応用に重要ですが、カメラ焦点距離のような情報と結合されて初めて信頼できます。

単眼でメートル深度を安定して得ることは相対深度より難しいものです。スケール曖昧性のためです。実務では相対深度をまず得て別の情報でスケールを補正するか、メートル深度を直接狙った学習・補正を使います。

深度が使う手がかり

単眼モデルが深度を「推測」するとき依存する視覚的手がかりがあります。これらの手がかりは、人が片目でも遠近を感じる原理と大きく違いません。

遠近（perspective）: 平行線が遠くで一点に集まる性質。道路・廊下のようなシーンで強力な手がかりです。
相対サイズ: 同じ種類の物体なら、小さく見えるほうがより遠いと推論します。
隠れ（occlusion）: A が B を隠せば A がより手前です。順序情報を与えます。
テクスチャグラデーション: 遠ざかるほど表面の模様が密に見える性質。
陰影・影: 光と影の方向が表面の形と距離を示唆します。

モデルはこうした手がかりをデータから自ら学習して総合します。だから学習データになかった見慣れないシーン（例: 特異なスケール、反射面）では手がかりが食い違い誤差が大きくなりえます。

Depth Anything 系の概念

単眼深度で近年注目された流れの一つは、大規模データで学習した汎用深度モデルです。Depth Anything 系はこの方向の代表的な概念として理解できます。核心的なアイデアを一般化して整理すると次の通りです。

大規模・多様性データ: ラベル付き深度データは高価なので、ラベルなしの大量画像を活用する学習戦略（例: 教師モデルの予測を生徒が学ぶ方式）を通じて多様なシーンに一般化します。
強いバックボーン表現: 画像全般をよく表現するバックボーンの上に深度予測ヘッドを載せ、初見のシーンにももっともらしい深度を出します。
ゼロショット一般化志向: 特定データセットに過適合せず、多様なドメインですぐに使える相対深度を目標とします。

   汎用単眼深度モデルの学習（概念）

  大量のラベルなし画像
      |
  [教師モデルの深度予測をラベルのように活用]
      |
  強いバックボーン + 深度ヘッド 学習
      |
  結果: 初見のシーンにももっともらしい相対深度
      (メートル深度は追加情報/補正が必要)

注意すべきは、こうしたモデルが「どんなシーンでも完璧なメートル深度」を保証しないことです。相対深度の品質は印象的でありうるものの、絶対スケール・稀なシーン・反射/透明表面のような難しい状況では誤差が大きくなりえます。詳細性能はデータと設定によって変わるので一般化して理解するほうが安全です。

この系が実務で魅力的な理由は、「カメラ一台、画像一枚」という最小の入力でもっともらしい深度を得られる点です。ステレオのような二台の精密整列カメラや、MVS のような複数視点撮影が要りません。だから既存の映像・写真に事後的に深度を付与したり、単一カメラしかない機器で 3D の感覚を得たりするのに有用です。ただしその便利さの代償として絶対スケールの不確実性を抱えることになり、精密な距離が必要なところでは補正や追加センサーが求められます。

ステレオと MVS の概要

単眼が事前知識に依存するなら、ステレオと MVS は幾何を直接活用します。

ステレオマッチング: 左右画像で同じ地点を見つけて（対応点）視差を求め、視差とカメラ間隔・焦点距離で深度を三角測量します。深層ステレオは対応点探索とマッチングコスト計算を学習で改善します。
MVS（Multi-View Stereo）: 複数視点画像とカメラ姿勢を使ってシーンの密な 3D 構造を復元します。観光地の写真数百枚で建物を 3D 再構成する作業が代表的です。
SfM（Structure from Motion）: 複数画像からカメラ姿勢と疎な 3D 点を一緒に推定します。MVS と 3D 再構成パイプラインの前段としてよく使われます。
深度補完（depth completion）: 疎な深度測定（例: LiDAR 点）と画像を結合して密な深度マップを作ります。センサーと学習を一緒に使う実用的なアプローチです。

幾何ベースの方法は精度が高いですが、テクスチャのない表面・反射・隠れで対応点探しが難しいという限界があります。単眼（事前知識）と幾何（ステレオ/MVS）を結合しようとする試みが続く理由です。

二つのアプローチの性格の違いを一行で要約するとこうです。単眼は「見たことのあるもので推測」し、幾何は「複数の角度で測って計算」します。単眼はデータになかった見慣れないシーンで揺れますが入力が最小で、幾何は正確ですが対応点が取れる条件（十分なテクスチャ、重なる視点）を要求します。だから近年は、単眼の強い事前知識で幾何の隙間（無テクスチャ領域など）を埋め、幾何の正確なスケールで単眼の曖昧さを押さえる相互補完が自然な方向と考えられます。

   単眼対幾何（性格比較）

  単眼:  見たことのあるもので推測 --> 入力最小, 見慣れないシーンに弱い
  幾何:  複数の角度で測って計算 --> 正確, 対応点条件が必要

  結合:  単眼が隙間を埋め, 幾何がスケールを押さえる

3D 表現とレンダリング: NeRF から 3D ガウシアンスプラッティングへ

深度が「各ピクセルの距離」なら、3D 表現・レンダリングは「シーン全体を収めて任意視点から描き直す」問題です。この分野を大きく変えた二つの流れが NeRF と 3D ガウシアンスプラッティングです。

NeRF: 座標を色・密度へマッピング

NeRF（Neural Radiance Fields）はシーンを一つのニューラルネットで表現します。3D 座標と視線方向を入力とし、その地点の色と密度を出力する関数を学習します。画像をレンダリングするときは、各ピクセルから光線を放ち、光線上の複数地点の色・密度をネットワークで求め、これを累積（ボリュームレンダリング）して最終の色を作ります。

        NeRF レンダリング（概念）

  ピクセル --> 光線(ray)をシーン内へ放射
              |
  光線上の複数地点をサンプリング
              |
  各地点: [ネットワーク](座標, 方向) --> (色, 密度)
              |
  ボリュームレンダリングで色を累積 --> ピクセル色

強み: 新規視点合成（novel view synthesis）の品質が非常に高く、表現が連続的です。
限界: レンダリング時に光線ごとにネットワークを何度も評価する必要があり遅いです。学習・推論が重いことが初期 NeRF の代表的な弱点でした。その後、いくつもの加速研究が続きました。

NeRF の登場が重要だった理由は、「ニューラルネット一つでシーン全体を収められる」という発想自体が新しかったからです。明示的に点やメッシュを保存せずとも、関数の形でシーンを表現し任意視点を合成できることを示しました。この発想はその後の数多くの後続研究の出発点となり、その流れの中で速度問題を正面から狙ったのがガウシアンスプラッティングと見られます。

3D ガウシアンスプラッティング: 明示的表現でリアルタイムレンダリング

3D ガウシアンスプラッティング（3D Gaussian Splatting）は、シーンをニューラルネット関数ではなく**多数の 3D ガウシアン（楕円体状の半透明の粒）**の集合として明示的に表現します。各ガウシアンは位置、サイズ・形（共分散）、色、不透明度といった属性を持ちます。レンダリングはこのガウシアンを画面に投影して（splatting）速く合成します。

     3D ガウシアンスプラッティング（概念）

  シーン = 多数の 3D ガウシアン(位置, 形, 色, 不透明度)
       |
  レンダリング: ガウシアンを画面に投影(splat)して整列・合成
       |
  学習: レンダリング結果を実画像と比較して
        各ガウシアンの属性を最適化
       |
  結果: 高品質 + リアルタイムに近いレンダリング速度

核心的な違い: NeRF が座標を色・密度へマッピングする**暗黙的（implicit）表現なら、ガウシアンスプラッティングは粒を直接置く明示的（explicit）**表現です。
強み: レンダリングが速いです。明示的な粒を投影して合成するので、よく最適化すればリアルタイムに近い速度で高品質なビューを出せます。編集・操作も直観的です。
限界: ガウシアンの数が多いとメモリ負担が大きく、反射・透明・動的シーンの処理には追加研究が必要です。詳細な品質・速度はシーンと実装によって変わります。

NeRF と 3D ガウシアンスプラッティングの比較

項目	NeRF	3D ガウシアンスプラッティング
表現	暗黙的(ネットワーク関数)	明示的(ガウシアン集合)
レンダリング速度	比較的遅い	速い(リアルタイムに近づける)
ビュー合成品質	非常に高い	非常に高い
編集のしやすさ	比較的難しい	直観的
メモリ	ネットワーク重み	ガウシアン数に比例

表の速度・品質は一般的傾向であり、実際の値はシーン複雑度・解像度・実装によって大きく変わります。

ボリュームレンダリングをもう少し

NeRF とガウシアンスプラッティングを理解するには、「複数地点の色をどう一つのピクセル色にまとめるか」というレンダリング過程をもう少し見る必要があります。

核心の直観は「手前にある不透明なものが奥を隠す」ことです。光線に沿って複数の地点を通るとき、各地点は色と「どれだけ不透明か」を持ちます。手前の地点が不透明なら奥の地点の色はほとんど見えません。逆に手前が透明なら奥が透けて見えます。最終のピクセル色は、この前後の関係を反映して各地点の色を加重合計した結果です。

   ボリュームレンダリングの直観（概念）

  光線: カメラ --> 地点1 --> 地点2 --> 地点3 --> ...

  各地点: (色, 不透明度)

  手前が不透明なら --> 奥の地点はほぼ見えない
  手前が透明なら   --> 奥の地点が透けて見える

  ピクセル色 = 前後の隠れを反映した色の加重合計

NeRF はこの「各地点の色・不透明度」をニューラルネットでその都度計算します。だから表現が連続的で滑らかですが、光線ごとにネットワークを何度も呼び出し遅いです。ガウシアンスプラッティングは各ガウシアンがすでに色と不透明度を属性として持っており、ネットワーク呼び出しなしに投影・整列・合成するだけで済みます。この違いが速度差の根本原因です。

表現方式のトレードオフ

暗黙的表現（NeRF 系）と明示的表現（ガウシアンスプラッティング）はそれぞれ長短が明確です。

暗黙的表現: シーンを一つの関数に収めるのでメモリがコンパクトで、連続的なので滑らかな表面表現に有利です。代わりにレンダリングごとに関数を多く呼び出して遅く、特定部分だけ選んで編集するのが難しいです。
明示的表現: 粒（または点・ボクセル・メッシュ）を直接置くのでレンダリングが速く、特定の粒を動かしたり消したりする編集が直観的です。代わりに粒の数が多くなるとメモリが大きくなり、空の空間を密に埋めるのが難しいことがあります。

   表現方式スペクトル（概念）

  暗黙的(関数)  <----------------------->  明示的(粒/点)
     |                                        |
  コンパクト・連続                         速い・編集容易
  レンダリング遅い                         メモリ負担
  (NeRF 系)                                (ガウシアンスプラッティング)

興味深いのは、この二つが排他的でないことです。二つの表現の長所を混ぜようとするハイブリッドの試みが続いており、どの表現が「正解」かは応用の要求（速度、編集性、メモリ、品質）に依っています。

動的シーンと時間の問題

これまで扱った NeRF とガウシアンスプラッティングは基本的に「静止したシーン」を仮定します。複数視点の写真を撮る間シーンが動いてはならないという意味です。しかし現実の多くのシーンは動きます。人が歩き、葉が揺れ、水が流れます。

動的シーンを扱おうとするアプローチはたいてい「時間」という軸を表現に加えます。

変形フィールド（deformation field）: 基準となる静的シーンを置き、時間に応じてそれがどう変形するかを別途学習します。
時間条件化: 表現が時間入力を受け、同じ位置でも時点によって異なる色・形を出すようにします。

動的シーンはデータも難しいです。動く対象を複数の角度から同時に撮るには複数のカメラが必要で、一台のカメラでは視点と時間が絡んで問題が難しくなります。この分野は活発に研究中で、詳細な方法と性能は速く変わるので概念レベルで理解するほうが安全です。

学習とデータの観点

深度学習データ: メートル深度ラベルは LiDAR・深度センサーなどで得ますが高価です。そのため相対深度・合成データ・自己教師（ステレオ/映像一貫性）信号を活用する戦略が広く使われます。特に合成データは完璧な深度ラベルをタダで与えますが、実際とのドメインギャップを扱うことが課題です。
3D 再構成データ: NeRF・ガウシアンスプラッティングは複数視点画像と正確なカメラ姿勢を必要とします。姿勢推定（SfM）の品質が最終結果に大きく影響します。
一般化対特化: 一つのシーンを精密に再構成することと、初見のシーンにすぐ一般化することは別の目標です。応用に応じて選択が変わります。

3D 再構成パイプライン

写真数枚から 3D を復元する典型的なパイプラインを概念レベルで追ってみると、各段階がなぜ必要かを理解できます。

   写真から 3D へ（概念パイプライン）

  複数視点の写真たち
       |
  [特徴抽出・マッチング]  各写真で特徴点を見つけ写真間の対応を連結
       |
  [SfM]  カメラ姿勢 + 疎な 3D 点を同時推定
       |
  [密復元]  MVS または NeRF/ガウシアンスプラッティングで密な表現を生成
       |
  結果: 3D 点群/メッシュ または レンダリング可能な表現

特徴抽出・マッチング: 各写真で目立つ地点を見つけ、異なる写真の同じ地点をつなげます。この対応が以後すべての計算の基礎です。
SfM（Structure from Motion）: 対応関係から各写真をどこで撮ったか（カメラ姿勢）と疎な 3D 点を一緒に解きます。
密復元: 姿勢が分かれば、MVS で密な点群を作るか NeRF・ガウシアンスプラッティングでレンダリング可能な表現を学習します。

ここでよく見落とされるのは、姿勢推定の品質が最終結果を左右することです。カメラ姿勢が不正確なら、どんなに良いレンダリング方法を使ってもぼやけたりずれた結果が出ます。だから実務では撮影段階（十分な重なり、多様な角度、ブレの最小化）が非常に重要です。

応用分野

ロボティクス: 深度推定で障害物回避・把持・ナビゲーションを支援します。メートル深度とリアルタイム性が重要です。ロボットはしばしば深度センサー（LiDAR など）と単眼推定を一緒に使い互いに補完します。
AR/VR: 実空間に仮想物体を整合させるには深度と 3D 構造が必要です。ガウシアンスプラッティングのリアルタイムレンダリングは没入型応用に有利です。隠れ処理（仮想物体が実物体の後ろに隠れる表現）にも深度が必要です。
3D 再構成・デジタルツイン: 写真から空間・物体を 3D 復元してシミュレーション・測量・保存に活用します。文化財保存、建設現場記録などで使われます。
コンテンツ制作: 実写シーンを 3D に収めて自由視点映像・特殊効果に使います。撮影後にカメラ経路を自由に変える作業が可能になります。
医療・産業検査: 内視鏡・撮影映像から 3D 構造を復元して診断・計測を助けます。正確性と信頼性がとくに重要です。
自動運転: 周囲環境の深度・3D 構造の理解が安全な走行に直結します。カメラ・LiDAR・レーダーを融合するアプローチが一般的です。

応用ごとに要求が異なります。ロボットは絶対距離と遅延を、コンテンツ制作は視覚品質を優先する、という具合に、この優先順位が方法選択を左右します。同じ「3D ビジョン」でも、自動運転のリアルタイム安全要求と文化財スキャンの精密品質要求はまったく異なる設計につながります。

深度と 3D をつなぐ

深度推定と 3D 表現は別々ではなく互いにつながります。深度マップは各ピクセルの距離なので、カメラ情報を知れば各ピクセルを 3D 空間の点に逆投影できます。複数視点の点を整合すれば密な点群になり、3D 再構成の出発点になります。

   深度から 3D へ（概念）

  深度マップ(各ピクセルの距離) + カメラ情報
       |
  逆投影: ピクセルを 3D 点に戻す
       |
  複数視点の点を整合
       |
  密な 3D 点群 --> メッシュ/表現に変換

逆方向もあります。よく作られた 3D 表現から任意視点の深度マップをレンダリングできます。このように深度（2.5D）と 3D 表現は互いを行き来し、近年のシステムはこの二つを一緒に扱う場合が多いです。単眼深度の強い一般化と多視点 3D の幾何的正確さを結合しようとする試みが代表的な流れです。

共通して難しい状況たち

深度推定であれ 3D 再構成であれ、下の状況は共通して厄介です。なぜ難しいかを理解すると、結果を解釈し失敗を予想するのに役立ちます。

反射・透明表面: 鏡・ガラス・水は見える色が表面自体ではなく反射・透過した別の場所の色です。対応点マッチングも色・密度学習も混乱します。
無テクスチャ領域: 白い壁のような模様のない面は「同じ地点」を見つける手がかりがなく、ステレオ・MVS が難しくなります。
細い構造・境界: 金網、髪の毛、木の枝のように細く複雑な構造は表現・復元がともに厄介です。
極端なスケール: 非常に近いか非常に遠い物体は手がかりが弱く誤差が大きくなります。単眼のメートルスケール問題とも絡みます。
照明変化: 撮影中に照明が変わると同じ地点の色が変わり、多視点整合が揺れます。

   難しい状況とその理由（概念）

  反射/透明 --> 見える色が表面でない --> マッチング・学習の混乱
  無テクスチャ --> 対応点の手がかりなし --> ステレオ/MVS 困難
  細い構造 --> 表現解像度の限界 --> 途切れる/つぶれる
  極端スケール --> 手がかり弱い --> 深度誤差拡大
  照明変化 --> 色の不一致 --> 多視点整合が揺れる

こうした状況に出会ったら、「モデルが悪い」というより問題自体が難しいと認識することが重要です。実務では追加センサー（深度センサー）、撮影条件の改善、複数の方法の融合でこれを緩和します。

ベンチマークの読み方

深度・3D の論文の数値を読むとき注意すべき点があります。

相対かメートルか: 深度精度を見るとき、相対深度基準かメートル深度基準かをまず確認すべきです。二つは難易度が異なります。
データセットのドメイン: 屋内・屋外・運転などデータセット特性が自分の応用と似ているか見るべきです。屋内で良いモデルが屋外でそうでないことがあります。
ビュー合成指標の文脈: レンダリング品質指標は学習に使った視点からどれだけ離れた視点を評価するかによって大きく変わります。学習視点に近いビューはたいてい易しいです。

数値だけ比較する前に「どんな条件で、何を基準に測った値か」を一緒に問う習慣が重要です。

強みと限界のまとめ

アプローチ	強み	限界
単眼深度(汎用)	画像 1 枚で即座、強い一般化	メートルスケール曖昧、難しい表面で誤差
ステレオ/MVS	幾何ベースの高精度	無テクスチャ・反射・隠れに脆弱
NeRF	高品質ビュー合成、連続表現	レンダリング遅い(加速研究が続く)
3D ガウシアンスプラッティング	リアルタイム近接レンダリング、編集容易	メモリ負担、動的・透明シーンが難題

おわりに

3D ビジョンは「失われた次元を取り戻す」二つの枝の努力と見られます。深度推定は各ピクセルの距離を、3D 表現・レンダリングはシーン全体を任意視点から蘇らせる能力を狙います。単眼深度は事前知識で曖昧さを埋め、ステレオ・MVS は幾何で精度を得て、NeRF とガウシアンスプラッティングは表現方式（暗黙的対明示的）の選択で品質と速度の均衡をとります。

とくに NeRF から 3D ガウシアンスプラッティングへの転換は、「高品質だが遅い」レンダリングを「高品質でリアルタイムに近い」レンダリングへ押し上げた代表例です。この系譜の考え方を理解すれば、今後現れる新しい表現・モデルもはるかに速く位置づけられます。

実務者に残したい助言はこれです。「最も良い 3D 方法」という絶対的な答えを探すより、自分の応用が何を要求するか（相対深度でよいのかメートル深度が必要か、リアルタイムが必要か、編集が必要か、静的シーンか動的シーンか）をまず決めてください。その要求が決まれば、単眼深度・ステレオ・MVS・NeRF・ガウシアンスプラッティングという部品の中から適切なものを選び組み合わせる作業がはるかに明確になります。3D ビジョンの難しさの多くは「何をあきらめられるか」の問題であり、その選択を明確にすることが良いシステムの出発点です。

参考資料

NeRF 論文「Representing Scenes as Neural Radiance Fields」: arxiv.org/abs/2003.08934
3D Gaussian Splatting 論文: arxiv.org/abs/2308.04079
3D Gaussian Splatting プロジェクトページ: repo-sam.inria.fr/fungraph/3d-gaussian-splatting
Depth Anything 論文: arxiv.org/abs/2401.10891
MiDaS（汎用単眼深度）論文: arxiv.org/abs/1907.01341
COLMAP（SfM/MVS）プロジェクト: colmap.github.io
Vision Transformer（ViT）論文: arxiv.org/abs/2010.11929
Depth Anything コード: github.com/LiheYoung/Depth-Anything

クイズ

Q1: 単眼深度推定が根本的に不良設定（ill-posed）問題である理由は？

同じ 2D 画像が複数の異なる 3D シーンから生じうるからです。深度情報が投影過程で失われるため、モデルは学習した事前知識で曖昧さを埋めなければなりません。

Q2: 相対深度とメートル深度の違いは？

相対深度は順序・比率（A が B より近い）だけを与え絶対単位がありません。メートル深度は実際の物理単位の距離を与えますが、単眼ではスケール曖昧性のため得るのがより難しいです。

Q3: Depth Anything 系が志向する学習の方向は？

ラベルなしの大量画像を活用し（例: 教師予測を生徒が学習）、強いバックボーンの上に深度ヘッドを載せて、初見のシーンにもよく一般化する相対深度を得ることです。

Q4: ステレオが単眼より幾何的によく定義される理由は？

二つのカメラの視差で三角測量するからです。対応点を見つければ、視差・カメラ間隔・焦点距離で深度を直接計算でき、曖昧さが小さいです。

Q5: NeRF の表現方式とその限界は？

座標と視線方向を色・密度へマッピングする暗黙的（ネットワーク）表現です。ビュー合成品質は高いですが、光線ごとにネットワークを何度も評価する必要がありレンダリングが遅いです。

Q6: 3D ガウシアンスプラッティングが NeRF と異なる核心的な違いは？

シーンをニューラルネット関数（暗黙的）ではなく多数の 3D ガウシアン（明示的な粒）の集合として表現します。これを画面に投影して合成するのでレンダリングが速く編集も直観的です。

Q7: 3D ガウシアンスプラッティングの限界を一つ挙げると？

ガウシアンの数が多いとメモリ負担が大きくなります。また反射・透明・動的シーンの処理には追加研究が必要で、詳細な品質・速度はシーンと実装によって変わります。

Q8: 応用によって 3D ビジョン手法の選択が変わる例は？

ロボットは絶対距離（メートル深度）と低遅延を優先し、コンテンツ制作は視覚品質を優先します。こうした優先順位の違いが、単眼/ステレオ/NeRF/ガウシアンスプラッティングのどれを使うかを左右します。

Q9: ボリュームレンダリングで手前の地点の不透明度が重要な理由は？

手前が不透明なら奥の地点の色がほぼ隠れ、手前が透明なら奥が透けて見えます。最終ピクセル色はこの前後の隠れ関係を反映して各地点の色を加重合計した結果だからです。

Q10: 暗黙的表現と明示的表現の代表的なトレードオフは？

暗黙的（NeRF）はコンパクト・連続的ですがレンダリングが遅く編集が難しいです。明示的（ガウシアンスプラッティング）は速く編集が直観的ですが、粒の数が多いとメモリ負担が大きくなります。

Q11: 3D 再構成でカメラ姿勢推定（SfM）の品質が重要な理由は？

姿勢が不正確なら、どんなに良いレンダリング方法を使ってもぼやけたりずれた結果が出るからです。だから撮影段階の重なり・角度・ブレの管理が最終品質を左右します。

Q12: 反射・透明表面が深度・3D で難しい理由は？

鏡・ガラス・水は見える色が表面自体ではなく反射・透過した別の場所の色だからです。対応点マッチングも色・密度学習もこのため混乱します。

Q13: 深度マップを 3D 点に戻す過程は？

深度マップは各ピクセルの距離なので、カメラ情報を知れば各ピクセルを 3D 空間の点に逆投影できます。複数視点の点を整合すれば密な 3D 点群になり、再構成の出発点になります。