Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

はじめに

一枚の画像を理解することと、時間が流れる動画を理解することは別の問題です。動画には時間軸が加わり、物体は動き、隠れ、また現れます。「今何が起きているか」「この物体は次のフレームでどこへ行ったか」をリアルタイムで答えるには、精度だけでなく遅延時間まで一緒に考慮しなければなりません。

本記事は、リアルタイム動画分析の代表的な課題とアプローチを、アーキテクチャの原理を中心に整理します。動画の SOTA も速く変わるため、特定モデルの順位や数値は断定せず、概念と系統の流れに注目します。確かでない最新スペックは一般化して扱います。

扱う内容は大きく四つの筋です。第一に、動画理解が分かれる課題たち。第二に、その課題を解く動画モデルのアーキテクチャの流れ。第三に、セグメンテーションと追跡を統合する SAM 2 系の観点と多物体追跡。第四に、リアルタイムを可能にする最適化と配備の現実です。各筋は結局、「精度と遅延の間のどこに立つか」という一つの問いに収束します。

動画理解の主要課題

動画理解は目標に応じていくつかの課題に分かれます。代表的なものを整理すると次の通りです。

- **行動認識（action recognition）**: 短いクリップまたはストリームで「どんな行動が起きているか」を分類します。歩く、走る、物を掴むといったラベルを付与します。

- **時間的行動位置推定（temporal action localization）**: 長い動画で「いつからいつまでどの行動が起きたか」を区間として見つけます。

- **物体追跡（object tracking）**: 特定の物体をフレームをまたいで持続的に追います。単一物体追跡と多物体追跡に分かれます。

- **時間的/動画セグメンテーション（video segmentation）**: 物体のピクセルマスクをフレームにわたって一貫して保ちます。画像セグメンテーションが時間軸へ拡張された形です。

- **動画質問応答・キャプショニング**: 動画内容を言語で説明したり質問に答えたりします。マルチモーダルモデルの領域です。

動画理解課題の地図（概念）

分類軸: 「何が起きるか」 --> 行動認識

時間軸: 「いつ起きるか」 --> 時間的位置推定

追跡軸: 「その物体がどこへ」--> 物体追跡 (MOT/SOT)

ピクセル軸: 「境界はどこまで」--> 動画セグメンテーション

言語軸: 「言葉で説明/質問応答」--> 動画言語モデル

これらの課題は互いに独立ではありません。例えば自動運転では、追跡とセグメンテーションと行動予測が一つのパイプラインの中でかみ合って動きます。

もう一つ強調したいのは、動画理解が単に「画像理解を何度も行うこと」ではないという事実です。フレーム間の関係、すなわち時間的一貫性が核心です。同じ物体をフレームごとに別のものと見れば追跡は崩れ、フレームごとにマスクが揺れればセグメンテーションは役に立たなくなります。だから動画モデルは「精度」だけでなく「時間にわたる安定性」を一緒に要求されます。

動画モデルのアーキテクチャの流れ

3D 畳み込みから時空間アテンションへ

初期の動画モデルは、画像の 2D 畳み込みを時間軸へ拡張した**3D 畳み込み**を使いました。空間と時間を一緒に走査して動きのパターンを捉える方式です。その後、トランスフォーマーが画像に成功裏に適用され（ビジョントランスフォーマー）、動画にも**時空間アテンション（spatio-temporal attention）**が導入されました。

動画トランスフォーマー（概念）

動画 = フレームの列

各フレームをパッチに分割 (空間)

フレームを時間でつなぐ (時間)

[時空間アテンション]

- 空間アテンション: 1 フレーム内の関係

- 時間アテンション: フレーム間の関係

分類/検出/セグメンテーションヘッド

時空間アテンションの課題は**計算量**です。フレーム数とパッチ数が掛け合わさるとアテンションのコストが大きくなります。これを扱うための代表的な折衷は次の通りです。

- **分解アテンション（factorized attention）**: 空間アテンションと時間アテンションを別々に計算し、乗算的コストを加算的に減らします。

- **トークン削減・サンプリング**: 重要でないトークンを減らしたり、フレームを疎にサンプリングします。

- **ウィンドウ・局所アテンション**: 全域の代わりに局所範囲にアテンションを制限します。

これらの折衷は精度と速度のトレードオフの上で選ばれます。「最良の」組み合わせは課題と遅延要求によって変わります。

時空間アテンションが強力な理由は、「遠く離れたフレーム間の関係」を直接学習できるからです。例えばある行動の始まりと終わりが数秒離れていても、アテンションはその二つの時点をつないで見られます。3D 畳み込みが主に隣接フレームの局所的な動きに強いのと対照的です。ただしこの表現力の代償が計算量であり、リアルタイムシステムは先述の折衷でこの代償を管理します。これが動画アーキテクチャ設計の中心的な緊張です。

動画セグメンテーションと追跡: SAM 2 系の観点

画像セグメンテーションで Segment Anything（SAM）がプロンプト可能セグメンテーションを開いたなら、その考え方を動画へ拡張する流れは自然に続きました。SAM 2 系は「画像のプロンプト可能セグメンテーション」を「動画のプロンプト可能セグメンテーション・追跡」へ広げる概念として理解できます。

核心的なアイデアは次の通りです。

- あるフレームで点・ボックスといったプロンプトで対象を指定すると、モデルがその対象のマスクを以後のフレームにわたって**伝播（propagate）**します。

- フレーム間に過去情報を持つ**メモリ**構造を置き、物体が一時的に隠れて再び現れても同一対象としてつなげられるようにします。

- ストリーミング方式でフレームを逐次処理し、長い動画も扱える構造を目指します。

動画プロンプトセグメンテーション・追跡（概念）

フレーム t=0: プロンプト(点/ボックス)で対象指定 --> マスク

v (メモリに対象表現を保存)

フレーム t=1..N: メモリ参照してマスク伝播

隠れ/再出現: メモリで同一対象を再接続

結果: 対象のマスクがフレーム全体で一貫維持

ここで重要なのは「追跡とセグメンテーションが一つに束ねられる」ことです。伝統的に追跡はボックスを、セグメンテーションはマスクを扱いましたが、この系はマスク水準の追跡を統合的に提供します。ただしリアルタイム性能・長い動画での安定性・複雑な隠れの状況は依然として難題であり、詳細性能は実装と設定によって変わります。

メモリ構造の役割はとくに強調に値します。物体が一時的に画面から消えて戻ってくるとき、メモリがなければモデルはそれを新しい物体と誤認しやすいです。過去フレームの対象表現を覚えておけば、再出現した物体を「あのときのあの対象」として再びつなげられます。これは先に見た MOT の再識別と目的が同じですが、別途の再識別特徴を置く代わりに統合されたメモリで処理する点が異なります。検出・追跡・セグメンテーションが別々に発展してきたアイデアがこのように一つの枠の中で出会うのが、近年の流れの興味深い点です。

多物体追跡（MOT）

複数の物体を同時に追跡する多物体追跡（Multi-Object Tracking, MOT）は、リアルタイム動画分析の核心的な軸です。MOT の目標は単に「物体を見つけること」ではなく、各物体に時間にわたって一貫した同一性（ID）を付与することです。フレーム 12 の 3 番の人とフレーム 400 の 3 番の人が同じ人でなければ意味がありません。広く使われるアプローチは**検出ベース追跡（tracking-by-detection）**です。

検出ベース追跡 (tracking-by-detection)

フレームごとに [検出器] --> 今フレームのボックス群

過去のトラックと今のボックスを [連結(association)]

- 位置予測: カルマンフィルタなどで次位置を推定

- 外見マッチング: 再識別(re-ID)特徴で同一物体判定

同じ物体ならトラック ID 維持、新しい物体なら新 ID 付与

結果: 各物体に一貫した ID を付けて時間とともに追跡

- **位置予測**: カルマンフィルタのような運動モデルで次フレームの位置を予測し候補を絞ります。

- **連結（association）**: 予測位置と検出ボックスを対応づけます。ハンガリアンアルゴリズムのような割り当て手法が使われます。

- **再識別（re-ID）**: 外見特徴を比較し、一時的に隠れて現れた物体を同じ ID につなげます。

参考までに、追跡は対象の数によって分かれます。単一物体追跡（SOT）はユーザーが最初のフレームで指定した一つの対象を最後まで追う課題で、対象が何かを前もって知る必要がありません。多物体追跡（MOT）は複数の対象を同時に扱い、たいてい前もって定めたクラス（人・車など）のすべての物体を検出して追跡します。二つの課題は目標と難点が異なり、ここで扱う検出ベース追跡は主に MOT の方式です。

MOT の難題は**ID スイッチング**（隠れ・交差時に ID が入れ替わる問題）と**密集シーン**です。良い検出器、頑健な運動モデル、判別力のある再識別特徴の組み合わせが性能を左右します。どの方法が「最良」かはシーン密度、カメラ動き、遅延要求によって変わるので、一般化して理解するほうが安全です。

MOT の評価指標

MOT の性能は検出と違い、「どれだけ長く、どれだけ一貫して追ったか」まで測る必要があります。代表的な指標を概念レベルで整理すると次の通りです。

- **正確な位置・検出**: 各フレームで物体をよく見つけ位置を合わせるか。

- **ID 一貫性**: 同じ物体に同じ ID を長く維持するか。ID スイッチングが少ないほど良いです。

- **連結品質**: フレームをまたいで予測と正解の軌跡をよく対応づけたか。

これら複数の側面を一つにまとめようとする総合指標がありますが、どの指標も万能ではありません。監視のように見逃さないことが重要な場合と、統計のように ID 一貫性が重要な場合では、見るべき指標の重みが異なります。

追跡パラダイムの二つの枝

追跡は大きく二つの方式に分けられます。

- **検出ベース追跡（tracking-by-detection）**: 先に説明した、フレームごとの検出後に連結する方式です。検出器性能に大きく依存し、モジュール化が容易です。

- **共同検出・追跡（joint detection and tracking）**: 検出と追跡を一つのモデルで一緒に学習します。フレーム間の特徴を直接伝播したり、トランスフォーマーのクエリでトラックを表現するアプローチがあります。

トランスフォーマーベースの追跡は、DETR の集合予測の考え方を時間軸へ拡張した流れと見られます。「前フレームのトラッククエリを次フレームへ引き継いで更新する」という具合に、検出と連結を一つの学習された過程に束ねようとします。ただしどの方式が優れているかはシーンと遅延要求によって異なるので、系統レベルで理解するほうが安全です。

行動認識の観点

行動認識は「何が起きているか」を時間にわたって判断する課題です。静止画分類と違い、動きそのものが情報です。例えば「座る」と「立ち上がる」は一フレームだけ見ると区別が難しいですが、時間の流れを見れば明確になります。

- **モーション手がかり**: 光学フロー（optical flow）のような動き表現を一緒に使うと行動をより良く区別できます。初期のモデルは外見とモーションを別のストリームで処理することもありました。

- **時間範囲**: 短い動作（手を振る）と長い動作（料理する）は必要な時間窓が異なります。モデルは様々な時間規模を扱えなければなりません。

- **骨格ベースの行動認識**: 人の関節（スケルトン）を抽出してその動きで行動を分類するアプローチもあります。背景・照明変化に鈍感な利点があります。

行動認識の情報源（概念）

外見(何が見えるか) --> 物体・シーンの手がかり

モーション(どう動くか) --> 光学フロー, フレーム差

骨格(関節がどう) --> スケルトン列

これらを結合して「どんな行動か」を時間にわたって判定

行動認識は監視、スポーツ、リハビリ、人間-ロボット相互作用などで使われます。ただし実環境の多様性（カメラ角度、隠れ、個人差）のため、ベンチマーク性能がそのまま現場性能につながらない場合が多いです。

動画と言語の結合

近年の流れの一つの軸は、動画を言語とつなぐことです。マルチモーダルモデルは動画をエンコードして言語モデルと結合することで、動画について質問し答えを受け取る相互作用を可能にします。

- **動画キャプショニング**: 動画内容を文で説明します。

- **動画質問応答**: 「映像で人が何を掴んだか?」のような質問に答えます。

- **時間的指示（temporal grounding）**: 「ボールを投げる瞬間」のように言語で特定の時点を見つけます。

- **行動予測・理由推論**: 次に何が起きるか、なぜその行動をしたかを推論しようとする試みもあります。ただしこれは依然として非常に難しい課題です。

- **長い動画の要約**: 数十分以上の映像を要点だけ絞って要約します。時間的文脈の維持が鍵です。

こうした能力は膨大な動画を人が逐一見なくても検索・要約・分析できるようにします。ただし動画はフレームが多く計算が重く、長い映像の時間的文脈を維持するのが難しいです。実務ではフレームサンプリング、核心区間の選別、階層的要約のような技法でこの負担を減らします。

時間モデリングの方法たち

動画理解の核心は「時間をどうモデルに入れるか」です。代表的な方式を整理すると次の通りです。

- **フレーム独立 + 後集計**: 各フレームを別々に処理してから結果を時間にわたって集めます。単純ですがフレーム間の微細な動きを見逃すことがあります。

- **3D 畳み込み**: 空間と時間を一緒に走査して局所的な動きを直接捉えます。長い時間依存には比較的弱いです。

- **循環（recurrent）構造**: 状態をフレームごとに更新して時間情報をつなげます。ストリーミングに自然ですが、非常に長い依存は難しいです。

- **時間アテンション**: フレーム間の関係をアテンションで直接学習します。長期依存に強いですが計算量が大きいです。

時間モデリング方式のスペクトル（概念）

単純/軽い <--------------------> 表現力/重い

| |

フレーム独立+集計時間アテンション

3D 畳み込み(局所) 循環(ストリーミング)

実務: 課題の時間規模と遅延予算に合わせて選択

どの方式も無条件に優れてはいません。短いクリップの行動分類と長い映像の事件理解は必要な時間規模が異なり、リアルタイムストリーミングとオフラインバッチ処理は遅延制約が異なります。方式の選択はこれらの要求の関数です。

データとラベリングの難しさ

動画モデルの性能はデータに大きく依存しますが、動画ラベリングは画像よりはるかに高価です。

- **フレーム爆発**: 1 秒に数十フレームなので、短い映像でもラベリングするフレームが非常に多いです。

- **時間ラベルの曖昧さ**: 「行動がいつ始まり終わるか」の境界は人によって判断が分かれます。

- **追跡ラベルの労働集約性**: 物体ごとにフレームをまたいで ID とマスクを維持してラベリングするのは非常に手がかかります。

このため自己教師・弱教師学習、合成データ、そしてモデルが下書きラベルを作り人が検査する反復方式が広く使われます。SAM 系のプロンプトセグメンテーションが動画ラベリングツールとしても注目される理由がここにあります。人がいくつかのプロンプトだけ与えれば、モデルが残りのフレームのマスクを埋め、ラベリングコストを大きく減らせるからです。

結局データ問題は「モデルをどう学習させるか」だけでなく「ラベルをどう効率的に作るか」まで含みます。良い動画システムはしばしば良いラベリングパイプラインから始まり、このパイプライン自体にもモデル（プロンプトセグメンテーション・追跡）が部品として入る循環構造が現れます。

リアルタイム推論の最適化

動画は毎秒複数フレームが押し寄せるので、精度と同じくらい**処理量と遅延**が重要です。処理量（throughput）は「毎秒何フレームを処理するか」、遅延（latency）は「一フレームが入力されて結果が出るまでにかかる時間」です。二つは異なります。バッチを大きくすると処理量は上がりますが、個々のフレームの遅延は増えることがあります。リアルタイム応用ではこの二つの均衡が重要です。リアルタイム性を確保する代表的な戦略を整理します。

計算量を減らす

- **軽量バックボーン**: 計算量の少ないバックボーンと効率的な特徴融合でフレームあたりのコストを下げます。

- **フレームサンプリング**: すべてのフレームを重く処理せず、キーフレームだけ重く処理し間は軽く推定・補間します。

- **関心領域処理**: 画面全体ではなく物体がありそうな領域に計算を集中します。

- **カスケード処理**: 軽いモデルで速く選り分け、疑わしい場合にのみ重いモデルを呼び出して平均コストを下げます。

表現・精度の最適化

- **量子化（quantization）**: 重み・活性値の精度を下げて処理量を高めメモリを減らします。

- **知識蒸留（distillation）**: 大きなモデルの知識を小さなモデルへ移し、小さなモデルがより良い性能を出すようにします。

- **枝刈り（pruning）**: 重要度の低い接続・チャンネルを除去してモデルを軽くします。

ストリーミング・状態再利用

- **因果的処理（causal processing）**: 未来フレームを待たず過去・現在のみで出力し遅延を減らします。

- **状態再利用**: 前フレームの特徴・メモリを次フレームの計算に再利用し重複計算を避けます。

この三つの軸（計算量を減らす、表現・精度の最適化、ストリーミング・状態再利用）は互いに排他的でなく一緒に使われます。例えば軽量バックボーンで計算量を減らし、量子化で精度を下げ、状態再利用で重複をなくす、という具合に複数の技法を重ねてリアルタイムを確保します。ただし各技法は精度を少しずつ削ることがあるので、どこまで許容するかは応用の要求が決めます。最適化は「タダ」ではなく、いつも何かとの引き換えです。

リアルタイムパイプラインの折衷（概念）

精度 <-----------------------> 速度

| |

重いバックボーン軽量バックボーン

全フレーム処理キーフレーム+補間

高解像度低解像度

全域アテンション局所/分解アテンション

高精度量子化

実務: 目標遅延/精度に合わせてこれらの軸を組み合わせる

核心は正解が一つではないことです。監視カメラのリアルタイム警報とオフラインのスポーツ分析は要求する遅延・精度が異なるので、最適な組み合わせも変わります。

応用分野

- **監視・セキュリティ**: リアルタイム侵入検知、異常行動検出、人・車両のカウント。遅延が短く、誤検出管理が重要です。複数のカメラを同時に扱う規模の問題も大きいです。

- **スポーツ分析**: 選手・ボール追跡、戦術分析、ハイライト自動生成。密集・速い動き・隠れが難しさです。同じユニフォームを着た選手の ID 維持がとくに厄介です。

- **自動運転・ロボティクス**: 周囲物体の追跡と将来軌道の予測が安全に直結します。リアルタイム性と頑健さが必須で、稀な状況（例外的なシーン）でも崩れないことが求められます。

- **メディア・編集**: 動画から特定の物体をマスクとして切り出して編集したり背景を変えたりする作業にプロンプトセグメンテーション・追跡が使われます。ここではリアルタイム性より精度・一貫性が優先です。

- **医療・行動分析**: リハビリ動作評価、手術映像分析などで細やかな時間的行動理解が必要です。正確性と説明可能性が重要です。

応用ごとに遅延・精度・頑健さの優先順位が異なり、その優先順位がアーキテクチャと最適化の選択を左右します。例えば自動運転は遅延と頑健さをともに極限まで要求しますが、メディア編集は時間をかけてでも精密なマスクを望みます。同じ「動画分析」という名の下でも要求はこれほど分かれます。

実務でよく出会う問題

リアルタイム動画システムを実際に運用すると、理論ではよく現れない問題が出てきます。

- **隠れと再出現**: 物体が他の物体の後ろに消えて現れると追跡が切れやすいです。メモリ・再識別で緩和しますが完全ではありません。

- **モーションブラー・低照度**: 速い動きや暗い環境では検出・追跡の品質が急激に落ちます。

- **カメラ移動**: 動くカメラ（ドローン・車両）は背景自体が流れ、運動モデルを難しくします。

- **密集・類似外見**: 似た見た目の物体が多いと（群衆、同じユニフォーム）ID スイッチングが頻発します。

- **ドリフト**: 誤差がフレームにわたって累積し、追跡が徐々にずれることがあります。周期的な再検出で補正します。

リアルタイム追跡の失敗モード（概念）

隠れ -----> トラック切れ -----> 再識別で再接続を試みる

ブラー ---> 検出失敗 -----> フレームスキップ/補間で持ちこたえる

カメラ移動 -> 運動予測エラー -> 背景補正が必要

密集 -----> ID スイッチング -----> 強い外見特徴で緩和

こうした問題は「完璧に解く」よりも「どれだけよく緩和するか」の問題です。だから実務システムは失敗を検知して回復するロジック（再検出トリガー、信頼度ベースの破棄など）を一緒に備えます。

ハードウェアと配備の観点

リアルタイム性はモデルだけの問題ではなく、配備環境とともに決まります。

- **エッジ対サーバー**: カメラの近く（エッジ）で処理すると遅延・帯域が有利ですが計算資源が制限されます。サーバーへ送れば強いモデルを使えますが伝送遅延が生じます。

- **アクセラレータ活用**: GPU・専用アクセラレータに合わせた最適化（演算融合、バッチ、精度調整）が処理量を大きく変えます。

- **パイプライン並列化**: デコード・前処理・推論・後処理をパイプラインで重ねて処理量を高めます。

- **入力ストリーム管理**: 複数のカメラを同時に扱うときはフレームドロップ・優先順位ポリシーが必要です。

配備の観点を無視して精度だけ高めると、実際にはフレームに追いつけず無用になりがちです。「正確だが遅い」結果と「あまり正確でないが間に合う」結果のどちらが良いかは応用が決めます。

ベンチマークの読み方

動画分析の論文の数値を読むとき注意すべき点があります。

- **遅延を一緒に見る**: 「精度 X%」だけで判断してはいけません。その精度をどのフレームレート・解像度・ハードウェアで出したかがリアルタイム性を左右します。

- **データセット特性**: ベンチマークが想定したシーン（都市の道路、屋内、スポーツなど）が自分の応用とどれだけ似ているか確認すべきです。

- **評価条件**: オンライン（ストリーミング）評価かオフライン（映像全体を見た後）評価かによって難易度が異なります。未来フレームを見られると概ねより易しいです。

こうした文脈を無視して表の数値だけ比較すると誤った結論に至りやすいです。常に「どんな条件で測った数値か」を一緒に問うべきです。

とくに「リアルタイム」という表現自体が相対的です。ある応用には毎秒 5 フレームで十分ですが、別の応用には 30 フレーム以上が必要です。また同じフレームレートでも処理遅延が累積すると結果が実際の状況より遅れます。したがって論文が「リアルタイム」と主張するとき、その基準が自分の応用の基準と同じか確認することが重要です。

強みと限界のまとめ

| アプローチ | 強み | 限界 |

|---|---|---|

| 3D 畳み込み | 局所的な動きの捕捉に強い | 長い時間依存に比較的弱い |

| 時空間トランスフォーマー | 全域関係・長期依存 | 計算量が大きい（折衷が必要） |

| 検出ベース MOT | モジュール化・柔軟 | ID スイッチング、密集シーンに脆弱 |

| プロンプトセグメンテーション・追跡 | マスク水準の統合追跡 | リアルタイム性・長動画の安定性が難題 |

| 軽量化・量子化 | リアルタイム確保 | 精度損失の可能性 |

おわりに

リアルタイム動画分析は「精度」という一つの軸だけでは説明できません。時間軸が加わることで、追跡の一貫性、隠れの処理、そして何より遅延時間が一緒にかかってきます。アーキテクチャは時空間アテンションで表現力を得て、最適化は軽量化・ストリーミングで速度を稼ぎ、この二つの折衷から実務システムが作られます。

SAM 2 系が示した「プロンプトで指定してフレームにわたって伝播する」という考え方は、セグメンテーションと追跡の境界を曖昧にし、動画理解の部品を再編しています。新しいモデルが出続けても、課題の構造と折衷の原理を理解すれば、変化をはるかに容易に追えます。

実務者に残したい助言はこれです。動画システムを設計するとき、「最も正確なモデル」をまず探すより、「私たちが耐えるべき遅延はどれくらいで、どんな失敗（隠れ・ブラー・ID スイッチング）をどれだけ許容できるか」をまず決めてください。その制約が決まれば、時間モデリング方式と最適化技法、配備位置をその上で組み合わせる作業がはるかに明確になります。動画理解の難しさの多くは時間と資源の制約から来ており、その制約を正直に向き合うことが良いシステムの出発点です。

参考資料

- Segment Anything 論文（画像 SAM）: [arxiv.org/abs/2304.02643](https://arxiv.org/abs/2304.02643)

- Segment Anything 公式ページ: [segment-anything.com](https://segment-anything.com)

- Attention Is All You Need（トランスフォーマー）: [arxiv.org/abs/1706.03762](https://arxiv.org/abs/1706.03762)

- ViT（ビジョントランスフォーマー）論文: [arxiv.org/abs/2010.11929](https://arxiv.org/abs/2010.11929)

- DETR（集合予測検出）論文: [arxiv.org/abs/2005.12872](https://arxiv.org/abs/2005.12872)

- I3D（動画 3D 畳み込み）論文: [arxiv.org/abs/1705.07750](https://arxiv.org/abs/1705.07750)

- SORT（オンライン多物体追跡）論文: [arxiv.org/abs/1602.00763](https://arxiv.org/abs/1602.00763)

- Segment Anything コード: [github.com/facebookresearch/segment-anything](https://github.com/facebookresearch/segment-anything)

クイズ

行動認識はクリップ・ストリームで「どんな行動か」を分類します。時間的位置推定は長い動画で「いつからいつまで」その行動が起きたかを区間まで見つけます。

フレーム数とフレームあたりのパッチ数が掛け合わさりアテンションコストが大きくなるからです。緩和のため空間・時間アテンションを分解したりトークンを減らしたり局所アテンションを使います。

あるフレームのプロンプトで指定した対象のマスクを以後のフレームへ伝播し、メモリ構造で隠れ・再出現でも同一対象をつなげることです。セグメンテーションと追跡をマスク水準で統合します。

フレームごとに検出器でボックスを得て、位置予測（運動モデル）と外見マッチング（再識別）で過去のトラックと連結し、同じ物体に一貫した ID を維持します。

隠れや物体の交差の状況で、元のトラックの ID が別の物体に入れ替わる問題です。密集シーンや類似外見で特に発生しやすいです。

軽量バックボーンの使用、キーフレームだけ重く処理し間フレームを軽く補間するフレームサンプリング、関心領域への計算集中などがあります。

未来フレームを待たず過去・現在の情報のみで出力するからです。ストリーミング環境で即時応答が必要なときに有利です。

応用ごとに要求する遅延・精度・頑健さの優先順位が異なるからです。監視警報とオフラインのスポーツ分析は異なる折衷を要求するので最適設定も変わります。

検出ベース追跡はフレームごとの検出後に別途連結します（モジュール化容易、検出器依存）。共同検出・追跡は検出と追跡を一つのモデルで一緒に学習し、フレーム間の特徴伝播やトラッククエリで二つの過程を束ねます。

「座る」と「立ち上がる」のように一フレームだけでは区別が難しい行動が多いからです。光学フローのような動き表現を一緒に使うと時間にわたる変化を捉えて行動をより良く区別します。

フレームが押し寄せ続けるので、処理速度がフレーム速度に追いつかないと遅れた結果は既に過ぎた状況を指します。監視・自動運転のように即時性が重要な応用では間に合う近似値がより有用でありえます。

エッジ（カメラの近く）は伝送遅延・帯域が有利ですが計算資源が制限されます。サーバーは強いモデルを使えますが伝送遅延が生じます。応用の遅延要求と資源制約によって選択が分かれます。