Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 動画が「検索可能なデータ」になった年

2025年末から2026年前半にかけて、企業が動画データを扱う方法が根本的に変わった。会議録画を保管するだけだった段階から、自然言語で「先四半期に価格改定が議論された会議の区間」を取得する段階へ移行した。CCTVは24時間の映像を人が巻き戻して見るものではなく、「赤いシャツを着た人物」という1行のクエリで0.3秒以内に該当フレームを取り出すものになった。コンテンツライブラリも、人手でタグを付ける時代から、マルチモーダル埋め込みがシーン単位の意味的検索を自動生成する時代に入った。

これを可能にしたのは3つの技術の同時成熟である。

- **マルチモーダル埋め込みの精度向上** — OpenCLIPから始まり、Google SigLIP2が2024年末にImageNet zero-shot 84%付近まで押し上げ、Cohere Embed v3 Multimodal・Voyage Multimodal・Nomic Embed Multimodal・Jina CLIP v2が「テキスト1行」と「画像・1クリップ」を同じ空間に置く作業を1/100程度のコストで実現した。

- **動画専用ファウンデーションモデルの登場** — Twelve LabsのPegasus 1.2(2024-11)とMarengo 2.7が、動画を一級市民として扱う最初の商用モデルとなり、Google Gemini 1.5/2.0 Proは1時間分の動画を1コンテキストに収め、GPT-4oの動画APIが2024年12月に公開された。

- **ベクトル DBのマルチモーダルモード** — 主要ベクトル DBがテキスト・画像・動画の埋め込みを同一インデックスで扱う。

本稿は、この3つの潮流が交差する2026年前半の地図を描く。Twelve Labsのような動画専用APIから、ハイパースケーラ動画AI、ベクトル DBのマルチモーダルモード、物体検出、ファウンデーションモデル、アセットメタデータ、実用シナリオ、字幕・ライセンス、韓国・日本のローカルベンダー、ストレージ・コストまで一気に整理する。

1章 · なぜ2026年に動画検索が重要なのか

企業が保有する動画の種類は急増している。

- **会議録画** — Zoom・Google Meet・Microsoft Teamsが自動で録画する。中堅企業でも年間数千から数万時間に達する。Otter・Granola・Fathom・Read.aiがこの上に検索・要約を構築する。

- **CCTV・防犯カメラ** — クラウド NVR(Verkada・Rhombus・Eagle Eye Networks)がペタバイト級の映像をクラウドへ送る。

- **コンテンツライブラリ** — メディア企業のフッテージ・VODアーカイブはPB単位。

- **ユーザー生成コンテンツ** — TikTok・YouTube・Instagram Reelsは毎分数百時間を受け取る。

- **EC動画** — 360度商品動画・開封・レビューが検索可能なアセットに。

- **自動運転・ロボットデータ** — 車両・ロボットが週次でPBを生み出し、それが学習とデバッグの源泉。

これらの動画に共通するのは「見た記憶はあるがどこにあるかわからない」という問題である。テキストならgrepできるが、動画にはこれが存在しなかった。2026年の動画検索インフラはまさにこのギャップを埋める存在だ。

利用シナリオを1行で描くと次の通り。

- 会議: 「先四半期に ACV 100K以上の案件で価格交渉があった会議区間を探して」

- セキュリティ: 「昨日22時-23時に正門を通過した白いSUVを見せて」

- コンテンツ: 「このシリーズで主人公2人が雨の中で対話するシーン」

- EC: 「このフーディに似たデザインの商品動画」

- ライブ: 「番組内で暴言・差別発言が発生した瞬間にマーキング」

5シナリオがすべて同じインフラ(埋め込み + ベクトル DB + 検出)を使う。

2章 · Twelve Labs — 動画専用ファウンデーションモデルの先頭

Twelve Labsは2021年、韓国系の創業者(Jae Lee)が米国で立ち上げた会社で、動画理解を一級市民として扱う初の商用モデルを生み出した。

- **Marengo 2.7** — 埋め込みモデル。動画・画像・テキスト・音声を1つの空間に置く。2024-09 公開。

- **Pegasus 1.2** — 生成モデル。動画を入力に取り、要約・QA・キャプションを生成。2024-11 公開。

- **Marengo Search API** — 自然言語クエリ → 動画クリップの時間帯マッチ。結果は開始・終了タイムスタンプと信頼度。

- **Embed API** — 動画を視覚・聴覚・テキストのマルチモーダル埋め込みへ変換。1024次元。

- **Generate API** — 動画に対する自由質問・要約・チャプター分割。

料金は分単位のインデキシングとトークン単位の生成を組み合わせる。インデキシングは分あたり0.05 USD前後(2026年基準)、生成は100万トークンあたり1.5 USD程度。無料枠は月10時間。

競合に対する強みは動画長への頑健性。1分のクリップと1時間の会議録画を同じAPIで扱い、時間帯精度は1-2秒以内。弱点は韓国語・日本語の字幕データが英語ほど豊富ではない場合にフォールバックが必要なこと。

同じ席に並ぶ新顔。

- **Cloudglue** — 2025年に登場。コンテンツモデレーションと広告マッチングが中心。

- **VideoDB** — インデキシング・ストリーミング・生成をまとめたマネージド動画インフラ。

- **Mixpeek** — マルチモーダルRAGプラットフォーム。画像・動画・文書を同一インデックスへ。

3章 · マルチモーダル埋め込みモデル — CLIPからSigLIP2まで

動画検索の心臓部は埋め込みである。テキスト1行と動画1フレームを同じベクトル空間に置く必要がある。

- **OpenAI CLIP(2021)** — ViT-B/32、ViT-L/14が事実上の標準だった。英文4億ペアで学習。韓国語・日本語は弱い。

- **OpenCLIP(LAION)** — CLIPをLAION-5Bで再学習したオープンモデル。ViT-G/14はzero-shot ImageNet 80%付近。

- **Google SigLIP(2023)** — softmaxの代わりにsigmoid lossで学習。同じデータでより安定した適合率・再現率。

- **Google SigLIP2(2024-12)** — 多言語学習。韓国語・日本語のzero-shotが大きく改善し、ImageNet 84%付近。

- **Jina CLIP v2(2024)** — 多言語 + 長文(8Kトークン)対応。Matryoshka学習で埋め込み長を64-1024に切り出し可能。

- **BGE Multimodal(BAAI)** — 中国 BAAIのオープンモデル。CN/ENの同時学習。

- **Cohere Embed v3 Multimodal(2024-10)** — 画像・テキストを同一空間に。API形式。1024次元。

- **Voyage Multimodal(voyage-multimodal-3, 2024-11)** — テキスト・画像・表・チャートを同一空間に。RAG精度に強み。

- **Nomic Embed Multimodal(2024-12)** — オープン重み + ホストAPI。画像・テキスト + 一部の韓国語。

- **VideoCLIP/X-CLIP/VideoLLM** — 動画専用の派生。フレーム列を時間軸も含めて埋め込む。

選択基準は単純だ。韓国語・日本語が必要ならSigLIP2かJina CLIP v2。表・チャートが混ざる会議録画ならVoyage Multimodal。完全オープンが必要ならNomic Embed Multimodal。英文の一般用途ならOpenCLIP ViT-L/14が依然としてコストパフォーマンス最高。

4章 · ハイパースケーラの動画AI API

専用API以外にも、クラウド3社すべてが動画AIを提供している。

- **Google Cloud Video Intelligence API** — ラベル検出・ショット変化・物体追跡・OCR・露骨表現・人検出。分あたり0.10 USD前後。

- **AWS Rekognition Video** — 顔認識・物体検出・テキスト・不適切表現・有名人認識。ライブストリームにも対応。

- **Azure Video Indexer**(旧 Video Analyzer for Media) — 顔・感情・OCR・キーフレーム・音声認識・翻訳・トピックを統合。30言語以上の自動字幕。

- **AWS Bedrock + Anthropic Claude 3.5 Sonnet** — フレーム抽出後にビジョンモデルで自由質問。

選択基準。

- 既にGCPなら Video Intelligence が自然。ラベル検出の精度が最も均質。

- ライブストリームのモデレーションが必要なら Rekognition Video。

- 自動字幕 + 多言語 + Insights UIまでまとめて欲しいなら Azure Video Indexer が最も完成度が高い。

- 自由質問が必要なら Bedrock + Claude/Nova。

5章 · ベクトル DBのマルチモーダルモード

埋め込みを作ったらどこかに保管して検索する必要がある。2026年には主要ベクトル DBがすべてマルチモーダルインデックスを一級市民として扱う。

- **Pinecone**(2025-09 Multimodal モード) — テキスト・画像・動画の埋め込みを同じインデックスに格納。マネージド + 自動埋め込み。

- **Weaviate**(multi2vec-clip モジュール) — CLIP・SigLIPをモジュールとして装着。データ投入時に自動埋め込み。

- **Qdrant** — コレクションごとにペイロード + ベクトル。外部CLIP・SigLIP埋め込みと自由に結合。

- **Milvus / Zilliz Cloud** — 大規模(数十億ベクトル)。マルチベクトルフィールドでテキスト・画像・音声を1ドキュメントに。

- **Chroma** — ローカル開発 + 小規模。マルチモーダルコレクション対応。

- **pgvector + HNSW** — Postgres拡張。小規模でコストパフォーマンス良好。

- **Turbopuffer** — 2024年に台頭したマネージドベクトル検索。オブジェクトストレージベースで料金が1/10。

規模別ガイドは単純。100万ベクトル以下なら Chroma/pgvector。1億までなら Pinecone/Weaviate。それ以上なら Milvus/Turbopuffer。

6章 · 物体検出 & 行動認識

動画の一部の問題は埋め込みではなく「フレームごとに何があるか」という分類問題である。

- **Roboflow Video Inference + Workflows** — 動画を入力としてフレームごとに物体検出 → 後処理 → アラート。ノーコードワークフロー。

- **Ultralytics YOLO**(v8・v11) — リアルタイム物体検出の事実上の標準。30 FPS以上で80+クラス。

- **Detectron2 / MMDetection** — Meta・OpenMMLabの学術向け。精度優先。

- **OpenCV + MediaPipe** — 顔・ポーズ・手検出のクライアントサイド標準。

- **NVIDIA DeepStream + Metropolis** — GPU加速の動画パイプライン。CCTV数百チャネルを1台で処理。

- **Hailo / Coral Edge TPU** — エッジデバイスでの物体検出。CCTV・ロボット現場。

行動認識(動きベースのラベル)は別モデルが必要。SlowFast・VideoMAE・TimeSformerが学術ベースラインだが、実務ではキーフレーム + CLIP埋め込みで近似することが多い。

7章 · ファウンデーション動画モデル2026 — Sora · Veo · Runway · Gemini · GPT-4o · Claude

動画生成と理解は同じモデル系列の中で出会う。

- **Sora**(OpenAI、2024-12 ChatGPT Plus/Pro 公開) — 生成 + 理解。最大1分1080p。APIは2026年初頭に限定公開。

- **Veo 2**(Google DeepMind、2024-12) — 映画級カメラワーク + 正確な物理。Google Cloud Vertex AIで統合。

- **Runway Gen-3 Alpha + Aleph**(2024-2025) — Alephは動画編集モード。生成 + マスク。

- **Gemini 1.5/2.0 Pro 動画** — 最大1時間の動画を1コンテキストへ。自然言語QAと要約。

- **GPT-4o 動画API**(2024-12) — フレーム + 音声を同時処理。リアルタイム音声 + 動画。

- **Claude 3.5/4 Sonnet + 視覚フレーム** — フレーム抽出後に一括分析。ツール利用との結合が強い。

- **InternVL 2/3・MiniCPM-V**(オープン) — 自己ホスト可能。韓国語・日本語OCRに強い。

- **Pika Labs・Luma Dream Machine・Kling**(中国 Kuaishou)・**Hailuo MiniMax** — 生成特化。

理解(検索・要約)目的なら Twelve Labs Pegasus + Gemini 2.0 Pro が標準。生成目的なら Sora・Veo・Runway・Kling・Hailuoが各市場を分け合う。

8章 · 動画アセットメタデータ — Mux · Cloudflare Stream · JW Player

生成・理解とは別に、動画を実際にストリーミング・管理するインフラがある。

- **Mux**(2017-) — 分析・エンコーディング・ライブ + Asset Metadata。自動検出 + カスタムキーバリューメタ。Mux Dataが視聴品質分析。

- **Cloudflare Stream** — 動画エンコーディング + グローバルCDN + AI字幕。R2オブジェクトストレージと同一ネットワークで0 egress。

- **JW Player + AI Discovery** — 動画インデキシング + 自動トピック分類。CMS事業者に強い。

- **Bitmovin** — メディア企業向けエンコーダ + 分析。4K HDR最適化。

- **api.video** — フランス発のシンプルAPI。エンコーディング・ストリーミング・字幕を1コール。

- **Vimeo OTT / Brightcove** — エンタープライズOTT。

- **AWS MediaConvert / Elemental** — AWSネイティブのエンコーディング。

キーワードは2つ。(1)Asset Metadata = 自由なキーバリューで動画にタグを付け検索可能に。(2)AI字幕 = 動画アップロード時に自動で英語・多言語字幕 + チャプター + キーワード。Cloudflare StreamもMuxもこの流れに従う。

9章 · 字幕・キャプションインフラ — Rev · 3Play Media · Whisper

検索可能な動画の最優先シグナルは字幕である。音声 → テキスト → 埋め込みが最もコスト効率の良い経路。

- **OpenAI Whisper**(v3・large-v3-turbo) — オープン重み。100以上の言語対応。

- **AssemblyAI** — 話者分離 + 感情分析 + 自動キーワード。

- **Deepgram** — ライブ + バッチ。韓国語精度の改善が早い。

- **Rev.com** — 人手検収 + AI。医療・法律も対応。

- **3Play Media** — 米国メディア企業の標準。字幕 + 音声ディスクリプション。

- **Verbit** — 教育・法律市場。

- **Otter / Granola / Fathom / Read.ai** — 会議録画の自動字幕 + 要約。Otter・Granolaは自社モデル、Fathom・Readは外部モデルの上のワークフロー。

大量動画 + コスト優先なら Whisper + 自己ホストが標準。精度優先なら Rev・3Playの人手検収ラインが基準。

10章 · 会議検索 — 最大の市場

企業内動画の半分以上が会議である。したがって会議検索は最大の需要源だ。

- **Otter** — 自動録音 + 検索 + アクションアイテム抽出。2026年は事実上の標準。

- **Granola**(2024-) — Macネイティブ。サイドバーにノートが自動生成。

- **Fathom** — Zoom・Meet会議の自動録音 + クリップ共有。CRM連携。

- **Read.ai** — 会議効率スコア + 自動要約。

- **Microsoft Teams Premium + Copilot** — Teams内部統合。検索がTeams検索インデックスと連携。

- **Zoom AI Companion** — Zoom内蔵。

- **Google Meet + Gemini** — Meet会議メモ自動作成。

- **Tactiq / Sembly** — マルチプラットフォーム会議メモ。

- **Avoma** — 営業会議特化。

クエリ例: 「先四半期に価格交渉があった会議区間」 → 字幕 + 話者埋め込みでマッチ。結果は動画タイムスタンプ + 発話者 + 一部字幕。

11章 · 防犯カメラ検索 — 映像から人・車両を見つける

CCTV・防犯カメラの本質は「人間が24時間見続けることはできない映像」である。自然言語検索は労働時間を1/100に縮める。

- **Verkada** — クラウドNVR + AI検索。「白いシャツ + 正門」のようなクエリが可能。

- **Rhombus** — 米国中堅ビル標準。

- **Eagle Eye Networks** — グローバルクラウドNVR。

- **Avigilon Unity** — Motorola Solutions。政府・企業セキュリティ。

- **Genetec** — カナダ。セキュリティ + 入退室管理。

- **Spot AI** — AIファーストのNVR。自然言語クエリが核。

- **ハンファビジョン(Hanwha Vision)** — 韓国 + グローバル。AI Boxでオンデバイス分析。

- **Axis Communications** — カメラハードウェア + 分析モジュール。

核機能は3つ。(1)人・車両・ナンバープレート検出。(2)自然言語クエリ(「赤いシャツ」)。(3)異常行動アラート(転倒・走行・凶器)。

12章 · コンテンツライブラリ検索 — メディア企業のアーカイブ

放送局・OTT・スタジオはPB単位のアーカイブを保有する。人手でラベル付けしたメタデータが検索の限界だった。

- **GrayMeta** — メディアアーカイブ向けAIメタデータ。

- **Veritone** — 音声・顔・ロゴ・OCRを一括処理。広告・放送インデキシング。

- **AWS Elemental MediaTailor** — 広告挿入 + AIインデキシング。

- **Anvato**(Google Cloud) — 放送向けエンコーディング + メタデータ。

- **Iconik** — メディアアセット管理(MAM) + AIタグ付け。

- **Frame.io + Adobe AI** — 映像コラボレーション + 自動タグ付け。

- **Twelve Labs Enterprise** — メディア企業向け自然言語検索統合。

クエリ例: 「このシリーズで主人公2人が雨の中で対話するシーン」 → 字幕 + 視覚埋め込み + 物体検出の結合。

13章 · EC動画 — 商品検索の次のステップ

ECでは動画が静止画よりコンバージョン率が高いことが実証された。したがって動画を検索可能なアセットにする需要が大きい。

- **Syte** — 画像・動画の視覚検索。ファッション・ライフスタイル。

- **Vue.ai** — カタログ + AIタグ付け + バーチャルモデル。

- **YouCam / Perfect Corp.** — 化粧品の仮想メイク + 検索。

- **Pixyle.ai** — 自動ファッションタグ付け。

- **Coveo + 動画** — エンタープライズ検索。

- **Algolia + 画像** — 検索の上に視覚埋め込みを追加。

クエリ例: 「このフーディに似たデザインの動画」 → CLIP・SigLIP埋め込み + ファッション分類モデル。

14章 · ライブ放送モデレーション

ライブストリームには後処理時間がない。発生と同時にマーキング・遮断が必要。

- **Hive Moderation** — ライブの視覚 + 音声モデレーション。Twitch・Redditが採用。

- **AWS Rekognition Streaming** — Kinesis Video Streams + リアルタイム分析。

- **Sensity AI** — ディープフェイク検出。

- **Spectrum Labs** — 音声 + チャットの統合。

- **Two Hat / Microsoft Community Sift** — ゲーム・UGCプラットフォーム。

- **OpenAI Moderation API + 視覚** — フレーム + テキストの同時処理。

ライブは遅延が核。送出前遮断には200 ms以内に結果が必要。

15章 · YouTube · TikTok の内部システム

プラットフォーム自体の検索は別のスタックである。

- **YouTube Chapter Search** — 動画内のチャプターを検索結果として表示。自動生成 + 作者編集。

- **YouTube Search by Voice / Hum** — 音声で曲を検索。

- **TikTok For You + 動画理解** — 視聴パターン + コンテンツ埋め込みの結合。レコメンドが核。

- **Meta CLIP + Reels レコメンド** — Meta発のCLIP派生がReelsレコメンドで使用。

- **Instagram Reels 検索** — 字幕 + 視覚埋め込み + 音源。

プラットフォームは自社モデルを公開しないが、論文(Meta・Google)から構造が一部見える。核は字幕 + ビジュアル埋め込み + 視聴時間シグナルの結合。

16章 · 韓国の動画AI

韓国市場には独自の動画AIベンダーがいる。

- **NAVER Clova Vision API / Video OCR** — 映像内の文字検出 + インデキシング。ニュース・バラエティ字幕抽出に強い。

- **Kakao Enterprise Kakao i Video AI** — 映像分析API。コンテンツライブラリ・CCTVのいずれにも。

- **VESPER** — 韓国の動画AIスタートアップ。ライブ・録画の両方。

- **Hyperconnect / Azar** — ライブ動画モデレーション技術を保有。

- **Maum AI(MindsLab)** — 音声・映像統合AIプラットフォーム。

- **DeepBrain AI** — AIヒューマン + 動画生成。

- **Lunit** — 医療画像。動画検索ではないが、ビジュアルAIの一軸。

- **ハンファビジョン(Hanwha Vision)** — CCTVカメラ + AI Box。独自の検索分析。

- **Wisenet Wave** — ハンファビジョンのNVRソフトウェア。

- **Synamedia / Verimatrix Korea** — 放送 + DRM + インデキシング。

放送局側ではKBS・SBS・JTBCの独自アーカイブ検索システムが NAVER Cloud・自社モデル上で稼働する。韓国語OCRと音声認識精度はグローバル平均より優位。

17章 · 日本の動画AI

日本は放送局・ライセンス市場が大きく、ローカルソリューションが活発である。

- **DeepMind Tokyo 動画研究** — Veoの一部研究が東京拠点。

- **TBS NDL + AI 動画検索** — TBSのニュースデジタルライブラリ。AI字幕 + トピック検索。

- **NHK STRL(放送技術研究所)** — アーカイブ検索・自動字幕・AIアナウンサー。

- **Sony 動画理解AI** — カメラ + クラウド + AI。映画・スポーツ。

- **Fuji Soft + AI 動画検索** — 企業動画検索。

- **PFN(Preferred Networks)** — 自動運転・ロボット動画の学習インフラ。

- **rinna / NTT 動画モデル** — 日本語動画理解研究。

- **NEC / 富士通動画検索** — 政府・交通。

スポーツ(NPB・Jリーグ)中継 + 自動ハイライトが活発。NTTが通信インフラ上でライブ分析を提供。

18章 · ストレージコスト — 動画RAGの実コスト

動画検索のコストは埋め込みよりストレージ・帯域が大きい。

- **オブジェクトストレージ単価** — S3 Standard 0.023 USD/GB・月、GCS Standardほぼ同等、Azure Blob Hotほぼ同等、Cloudflare R2 0.015 USD/GB・月。1 PBは月15-23K USD。

- **低頻度アクセス** — S3 IA 0.0125、Glacier Flexible 0.0036、Deep Archive 0.00099。1 PBの Deep Archiveは月1000 USD。

- **egress** — S3 0.09 USD/GBが基準。1 TBのダウンロードは90 USD。R2とCloudflare Streamは0 egress。

- **動画分析単価** — 分あたり 0.05-0.15 USD。1万時間(60万分)分析で 30-90K USD。

- **ベクトル DB** — Pinecone マネージド標準は100万ベクトル月70 USDから。Turbopufferは1/10。

コスト削減戦略は3つ。(1)コールドデータを Glacierへ。(2)Cloudflare R2/Streamで egressを0に。(3)キーフレームのみ埋め込み、全フレームをデコードしない。

19章 · リファレンスアーキテクチャ — Twelve Labs + Pinecone + Cloudflare R2

2026年の最も一般的な動画検索スタックの形は次の通り。

[動画アップロード(Mux または Cloudflare Stream)]

[Cloudflare R2(原本保管、0 egress)]

+--> [Whisper / Deepgram(字幕生成)]

+--> [Twelve Labs Marengo(動画埋め込み、クリップ単位)]

+--> [SigLIP2 / Voyage Multimodal(キーフレーム埋め込み、追加シグナル)]

+--> [Roboflow / YOLO(物体検出、メタデータ)]

[Pinecone Multimodal Index]

[自然言語クエリ] -> [Twelve Labs Search または Pinecone Hybrid]

[結果: 動画ID + 開始/終了タイムスタンプ + 字幕 + 物体ラベル]

[Mux Player + 開始時刻ジャンプ + 字幕ハイライト]

このアーキテクチャのコスト構造は次の通り。100時間動画基準で R2 5 USD/月、Twelve Labs インデキシング 300 USD 一括、Pinecone 70 USD/月、字幕 50 USD 一括。初回インデキシングは一括コスト 350 USD、その後の運用は月75 USD程度。

20章 · プライバシー & コンプライアンス

動画は個人特定が最も強いデータクラスである。

- **顔認識** — EU AI Actで公共空間のリアルタイム顔認識が事実上禁止(2026-02 施行)。米国は一部州(イリノイ BIPA)で同意要求。

- **会議録画** — 一部州(米国カリフォルニア)で2者同意(two-party consent)が必要。

- **CCTV** — GDPR下で比例性・正当な利益の評価が必要。

- **ディープフェイク** — 韓国・日本・EUのいずれも合成コンテンツ表示義務を強化(2025-2026)。

- **自動モデレーション** — ライブモデレーションのfalse positiveは人手検収が必要。

企業が動画検索を導入する際は、(1)顔埋め込みの分離保存、(2)自動削除ポリシー(retention)、(3)同意フロー(consent flow)の3つを先に固める必要がある。

21章 · オープンソース動画検索スタック

自己ホストを好むなら次の組み合わせが標準。

- **埋め込み**: SigLIP2(Hugging Face) + Whisper large-v3

- **ベクトル DB**: Qdrant(マネージド)または Milvus(大規模)

- **物体検出**: Ultralytics YOLO v11

- **動画デコード**: FFmpeg + GPU加速

- **ワークフロー**: Apache Airflow または Prefect

- **ストレージ**: MinIO または SeaweedFS

- **プレイヤー**: Video.js または hls.js

コストはGPU 1-2枚 + ストレージがほぼ全て。1万時間インデキシング後の運用費が月2000-3000 USD水準で十分到達可能。

22章 · トレンド & 次のステップ — 2026年下半期展望

- **1時間コンテキストの普及** — Gemini・GPTのいずれも1時間以上の動画を1コンテキストへ。

- **エージェント + 動画** — 動画を入力に取るエージェント(ブラウザ操作・ロボット・自動運転デバッグ)が標準化。

- **オンデバイス動画AI** — iPhone Neural Engine・Snapdragon 8 Gen 4でCLIP派生がリアルタイム動作。

- **合成データ** — Sora・Veoで学習データ合成、実データ不足を解消。

- **時間粒度の細分化** — 1-2秒精度から100 ms単位へ。

- **音声 + 視覚の単一モデル** — GPT-4o系列が標準。

- **規制強化** — EU AI Act施行 + 韓国・日本の合成コンテンツラベリング義務化。

結論 — 動画はついに「検索可能なデータ」

2026年の動画はもはや観るためのものではなく、検索・要約・引用・学習のためのデータである。Twelve Labsから始めて、Pinecone Multimodalインデックス、Roboflow物体検出、Cloudflare R2 + Mux Asset Metadata、Whisper字幕、Google Video Intelligence・AWS Rekognition・Azure Video Indexerなどのハイパースケーラツール、Sora・Veo・Gemini・GPT-4o・Claudeなどのファウンデーションモデル、そして韓国(NAVER・Kakao・VESPER・ハンファビジョン)と日本(NHK STRL・Sony・NTT)のローカルベンダー — 本稿で扱った道具を適切に組み合わせれば、ペタバイト級の動画を自然言語1行で0.3秒以内に検索するシステムが現実に可能になる。

要は1点。「動画をデータとして扱う」という決断を下せば、その後はほぼすべてのシナリオが、埋め込み + ベクトル DB + 字幕 + 物体検出の組み合わせで解ける。会議・CCTV・コンテンツ・EC・ライブ — 同じインフラが5つの市場を同時に支える。

参考文献 — Twelve Labs · SigLIP · Pinecone · Mux 等の公式資料

- [Twelve Labs Documentation — Marengo & Pegasus](https://docs.twelvelabs.io/)

- [Twelve Labs API Reference](https://docs.twelvelabs.io/reference/api-reference)

- [Google SigLIP2 Paper (arXiv, 2024)](https://arxiv.org/abs/2502.14786)

- [OpenCLIP GitHub (LAION)](https://github.com/mlfoundations/open_clip)

- [Jina CLIP v2 Announcement](https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images/)

- [Cohere Embed v3 Multimodal](https://cohere.com/blog/multimodal-embed-3)

- [Voyage Multimodal 3](https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/)

- [Nomic Embed Multimodal](https://blog.nomic.ai/posts/nomic-embed-multimodal)

- [Google Cloud Video Intelligence API](https://cloud.google.com/video-intelligence/docs)

- [AWS Rekognition Video Developer Guide](https://docs.aws.amazon.com/rekognition/latest/dg/video.html)

- [Azure Video Indexer Documentation](https://learn.microsoft.com/en-us/azure/azure-video-indexer/)

- [Pinecone Multimodal Search Guide](https://docs.pinecone.io/guides/data/multimodal-search)

- [Weaviate multi2vec-clip Module](https://weaviate.io/developers/weaviate/modules/multi2vec-clip)

- [Qdrant Multimodal Search Tutorial](https://qdrant.tech/articles/multimodal-search/)

- [Milvus Multimodal Search](https://milvus.io/docs/multimodal_rag_with_milvus.md)

- [Roboflow Video Inference Docs](https://docs.roboflow.com/deploy/video-inference)

- [Ultralytics YOLOv11 Release](https://docs.ultralytics.com/models/yolo11/)

- [NVIDIA DeepStream SDK](https://developer.nvidia.com/deepstream-sdk)

- [Sora System Card (OpenAI, 2024)](https://openai.com/index/sora-system-card/)

- [Google Veo 2 Announcement](https://deepmind.google/technologies/veo/veo-2/)

- [Runway Gen-3 Alpha Documentation](https://help.runwayml.com/hc/en-us/articles/30586818553107)

- [Gemini 1.5 Pro Long Context Paper](https://arxiv.org/abs/2403.05530)

- [Mux Asset Metadata API](https://docs.mux.com/guides/video/add-custom-metadata-to-an-asset)

- [Cloudflare Stream + AI Captions](https://developers.cloudflare.com/stream/edit-videos/captions/)

- [JW Player AI Discovery](https://www.jwplayer.com/products/discovery-engagement/)

- [OpenAI Whisper Paper](https://arxiv.org/abs/2212.04356)

- [NHK STRL Research Annual Report](https://www.nhk.or.jp/strl/publica/annual/index.html)

- [NAVER Clova Video OCR API](https://www.ncloud.com/product/aiService/ocr)

- [EU AI Act Final Text (2024)](https://eur-lex.europa.eu/eli/reg/2024/1689/oj)