AI 비디오 검색 & 인덱싱 2026 완벽 가이드 - Twelve Labs · Pinecone Multimodal · Roboflow Video Inference · Cloudflare Stream · Mux Asset Metadata · Google Video Intelligence · AWS Rekognition Video · Azure Video Indexer 심층 분석

프롤로그 — 비디오가 "검색 가능한 데이터"가 된 해

2025년 말부터 2026년 상반기까지, 기업의 비디오 데이터 처리 방식이 근본적으로 바뀌었다. 회의 녹화를 보관만 하는 단계에서, 자연어로 "지난 분기 가격 인상 논의가 있었던 회의 구간"을 찾는 단계로 넘어갔다. CCTV는 24시간 영상을 사람이 돌려보는 게 아니라 "빨간 셔츠를 입은 사람"이라는 한 줄 질의로 0.3초 안에 프레임을 가져오는 단계로 갔다. 콘텐츠 라이브러리는 메타데이터 태깅을 사람이 하던 시대에서 멀티모달 임베딩이 자동으로 장면 단위 의미 검색을 만드는 시대로 진입했다.

이 변화는 세 가지 기술의 동시 성숙으로 가능해졌다.

멀티모달 임베딩의 정확도 — OpenCLIP에서 시작해 Google SigLIP2가 2024년 말 ImageNet zero-shot 84% 선까지 끌어올렸고, Cohere Embed v3 Multimodal·Voyage Multimodal·Nomic Embed Multimodal·Jina CLIP v2가 한 줄짜리 텍스트와 한 장의 이미지·한 클립을 같은 공간에 놓는 작업을 비용 1/100 수준에서 가능하게 만들었다.
비디오 전용 파운데이션 모델의 등장 — Twelve Labs Pegasus 1.2(2024-11)·Marengo 2.7이 비디오 이해를 1차 시민으로 다루는 첫 상용 모델이 되었고, Google Gemini 1.5/2.0 Pro가 1시간 분량의 비디오를 한 컨텍스트에 넣을 수 있게 했으며, GPT-4o 비디오 API가 2024-12 공개되었다.
벡터 DB의 멀티모달 모드 — Pinecone Multimodal 모드, Weaviate multi2vec-clip 모듈, Qdrant + CLIP, Milvus가 텍스트와 이미지·비디오 임베딩을 같은 인덱스에서 다룬다.

이 글은 이 세 흐름이 만난 2026년 상반기의 지도를 그린다. Twelve Labs 같은 비디오 전용 API부터 하이퍼스케일러 비디오 AI, 벡터 DB의 멀티모달 모드, 객체 검출, 파운데이션 모델, 에셋 메타데이터, 실제 활용처, 자막·콘텐츠 라이선스, 한국·일본의 자국 사업자, 스토리지·비용까지 한 호흡으로 정리한다.

1장 · 왜 2026년에 비디오 검색이 중요한가

기업이 갖고 있는 비디오의 종류는 빠르게 늘었다.

회의 녹화 — Zoom·Google Meet·Microsoft Teams가 회의를 자동 녹화한다. 한 회사가 1년에 수천에서 수만 시간을 축적한다. Otter·Granola·Fathom·Read.ai가 이 위에서 검색·요약을 만든다.
CCTV·보안 카메라 — 클라우드 NVR(Verkada·Rhombus·Eagle Eye Networks)이 페타바이트급 영상을 클라우드로 보낸다.
콘텐츠 라이브러리 — 미디어 기업의 푸티지·VOD 아카이브가 PB 단위다.
유저 생성 콘텐츠 — TikTok·YouTube·인스타그램 릴스 같은 플랫폼이 매분 수백 시간을 받는다.
이커머스 비디오 — 제품 360도 영상, 언박싱, 리뷰가 검색 가능한 자산으로 바뀐다.
자율주행·로봇 데이터 — 차량·로봇이 매주 페타바이트를 만들고, 이 영상이 모델 학습과 디버깅의 원천이다.

이 모든 비디오의 공통 문제는 "본 적은 있는데 어디 있는지 모른다"는 점이다. 텍스트로는 grep이 가능하지만, 비디오는 그렇지 않다. 2026년의 비디오 검색은 이 격차를 메우는 인프라다.

활용 시나리오를 한 줄로 그리면 이런 식이다.

회의: "지난 분기 ACV 100K 이상 거래의 가격 협상 구간을 찾아줘."
보안: "어제 22시-23시 사이 흰색 SUV가 정문을 지난 시점을 보여줘."
콘텐츠: "이 시리즈에서 두 주인공이 비를 맞으며 대화하는 장면."
이커머스: "이 후드티와 비슷한 디자인의 제품 비디오."
라이브: "방송에서 욕설·자극적 발언이 발생한 즉시 마킹."

이 다섯 시나리오가 같은 인프라(임베딩 + 벡터 DB + 검출)를 쓴다.

2장 · Twelve Labs — 비디오 전용 파운데이션 모델의 선두

Twelve Labs는 2021년 한국계 창업자(이재성)가 미국에서 시작한 회사로, 비디오 이해를 1차 시민으로 다루는 첫 상용 모델을 만들었다.

Marengo 2.7 — 임베딩 모델. 비디오·이미지·텍스트·오디오를 같은 공간에 놓는다. 2024-09 공개.
Pegasus 1.2 — 생성 모델. 비디오를 입력으로 받아 요약·QA·캡션을 만든다. 2024-11 공개.
Marengo Search API — 자연어 질의 → 비디오 클립 시간대 매칭. 검색 결과는 시작·종료 타임스탬프와 신뢰도.
Embed API — 비디오를 시각·청각·텍스트의 멀티모달 임베딩으로 변환. 1024차원 벡터.
Generate API — 비디오 위에서 자유 질의, 요약, 챕터 구분.

요금은 분 단위 인덱싱과 토큰 단위 생성을 섞는다. 인덱싱은 분당 0.05 USD대(2026 기준), 생성은 백만 토큰당 1.5 USD 수준이다. 무료 한도는 월 10시간.

경쟁사 대비 강점은 영상 길이에 대한 견고함이다. 1분짜리 클립과 1시간짜리 회의 녹화를 같은 API로 다루며, 시간대 단위 정밀도가 1-2초 안에 들어온다. 약점은 한국어·일본어 자막 데이터가 영어만큼 풍부하지 않은 경우 fallback이 필요하다는 점.

대안으로 떠오르는 회사들도 같은 자리에 있다.

Cloudglue — 2025년에 등장한 신생. 콘텐츠 모더레이션과 광고 매칭 중심.
VideoDB — 인덱싱·스트리밍·생성을 묶은 매니지드 비디오 인프라. 인덱스 + 플레이어 + RAG가 한 SDK.
Mixpeek — 멀티모달 RAG 플랫폼. 이미지·비디오·문서를 한 인덱스에 묶음.

3장 · 멀티모달 임베딩 모델 — CLIP에서 SigLIP2까지

비디오 검색의 심장은 임베딩이다. 텍스트 한 줄과 비디오 한 프레임을 같은 벡터 공간에 놓아야 자연어 검색이 가능하다.

OpenAI CLIP(2021) — ViT-B/32, ViT-L/14가 사실상 표준이었다. 영문 4억 쌍 학습. 한국어 약함.
OpenCLIP(LAION) — CLIP을 LAION-5B에서 재학습한 오픈 모델. ViT-G/14가 zero-shot ImageNet 80% 선.
Google SigLIP(2023) — softmax 대신 sigmoid loss로 학습. 같은 데이터에서 더 안정적인 정밀도-재현율.
Google SigLIP2(2024-12) — 다국어 학습. 한국어·일본어 zero-shot이 크게 개선되었고, ImageNet 84% 근처.
Jina CLIP v2(2024) — 다국어 + 긴 텍스트(8K 토큰) 지원. 임베딩 길이를 64-1024로 잘라낼 수 있는 Matryoshka 학습.
BGE Multimodal(BAAI) — 중국 BAAI의 오픈 모델. CN/EN 동시 학습.
Cohere Embed v3 Multimodal(2024-10) — 이미지·텍스트 동일 공간. API 형태. 1024차원.
Voyage Multimodal(voyage-multimodal-3, 2024-11) — 텍스트·이미지·표·차트 동일 공간. RAG 정확도에 강점.
Nomic Embed Multimodal(2024-12) — 오픈 가중치 + 호스팅 API. 이미지·텍스트 + 한국어 일부.
VideoCLIP/X-CLIP/VideoLLM — 비디오 전용 변형. 프레임 시퀀스를 시간 축까지 임베딩.

선택 기준은 단순하다. 한국어·일본어가 필요하면 SigLIP2 또는 Jina CLIP v2. 표·차트가 섞인 회의 녹화면 Voyage Multimodal. 100% 오픈이 필요하면 Nomic Embed Multimodal. 영문 일반은 OpenCLIP ViT-L/14가 여전히 가성비 최고.

4장 · 하이퍼스케일러 비디오 AI API

전용 API 외에도 클라우드 3사 모두 비디오 AI를 제공한다.

Google Cloud Video Intelligence API — 라벨 감지, 샷 변경, 객체 추적, OCR, 명시적 콘텐츠, 사람 감지. 분당 0.10 USD대.
AWS Rekognition Video — 얼굴 인식, 객체 감지, 텍스트, 부적절 콘텐츠, 셀러브리티 인식. 라이브 스트림도 지원.
Azure Video Indexer(구 Video Analyzer for Media) — 얼굴·감정·OCR·키프레임·음성 인식·번역·토픽까지 통합. 30개 이상 언어 자동 자막.
AWS Bedrock + Anthropic Claude 3.5 Sonnet — 프레임 추출 후 비전 모델로 자유 질의.

선택 기준.

이미 GCP를 쓰면 Video Intelligence가 자연스럽다. 라벨 감지 정확도가 가장 균질.
라이브 스트림 모더레이션이 필요하면 Rekognition Video.
자동 자막 + 다국어 + 인사이트 UI까지 한 곳에서 받고 싶으면 Azure Video Indexer가 가장 완성도가 높다.
자유 질의가 필요하면 Bedrock + Claude/Nova.

5장 · 벡터 DB의 멀티모달 모드

임베딩을 만들면 어딘가 저장하고 검색해야 한다. 2026년에는 모든 주요 벡터 DB가 멀티모달 인덱스를 1급 시민으로 다룬다.

Pinecone(2025-09 Multimodal 모드) — 텍스트·이미지·비디오 임베딩을 같은 인덱스에 저장. 매니지드 + 자동 인덱싱.
Weaviate(multi2vec-clip 모듈) — CLIP·SigLIP를 모듈로 붙임. 데이터 입력 시 자동 임베딩.
Qdrant — 컬렉션마다 페이로드 + 벡터. CLIP·SigLIP 외부 임베딩과 자유롭게 결합.
Milvus / Zilliz Cloud — 대용량(수십억 벡터). 멀티 벡터 필드로 텍스트·이미지·오디오를 한 도큐먼트에.
Chroma — 로컬 개발 + 작은 규모. 멀티모달 컬렉션 지원.
pgvector + HNSW — Postgres 확장. 작은 규모에서 가성비.
Turbopuffer — 2024년에 떠오른 매니지드 벡터 검색. 객체 스토리지 기반 가격이 1/10.

규모에 따른 가이드는 단순하다. 100만 벡터 이하면 Chroma/pgvector. 1억까지는 Pinecone/Weaviate. 그 이상은 Milvus·Turbopuffer.

6장 · 객체 검출 & 활동 인식

비디오의 일부 문제는 임베딩보다 "프레임마다 무엇이 있는지"라는 분류 문제다.

Roboflow Video Inference + Workflows — 비디오를 입력으로 받아 프레임마다 객체 검출 → 후처리 → 알람. 노코드 워크플로우.
Ultralytics YOLO(v8·v11) — 실시간 객체 검출의 사실상 표준. 30 FPS 이상에서 80+ 클래스.
Detectron2 / MMDetection — Meta·OpenMMLab의 학술용. 정확도 우선.
OpenCV + MediaPipe — 얼굴·포즈·손 검출의 클라이언트 사이드 표준.
NVIDIA DeepStream + Metropolis — GPU 가속 비디오 파이프라인. CCTV 영상 수백 채널을 한 박스에서.
Hailo / Coral Edge TPU — 엣지 디바이스에서 객체 검출. CCTV·로봇 현장.

활동 인식(움직임 기반 라벨)은 별도 모델이 필요하다. SlowFast·VideoMAE·TimeSformer 같은 시간 축 모델이 표준이지만, 실무에서는 키프레임 + CLIP 임베딩으로 우회하는 경우가 흔하다.

7장 · 파운데이션 비디오 모델 2026 — Sora · Veo · Runway · Gemini · GPT-4o · Claude

비디오 생성과 이해는 같은 모델 안에서 만난다.

Sora(OpenAI, 2024-12 ChatGPT Plus/Pro 공개) — 생성 + 이해. 최대 1분 1080p. API는 2026년 초 제한적 공개.
Veo 2(Google DeepMind, 2024-12) — 영화급 카메라 워크 + 정확한 물리. Google Cloud Vertex AI 통합.
Runway Gen-3 Alpha + Aleph(2024-2025) — Aleph는 비디오 편집 모드. 생성 + 마스킹.
Gemini 1.5/2.0 Pro 비디오 — 1시간 분량 비디오를 한 컨텍스트. 자연어 QA·요약.
GPT-4o 비디오 API(2024-12) — 프레임 + 음성 동시 처리. 실시간 음성 + 비디오.
Claude 3.5/4 Sonnet + 비전 프레임 — 비디오 프레임 추출 후 한 번에 분석. 도구 호출과 결합 강함.
InternVL 2/3·MiniCPM-V(오픈) — 자체 호스팅 가능. 한·일 텍스트 OCR 강함.
Pika Labs·Luma Dream Machine·Kling(중국 Kuaishou)·Hailuo MiniMax — 생성 특화.

이해(검색·요약) 목적이면 Twelve Labs Pegasus + Gemini 2.0 Pro가 표준. 생성이 목적이면 Sora·Veo·Runway·Kling·Hailuo가 각 시장을 분점한다.

8장 · 비디오 에셋 메타데이터 — Mux · Cloudflare Stream · JW Player

생성·이해와 별개로, 비디오를 실제로 스트리밍·관리하는 인프라가 있다.

Mux(2017-) — 분석·인코딩·라이브 + Asset Metadata. 자동 감지 + 커스텀 키-값 메타. Mux Data가 시청 품질 분석.
Cloudflare Stream — 비디오 인코딩 + 글로벌 CDN + AI 자막. R2 객체 스토리지와 같은 네트워크에서 0 egress.
JW Player + AI Discovery — 비디오 인덱싱 + 자동 토픽 분류. CMS 사업자에 강함.
Bitmovin — 미디어 기업용 인코더 + 분석. 4K HDR 최적화.
api.video — 프랑스 발 단순 API. 인코딩·스트리밍·자막을 한 호출.
Vimeo OTT / Brightcove — 엔터프라이즈 OTT.
AWS MediaConvert / Elemental — AWS 네이티브 인코딩.

키워드는 두 가지. (1) Asset Metadata = 자유 키-값으로 비디오에 태그를 붙여서 검색 가능하게. (2) AI 자막 = 영상 업로드 시 자동으로 영어·다국어 자막 + 챕터 + 키워드. Cloudflare Stream과 Mux 모두 이 흐름을 따른다.

9장 · 자막·캡션 인프라 — Rev · 3Play Media · Whisper

검색 가능한 비디오의 1순위 신호는 자막이다. 음성 → 텍스트 → 임베딩이 가장 비용 효율적인 경로.

OpenAI Whisper(v3·large-v3-turbo) — 오픈 가중치. 다국어 100개+ 지원.
AssemblyAI — 화자 분리 + 감정 분석 + 자동 키워드.
Deepgram — 라이브 + 배치 모두. 한국어 정확도 개선이 빠름.
Rev.com — 사람 검수 + AI. 의료·법률 가능.
3Play Media — 미국 미디어 기업의 표준. 캡션 + 오디오 디스크립션.
Verbit — 교육·법률 시장.
Otter / Granola / Fathom / Read.ai — 회의 녹화 자동 자막 + 요약. Otter·Granola는 자체 모델, Fathom·Read는 외부 모델 위에서 워크플로우.

대량 비디오 + 비용 우선이면 Whisper + 자체 호스팅이 표준이고, 정확도 우선이면 Rev·3Play 사람 검수 라인이다.

10장 · 회의 검색 — 가장 큰 시장

기업 내부 비디오의 절반 이상이 회의다. 따라서 회의 검색이 가장 큰 수요다.

Otter — 자동 녹화 + 검색 + 액션 아이템 추출. 2026년 사실상 표준.
Granola(2024-) — Mac 네이티브. 사이드바에 노트가 자동 작성.
Fathom — Zoom·Meet 회의 자동 녹화 + 클립 공유. CRM 연결.
Read.ai — 회의 효율 점수 + 자동 요약.
Microsoft Teams Premium + Copilot — Teams 내부 통합. 검색이 Teams 검색과 묶임.
Zoom AI Companion — Zoom 내부.
Google Meet + Gemini — Meet 회의록 자동 작성.
Tactiq / Sembly — 다중 플랫폼 회의록.
Avoma — 영업 회의 특화.

질의 예: "지난 분기 가격 협상이 있었던 회의 구간." → 자막 + 화자 임베딩으로 매칭. 결과는 비디오 타임스탬프 + 발화자 + 일부 자막.

11장 · 보안 카메라 검색 — 영상에서 사람·차량 찾기

CCTV·보안 카메라의 본질은 "사람이 24시간 보고 있을 수 없는 영상"이다. 자연어 검색이 노동 시간을 1/100로 줄인다.

Verkada — 클라우드 NVR + AI 검색. "흰 셔츠 + 정문" 같은 질의 가능.
Rhombus — 미국 중견 빌딩 표준.
Eagle Eye Networks — 글로벌 클라우드 NVR.
Avigilon Unity — Motorola Solutions. 정부·기업 보안.
Genetec — 캐나다. 보안 + 출입 통제.
Spot AI — AI 우선 NVR. 자연어 질의가 핵심.
한화비전(Hanwha Vision) — 국내 + 글로벌. AI Box로 자체 분석.
Axis Communications — 카메라 하드웨어 + 분석 모듈.

핵심 기능은 세 가지. (1) 사람·차량·번호판 검출. (2) 자연어 질의("빨간 셔츠"). (3) 이상 행동 알람(쓰러짐·뛰기·둔기).

12장 · 콘텐츠 라이브러리 검색 — 미디어 기업의 아카이브

방송국·OTT·스튜디오는 페타바이트급 아카이브를 갖고 있다. 사람이 라벨을 단 메타데이터가 검색의 한계였다.

GrayMeta — 미디어 아카이브 AI 메타데이터.
Veritone — 음성·얼굴·로고·OCR을 한 번에. 광고·방송 인덱싱.
AWS Elemental MediaTailor — 광고 삽입 + AI 인덱싱.
Anvato(Google Cloud) — 방송용 인코딩 + 메타데이터.
Iconik — 미디어 자산 관리(MAM) + AI 태깅.
Frame.io + Adobe AI — 영상 협업 + 자동 태깅.
Twelve Labs Enterprise — 미디어 기업용 자연어 검색 통합.

질의 예: "이 시리즈에서 두 주인공이 비를 맞으며 대화하는 장면." → 자막 + 시각 임베딩 + 객체 검출 결합.

13장 · 이커머스 비디오 — 제품 검색의 다음 단계

이커머스에서 비디오는 정적 사진보다 전환율이 높다는 게 검증되었다. 따라서 비디오를 검색 가능한 자산으로 만드는 수요가 크다.

Syte — 이미지·비디오 시각 검색. 패션·라이프스타일.
Vue.ai — 카탈로그 + AI 태깅 + 가상 모델.
YouCam / Perfect Corp. — 화장품 가상 메이크업 + 검색.
Pixyle.ai — 자동 패션 태깅.
Coveo + 비디오 — 엔터프라이즈 검색.
Algolia + 이미지 — 검색 위에 시각 임베딩 추가.

질의 예: "이 후드티와 비슷한 디자인의 영상." → CLIP·SigLIP 임베딩 + 패션 분류 모델.

14장 · 라이브 방송 모더레이션

라이브 스트리밍은 후처리 시간이 없다. 발생 즉시 마킹·차단이 필요하다.

Hive Moderation — 라이브 비전 + 음성 모더레이션. Twitch·Reddit가 사용.
AWS Rekognition Streaming — Kinesis Video Streams + 실시간 분석.
Sensity AI — 딥페이크 검출.
Spectrum Labs — 음성 + 채팅 통합.
Two Hat / Microsoft Community Sift — 게임·UGC 플랫폼.
OpenAI Moderation API + 비전 — 프레임 + 텍스트 동시.

라이브는 지연 시간이 핵심이다. 200 ms 안에 결과가 와야 송출 전 차단이 가능하다.

15장 · YouTube · TikTok 내부 시스템

플랫폼 자체의 검색은 별도의 기술 스택이다.

YouTube Chapter Search — 동영상 안의 챕터를 검색 결과로 노출. 자동 생성 + 작성자 수정.
YouTube Search by Voice / Hum — 음성으로 노래 찾기.
TikTok For You + 비디오 이해 — 시청 패턴 + 콘텐츠 임베딩 결합. 추천이 핵심.
Meta CLIP + Reels 추천 — Meta 발 CLIP 변형이 Reels 추천에 사용.
Instagram Reels 검색 — 자막 + 시각 임베딩 + 음원.

플랫폼들은 자체 모델을 공개하지 않지만, 논문(Meta·Google)에서 일부 구조가 드러난다. 핵심은 자막 + 비주얼 임베딩 + 시청 시간 시그널의 결합.

16장 · 한국 비디오 AI

한국 시장에는 자국 비디오 AI 사업자들이 있다.

NAVER Clova Vision API / Video OCR — 영상에서 문자 검출 + 인덱싱. 뉴스·예능 자막 추출에 강점.
카카오엔터프라이즈 Kakao i Video AI — 영상 분석 API. 콘텐츠 라이브러리·CCTV 모두.
VESPER(벽외) — 한국 비디오 AI 스타트업. 라이브·녹화 모두.
Hyperconnect / Azar — 라이브 비디오 모더레이션 기술 보유.
마인즈랩(Maum AI) — 음성·영상 통합 AI 플랫폼.
딥브레인AI(DeepBrain AI) — AI 휴먼 + 비디오 생성.
루닛(Lunit) — 의료 영상. 비디오 검색은 아니지만 비주얼 AI의 한 축.
한화비전(Hanwha Vision) — CCTV 카메라 + AI Box. 자체 검색 분석.
Wisenet Wave — 한화비전 NVR 소프트웨어.
Synamedia / Verimatrix Korea — 방송 + DRM + 인덱싱.

방송사 측에서는 KBS·SBS·JTBC의 자체 아카이브 검색 시스템이 NAVER Cloud·자체 모델 위에서 돌아간다. 한국어 OCR과 음성 인식 정확도가 글로벌 평균보다 우위.

17장 · 일본 비디오 AI

일본은 방송사·라이선스 시장이 크고, 자국 솔루션이 활발하다.

DeepMind Tokyo 비디오 연구 — Veo의 일부 연구가 도쿄 거점.
TBS NDL + AI 비디오 검색 — TBS의 뉴스 디지털 라이브러리. AI 자막 + 토픽 검색.
NHK STRL(방송기술연구소) — 아카이브 검색·자동 자막·AI 아나운서.
Sony 비디오 이해 AI — 카메라 + 클라우드 + AI. 영화·스포츠.
Fuji Soft + AI 비디오 검색 — 기업 비디오 검색.
PFN(Preferred Networks) — 자율주행·로봇 비디오 학습 인프라.
rinna / NTT 비디오 모델 — 일본어 비디오 이해 연구.
NEC / 후지쯔 비디오 검색 — 정부·교통.

스포츠(NPB·J리그) 중계 + 자동 하이라이트가 활발하다. NTT가 통신 인프라 위에서 라이브 분석을 제공한다.

18장 · 스토리지 비용 — 비디오 RAG의 진짜 비용

비디오 검색의 비용은 임베딩보다 스토리지·에그레스가 더 크다.

객체 스토리지 단가 — S3 Standard 0.023 USD/GB·월, GCS Standard 비슷, Azure Blob Hot 비슷, Cloudflare R2 0.015 USD/GB·월. 1 PB는 월 1.5만-2.3만 USD.
인프리퀀트 액세스 — S3 IA 0.0125, Glacier Flexible 0.0036, Deep Archive 0.00099. 1 PB Deep Archive는 월 1000 USD.
에그레스 — S3 0.09 USD/GB가 표준. 1 TB 다운로드는 90 USD. R2와 Cloudflare Stream은 0 egress.
비디오 분석 단가 — 분당 0.05-0.15 USD 수준. 1만 시간(60만 분) 분석은 3-9만 USD.
벡터 DB — Pinecone 매니지드 표준은 1M 벡터·월 70 USD부터. Turbopuffer는 1/10.

비용 절감 전략은 세 가지. (1) 콜드 데이터 Glacier 이전. (2) Cloudflare R2/Stream으로 egress 0. (3) 키프레임만 임베딩, 전체 프레임은 디코드 안 함.

19장 · 실전 아키텍처 — Twelve Labs + Pinecone + Cloudflare R2

가장 흔한 2026년 비디오 검색 스택의 모양은 이렇다.

[비디오 업로드 (Mux 또는 Cloudflare Stream)]
         |
         v
[Cloudflare R2 (원본 보관, 0 egress)]
         |
         +--> [Whisper / Deepgram (자막 생성)]
         |
         +--> [Twelve Labs Marengo (비디오 임베딩, 클립 단위)]
         |
         +--> [SigLIP2 / Voyage Multimodal (키프레임 임베딩, 추가 시그널)]
         |
         +--> [Roboflow / YOLO (객체 검출, 메타데이터)]
         |
         v
[Pinecone Multimodal Index]
         |
         v
[자연어 질의] -> [Twelve Labs Search 또는 Pinecone Hybrid]
         |
         v
[결과: 비디오 ID + 시작/종료 타임스탬프 + 자막 + 객체 라벨]
         |
         v
[Mux Player + 시작 시각 점프 + 자막 하이라이트]

이 아키텍처의 비용 구조는 다음과 같다. 100시간 비디오 기준 R2 5 USD/월, Twelve Labs 인덱싱 300 USD 일시, Pinecone 70 USD/월, 자막 50 USD 일시. 최초 인덱싱은 일시 비용 350 USD, 그 뒤 운영은 월 75 USD 수준.

20장 · 프라이버시 & 컴플라이언스

비디오는 개인을 식별할 수 있는 가장 강한 데이터다.

얼굴 인식 — EU AI Act에서 공공 장소 실시간 얼굴 인식이 사실상 금지(2026-02 시행). 미국은 일부 주(일리노이 BIPA)에서 동의 요구.
회의 녹화 — 일부 주(미국 캘리포니아)에서 2자 동의(two-party consent) 필요.
CCTV — GDPR 하에서 비례성·정당한 이익 평가 필요.
딥페이크 — 한국·일본·EU 모두 합성 콘텐츠 표시 의무 강화(2025-2026).
자동 모더레이션 — 라이브 모더레이션은 false positive를 사람이 검수.

기업이 비디오 검색을 도입할 때는 (1) 얼굴 임베딩 분리 저장, (2) 자동 삭제 정책(retention), (3) 동의 흐름(consent flow) 세 가지를 먼저 잡아야 한다.

21장 · 오픈소스 비디오 검색 스택

자체 호스팅을 선호하면 다음 조합이 표준이다.

임베딩: SigLIP2(Hugging Face) + Whisper large-v3
벡터 DB: Qdrant(매니지드) 또는 Milvus(대용량)
객체 검출: Ultralytics YOLO v11
비디오 디코딩: FFmpeg + GPU 가속
워크플로우: Apache Airflow 또는 Prefect
스토리지: MinIO 또는 SeaweedFS
플레이어: Video.js 또는 hls.js

비용은 GPU 1-2장 + 스토리지가 거의 전부다. 1만 시간 인덱싱 후 운영비가 월 2000-3000 USD 수준에서 충분히 가능하다.

22장 · 트렌드 & 다음 단계 — 2026 하반기 전망

1시간 컨텍스트의 보편화 — Gemini·GPT 모두 1시간 이상 비디오를 한 컨텍스트에 넣는다.
에이전트 + 비디오 — 비디오를 입력으로 받는 에이전트(브라우저 사용·로봇·자율주행 디버그)가 표준화.
온디바이스 비디오 AI — iPhone Neural Engine·Snapdragon 8 Gen 4에서 CLIP 변형이 실시간 동작.
합성 데이터 — Sora·Veo로 학습 데이터 합성, 실 데이터 부족 해결.
세분화된 시간 — 1-2초 단위 정밀도에서 100 ms 단위로 진화.
음성 + 시각의 단일 모델 — GPT-4o 류가 표준.
법규 강화 — EU AI Act 시행 + 한국·일본 합성 콘텐츠 라벨링 의무.

결론 — 비디오는 이제 "검색 가능한 데이터"

2026년의 비디오는 보기 위한 것이 아니라 검색·요약·인용·학습을 위한 데이터다. Twelve Labs로 시작해서 Pinecone Multimodal 인덱스, Roboflow 객체 검출, Cloudflare R2 + Mux Asset Metadata, Whisper 자막, Google Video Intelligence·AWS Rekognition·Azure Video Indexer 같은 하이퍼스케일러 도구, Sora·Veo·Gemini·GPT-4o·Claude 같은 파운데이션 모델, 자국 사업자(한국 NAVER·카카오·VESPER·한화비전, 일본 NHK STRL·Sony·NTT)까지 — 이 글에서 다룬 도구들을 적절히 묶으면, 페타바이트급 비디오를 자연어 한 줄로 0.3초 안에 검색하는 시스템이 실현 가능하다.

핵심은 한 가지다. "비디오를 데이터로 다루겠다"는 결정을 하고 나면, 그 다음은 임베딩 + 벡터 DB + 자막 + 객체 검출의 조합으로 거의 모든 시나리오가 해결된다. 회의·CCTV·콘텐츠·이커머스·라이브 — 같은 인프라가 다섯 시장을 동시에 받친다.