- Published on
2026년의 비디오는 더 이상 보기 위한 것이 아니라 검색·요약·인용을 위한 데이터다. 회의 녹화 수천 시간, CCTV 페타바이트, 콘텐츠 라이브러리의 장면 검색, 멀티모달 RAG가 같은 인프라를 공유한다. Twelve Labs의 Pegasus 1.2/Marengo 2.7, Google SigLIP2, Cohere Embed v3·Voyage Multimodal·Nomic Embed Multimodal 같은 임베딩, Pinecone Multimodal·Weaviate multi2vec-clip·Qdrant·Milvus 같은 벡터 DB, Google Video Intelligence·AWS Rekognition·Azure Video Indexer 같은 하이퍼스케일러 API, Roboflow Video Inference·YOLO·NVIDIA DeepStream 같은 객체 검출, Sora·Veo 2·Runway Gen-3·Gemini 2.0·GPT-4o·Claude 3.5·InternVL 같은 파운데이션 모델, Mux Asset Metadata·Cloudflare Stream·JW Player 같은 에셋 메타데이터, 회의·CCTV·콘텐츠·이커머스·라이브 같은 활용처, 한국·일본의 자국 사업자까지 한 흐름으로 묶어 정리한다.