Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — Sora 프리뷰에서 Sora 2 앱까지, 2년의 압축

2024년 2월 15일, OpenAI가 Sora 프리뷰를 공개했을 때 영상 업계가 멈춰섰다. 60초짜리 1080p 클립이 "프롬프트만으로" 나왔다는 사실이 충격이었다. 하지만 그 Sora는 1년이 지나도록 일반에게 풀리지 않았다.

그리고 2025년 9월 30일, OpenAI는 Sora 2를 발표하고 동시에 iOS 전용 Sora 앱을 출시했다. 4K · 25초 · 네이티브 오디오 · 카메오(Cameos, 본인 얼굴/목소리를 모델에 등록) · 소셜 피드까지. ChatGPT Pro 구독자에게는 별도 사용량이 함께 따라왔다. 동시에 Google은 Veo 2(2024-12), Veo 3(2025-05 I/O) 순으로 Gemini App과 Vertex AI에 통합했고, Runway는 Gen-3 Alpha를 거쳐 Gen-4(2025-03)로 영화 제작 워크플로로 깊이 들어갔다.

그 사이 중국 진영에서는 Kuaishou Kling, MiniMax Hailuo, Tencent Hunyuan Video, Alibaba Wan 2.1이 빠르게 격차를 좁혔다. 그리고 오픈소스 진영 — Genmo Mochi 1(2024-10, Apache 2.0), Lightricks LTX-Video(2024-11, 실시간 2B), CogVideoX(Tsinghua) — 가 ComfyUI 워크플로 위에 얹히면서 RTX 4090 한 장으로도 cinematic 영상이 가능해졌다.

이 글은 그 두 해의 압축을 — 클로즈드와 오픈, 가격과 라이선스, 그리고 한국·일본 시장의 사정까지 — 한 호흡으로 정리한다.

1장 · 텍스트, 이미지, 비디오 — 세 입력의 분기

AI 비디오 모델을 고를 때 가장 먼저 묻는 질문은 "무엇을 입력으로 받느냐"이다. 세 갈래가 있다.

- **Text-to-video (T2V)** — 프롬프트만으로 새 클립을 만든다. Sora 2 · Veo 3 · Runway Gen-4 · Kling · Hailuo · Hunyuan · Wan · Mochi · CogVideoX가 모두 지원한다. 가장 보편적이지만 통제가 어렵다.

- **Image-to-video (I2V)** — 정지 이미지(스토리보드, 캐릭터 시트, 제품 사진)를 첫 프레임으로 받아 움직임을 만든다. Runway Gen-4, Luma Dream Machine, Pika, Kling, Hailuo, LTX-Video가 강하다. 캐릭터 일관성과 브랜드 자산 보존이 핵심이다.

- **Video-to-video (V2V)** — 기존 영상을 받아 스타일/모션/시점을 바꾼다. Runway의 Gen-3 Video-to-Video, Pika의 Pikaffects, ComfyUI의 AnimateDiff 워크플로가 여기 해당한다.

대부분의 프로 워크플로는 셋을 섞는다. T2V로 초안 → I2V로 캐릭터 고정 → V2V로 스타일 통일 → 립싱크 도구로 입모양 동기화. 그리고 마지막에 Premiere/DaVinci로 잘라 붙인다.

2장 · OpenAI Sora 2 — 4K · 25초 · 카메오 · iOS 앱

2025-09-30, OpenAI가 Sora 2를 발표하면서 동시에 두 가지를 풀었다. 모델과 앱이다.

- **모델 측면** — 4K 출력, 최대 25초 클립, 네이티브 오디오 동기화(대사 · 효과음 · 환경음 모두 비디오와 함께 생성), 물리·중력·접촉의 일관성이 Sora 1 프리뷰 대비 크게 개선되었다.

- **앱 측면** — iOS 전용 Sora 앱이 동시에 공개되었다. TikTok 같은 세로 피드, "Cameos"라는 본인-얼굴 등록 기능(보안을 위해 라이브 셀카로 등록), 친구 카메오를 비디오에 끼워 넣는 협업 기능까지.

- **가격** — ChatGPT Pro(`$200/month`) 구독에 일정 사용량 포함. 추가 사용량은 크레딧 기반. ChatGPT Plus(`$20/month`)에도 제한된 Sora 2 접근이 따라온다.

- **워터마크** — 모든 출력에 가시적 Sora 로고 워터마크와 C2PA 메타데이터가 박힌다. Pro 플랜만 워터마크 제거가 가능하지만, 메타데이터 자체는 남는다.

- **API** — 2025-11 Sora 2 API가 베타로 풀렸다. 일부 파트너에게만 접근권이 있다.

Sora 2의 진짜 차별점은 두 가지다. 첫째, 다른 모델이 무음 비디오를 만들고 별도로 ElevenLabs/Suno로 사운드를 붙이는 것과 달리, Sora 2는 네이티브로 동기화된 오디오를 함께 출력한다. 둘째, Cameos 기능은 "딥페이크 합의 모델"을 사실상 표준화했다 — 본인이 명시적으로 등록한 얼굴만, 그것도 친구에게 공유 권한을 줘야만 사용 가능하다.

3장 · Google Veo 2 · Veo 3 — Gemini와 Vertex AI의 두 채널

Google의 비디오 모델은 Veo 시리즈로 통합되었다.

- **Veo 2** — 2024-12, Vertex AI Studio와 VideoFX(공개 베타)에 등장. 4K, 최대 2분, 시네마틱 카메라 워크 명령(`dolly`, `crane`, `zoom`)을 자연어로 받는다.

- **Veo 3** — 2025-05 Google I/O에서 발표. Veo 2의 단점이었던 무음 출력을 해결 — 네이티브 다이얼로그, 효과음, 환경음을 함께 생성한다. Sora 2와 사실상 같은 시기에 같은 방향으로 움직였다.

- **접근 채널** — Gemini App(Gemini Advanced/Ultra 구독자), Vertex AI(엔터프라이즈), 그리고 Flow(Google의 영화 제작 전용 도구).

- **Flow** — 2025-05 I/O에서 함께 공개. 씬 단위 컨시스턴시, 캐릭터 일관성, 카메라 컨트롤을 영화 제작자용 UI로 묶었다.

Veo 3의 강점은 Google 인프라 — DeepMind의 음성 모델과 결합한 네이티브 사운드 — 와 엔터프라이즈 채널(Vertex AI)이다. Sora 2가 소셜 피드 중심이라면, Veo 3은 제작 파이프라인에 더 가깝다.

4장 · Runway Gen-4 — 영화 제작 워크플로의 침투

Runway의 길은 처음부터 명확했다. "영상 편집 회사가 만드는 AI 비디오 도구."

- **Gen-1**(2023-02) — Video-to-Video, 스타일 트랜스퍼만 가능했다.

- **Gen-2**(2023-06) — Text-to-Video, Image-to-Video로 확장.

- **Gen-3 Alpha**(2024-06) — 영상 품질이 본격 cinematic 수준으로.

- **Gen-3 Alpha Turbo**(2024-07) — 7배 빨라진 추론, 가격 절반.

- **Gen-4**(2025-03) — **레퍼런스 이미지(References)** 기능과 **멀티샷 컨시스턴시**가 핵심. 동일 캐릭터를 여러 샷에 걸쳐 유지하고, 같은 룩/조명을 시리즈로 이어간다.

Gen-4의 References 기능은 영화 제작자가 가장 원하던 기능이다. 캐릭터 시트, 의상 레퍼런스, 환경 무드보드를 입력으로 넣으면 그 일관성을 유지한 채 여러 샷을 만들 수 있다.

- **가격** — 크레딧 기반. Standard(`$15/month`, 625 credits), Pro(`$35/month`), Unlimited(`$95/month`) 등. Gen-4는 일반적으로 클립당 더 비싸다.

- **Act-One**(2024-10) — 얼굴 연기 캡처를 캐릭터에 매핑하는 기능. 배우 연기를 디지털 캐릭터에 옮긴다.

5장 · Pika 2.2 · 2.5 — Pikadditions · Pikaffects · Pikaframes

Pika의 전략은 "기능명을 외울 수 있게" 만드는 것이다.

- **Pika 1.0**(2023-12) — 첫 GA, 짧은 클립 위주.

- **Pika 1.5**(2024-10) — Pikaffects(폭발/녹기/짜내기 같은 비현실 효과)와 Pika Scenes(여러 캐릭터 합성) 도입.

- **Pika 2.0**(2024-12) — 신뢰성 있는 캐릭터/오브젝트 합성.

- **Pika 2.2**(2025-02) — **Pikaframes**(첫 프레임과 마지막 프레임을 받아 사이를 채우는 transition 모드)와 10초 클립 지원.

- **Pika 2.5**(2025년 후반) — **Pikadditions**(기존 영상에 새 오브젝트 삽입), 화질 향상.

Pika의 매력은 영화적 일관성보다 "한 줄로 설명할 수 있는 효과"에 있다. Pikaffects는 광고·소셜 콘텐츠 제작자에게 매우 강력하다.

- **가격** — Basic(무료, 워터마크), Standard(`$8/month`), Pro(`$28/month`), Fancy(`$58/month`).

6장 · Luma Dream Machine · Ray 2 — 빠르고 루프형

Luma AI의 Dream Machine은 "빠르고 일상적인" 포지셔닝을 잡았다.

- **Dream Machine 1.0**(2024-06) — Text-to-Video, Image-to-Video, 약 5초 클립.

- **Ray 2**(2025-01) — 더 큰 모델, 더 긴 클립, 더 정확한 모션.

- **Ray 2 Flash**(2025년 중반) — 더 작고 빠른 변형.

Luma의 강점은 두 가지다. 첫째, Image-to-Video 품질이 매우 좋다 — 정지 이미지에서 시작해 자연스러운 모션을 만든다. 둘째, **Loop** 기능(끊김 없이 반복되는 클립)이 소셜 GIF·배경 영상 용도로 강력하다.

- **API**가 가장 먼저 풀린 모델 중 하나다. 개발자 통합이 쉽다.

- **가격** — Free(제한), Standard(`$9.99/month`), Plus(`$29.99/month`), Unlimited(`$94.99/month`).

7장 · Kling 1.6 · 2.0 — Kuaishou의 글로벌 진출

중국 Kuaishou(快手, TikTok의 글로벌 경쟁자)가 2024-06에 공개한 Kling은 빠르게 글로벌 사용자를 모았다.

- **Kling 1.0**(2024-06) — 첫 출시, 1080p · 최대 10초.

- **Kling 1.5**(2024-09) — Motion Brush(특정 영역만 움직임 지정), Camera Control.

- **Kling 1.6**(2024-12) — 품질 대폭 향상, 영어 프롬프트 강화.

- **Kling 2.0**(2025년) — 더 긴 클립, 더 정확한 물리.

Kling의 차별점은 **Motion Brush** — 영상 안의 특정 영역만 골라 움직임 방향을 지정할 수 있다. 예: "이 인물의 머리카락만 바람에 날리게."

- **가격** — kling.ai 글로벌 사이트에서 크레딧 구매. 약 `$10/100 credits`. 약 100 크레딧으로 5초 클립 한 편.

8장 · MiniMax Hailuo — 빠른 텍스트-비디오

MiniMax의 Hailuo(海螺)는 2024-09에 공개. 초기엔 무료, 이후 유료화되었다.

- **Hailuo Video 01**(2024-09) — Text-to-Video, 6초 720p로 시작.

- **Hailuo I2V-01**(2024-11) — Image-to-Video 별도 모델.

- **Hailuo MiniMax-01**(2025년) — 더 큰 멀티모달 모델, 비디오 포함.

Hailuo는 영어 프롬프트에 매우 강하고, 빠른 추론 시간(짧은 클립 약 30초~1분)이 강점이다. 다만 25초까지 가는 Sora 2와 비교하면 길이가 짧다.

- **API**도 별도 제공.

9장 · Tencent Hunyuan Video — 13B 오픈소스의 시작

2024-12-03, Tencent가 Hunyuan Video를 공개했다. 13B 파라미터, 사실상 오픈 라이선스(상업 사용 가능, 일부 제한). 오픈소스 비디오 모델의 판도를 바꾼 사건이다.

- **모델 크기** — 13B. 텍스트-비디오, 5초 클립, 720p가 기본.

- **아키텍처** — Diffusion Transformer(DiT). 텍스트 인코더는 MLLM 기반.

- **라이선스** — Tencent Hunyuan Community License. 월간 활성 사용자 100M 이하 상업 사용은 자유, 그 이상은 별도 협의.

- **하드웨어 요구** — 720p · 5초 클립 풀 추론에 약 60GB VRAM. H100 80GB, H200 141GB가 권장. RTX 4090(24GB)에서는 양자화 + offloading(GGUF Q4/Q8 변형이 빠르게 등장)으로 돌릴 수 있다.

- **ComfyUI 통합** — 공개 일주일 안에 ComfyUI 노드가 나왔다. 워크플로에 바로 끼울 수 있다.

Hunyuan Video의 등장은 오픈소스 비디오 진영을 "실용 가능" 영역으로 끌어올렸다. 그 전까지의 오픈소스 모델은 데모 수준이었다.

10장 · Alibaba Wan 2.1 — 14B 오픈 라이선스

2025-01, Alibaba가 Wan 2.1을 공개했다.

- **Wan 2.1 T2V-14B** — 14B 파라미터, 텍스트-비디오, 720p·5초.

- **Wan 2.1 I2V-14B** — 동일 크기 image-to-video 변형.

- **Wan 2.1 T2V-1.3B** — 작은 모델, RTX 4090 단일 GPU에서도 동작 가능.

- **라이선스** — Apache 2.0(`Wan 2.1 1.3B`)과 Tongyi Qianwen License(14B).

Wan 2.1의 진짜 매력은 1.3B 변형이다. Apache 2.0으로 완전히 자유롭고, 소비자 GPU 한 장에서 돈다. 다만 품질은 14B 또는 Hunyuan에 미치지 못한다.

11장 · Genmo Mochi 1 — Apache 2.0 10B의 등장

2024-10, Genmo가 Mochi 1을 Apache 2.0으로 공개했다.

- **모델 크기** — 10B 파라미터(AsymmDiT 아키텍처).

- **출력** — 480p, 약 5.4초.

- **라이선스** — Apache 2.0. 완전 자유.

- **하드웨어 요구** — 풀 추론에 약 4x H100 권장. 양자화/오프로딩으로 단일 H100 80GB 또는 RTX 4090에서도 동작.

Mochi 1은 "완전 자유로운 오픈 비디오 모델"이라는 자리를 처음 채웠다. 라이선스 측면에서는 Hunyuan보다 깨끗하다.

12장 · Lightricks LTX-Video — 실시간 2B 모델

2024-11, Lightricks(Facetune·Videoleap 만드는 회사)가 LTX-Video를 공개했다.

- **모델 크기** — 2B 파라미터. 매우 작다.

- **속도** — 4초 720p 클립을 약 4초에 생성(H100 기준). 사실상 실시간.

- **라이선스** — RAIL-S(연구·개인 자유, 상업 사용은 제한적이지만 가능).

- **워크플로** — ComfyUI 노드가 빠르게 등장. Wan/Hunyuan과 비교해 약 10배 빠르다.

LTX-Video는 "품질 vs 속도"의 균형을 속도 쪽으로 옮겼다. 빠른 프로토타이핑·반복 작업에 강하다.

13장 · CogVideoX 5B — Tsinghua의 오픈 베이스

2024-09, Tsinghua KEG Lab과 ZhipuAI가 CogVideoX를 공개했다.

- **CogVideoX-2B** / **CogVideoX-5B** — 두 가지 크기.

- **라이선스** — CogVideoX License(Apache-스타일이지만 일부 제약).

- **품질** — 2024년 후반 시점에서는 Mochi 1보다 약간 떨어졌지만, 진입 장벽이 낮아 연구·교육용으로 많이 쓰였다.

CogVideoX는 ModelScope·Hugging Face에 풀려 있고, 빠르게 ComfyUI 워크플로에 통합되었다.

14장 · Stable Video Diffusion · 그 이전의 유산

비디오 모델의 "전사(prehistory)"를 한 줄로 정리한다.

- **Stable Video Diffusion**(2023-11, Stability AI) — 첫 본격 오픈 비디오 모델. 약 2~4초, 576x1024. 품질은 오늘날 기준으론 데모 수준이지만, ComfyUI·AUTOMATIC1111 워크플로가 이 위에 처음 자리잡았다.

- **AnimateDiff**(2023-07) — Stable Diffusion 이미지 모델에 모션 모듈을 붙여 짧은 애니메이션을 만드는 방법. 지금도 ComfyUI에서 V2V 워크플로의 기본이다.

- **VideoCrafter / ModelScope T2V** — 비슷한 시기의 시도들.

이들 없이는 ComfyUI 생태계도, 오픈소스 비디오 모델도 자리잡지 못했을 것이다.

15장 · ComfyUI 워크플로 — Wan · Hunyuan · Mochi를 한 자리에

ComfyUI는 노드 기반 워크플로 에디터로, 오픈 비디오 모델의 표준 인터페이스가 되었다.

대표적인 노드 패키지:

- **ComfyUI-HunyuanVideoWrapper** — Hunyuan Video 통합.

- **ComfyUI-WanVideoWrapper** — Wan 2.1 통합.

- **ComfyUI-MochiWrapper** — Mochi 1 통합.

- **ComfyUI-LTXVideo** — LTX-Video 통합.

- **ComfyUI-CogVideoXWrapper** — CogVideoX 통합.

전형적인 워크플로는 이렇게 흐른다.

[Text Prompt]

[CLIP/T5 Text Encoder] --+

[Empty Latent Video] -----+--> [Diffusion Model (Hunyuan/Wan/Mochi)] --> [Latent Video]

| |

[Negative Prompt] --------+ v

[VAE Decode]

[Video Output]

I2V 워크플로는 여기에 `Image Encoder` 노드와 `Conditioning` 노드를 추가한다. V2V는 입력 비디오를 latent로 다시 인코딩해서 시작점으로 쓴다.

ComfyUI의 진짜 장점은 노드 단위로 LoRA·ControlNet·IPAdapter·업스케일러를 끼워 넣을 수 있다는 점이다. 클로즈드 모델로는 못 하는 세밀한 통제가 가능하다.

16장 · 립싱크 — HeyGen · Synthesia · D-ID · Hedra

비디오 생성과 립싱크는 다른 문제다. 립싱크 도구는 별도의 카테고리다.

- **HeyGen** — 아바타 비디오 + 립싱크의 사실상 표준. 본인 얼굴/목소리를 등록하거나 라이브러리 아바타로 영상 생성. `$24/month`부터.

- **Synthesia** — 엔터프라이즈 트레이닝/마케팅 영상 중심. 140+ 언어 지원. `$22/month`(Starter)부터.

- **D-ID** — 정지 이미지에 말하는 얼굴 애니메이션을 입힌다. API 강함. Studio 플랜 `$5.9/month`부터.

- **Hedra Character-1**(2024-06) — AI 캐릭터의 표정과 입술을 함께 생성. `$10/month`부터.

- **Sync.so**(전 Wav2Lip 후속) — 오픈소스 진영의 립싱크 모델.

Sora 2 · Veo 3은 비디오와 오디오를 함께 생성하지만, **기존 영상에 다른 음성을 입히는** 작업은 여전히 위 도구의 영역이다.

17장 · 스토리보드 · 롱폼 — LTX Studio · Showrunner · Wonder

5초~25초 클립을 모아 더 긴 영상을 만드는 도구가 따로 있다.

- **LTX Studio**(Lightricks) — 스토리보드·캐릭터 일관성·씬 매니지먼트 통합 도구. 단일 비디오 모델이 아니라 워크플로 자체를 판다.

- **Showrunner**(Fable Simulation) — TV 시리즈 에피소드를 생성. South Park 스타일 시뮬레이션으로 유명.

- **Wonder Dynamics**(Autodesk 인수) — 실사 영상에 CG 캐릭터를 자동 합성. VFX 파이프라인 통합.

- **Krea AI** — 이미지·비디오·3D를 묶은 크리에이티브 도구.

이들의 공통점은 "단일 클립이 아니라 시퀀스"를 만든다는 점이다. 그래서 Sora 2 · Veo 3 · Runway Gen-4를 API로 끌어와 위에 얹는 경우가 많다.

18장 · 워터마크와 C2PA — 진위 증명의 새 표준

2024-2025년에 가장 빠르게 자리잡은 표준은 **C2PA**(Coalition for Content Provenance and Authenticity)다.

- C2PA는 콘텐츠의 출처·편집 이력을 암호학적으로 서명한 메타데이터로 박아넣는 표준.

- Adobe, Microsoft, OpenAI, Google, BBC, Meta가 모두 참여한다.

- 이미지(JPEG XMP), 비디오(MP4 metadata)에 박힌다.

2026년 현재 상태:

- **OpenAI Sora 2** — 가시적 워터마크 + C2PA 메타데이터. Pro 플랜만 워터마크 제거 가능, C2PA는 항상 유지.

- **Google Veo 3** — **SynthID**(DeepMind의 비가시적 워터마크) + C2PA.

- **Meta** — 페이스북·인스타그램이 AI 생성 콘텐츠를 자동 라벨링.

- **EU AI Act** — 2026년부터 생성형 AI 콘텐츠의 라벨링이 법적 요구사항.

워터마크는 콘텐츠 신뢰의 마지막 방어선이다. 하지만 오픈소스 모델로 만든 영상은 C2PA가 박히지 않으므로, 이 표준은 클로즈드 생태계 내에서만 작동한다.

19장 · 한국 — VARCO · HyperCLOVA X 비디오

한국 진영의 상황은 텍스트·이미지 모델보다 비디오 쪽이 한 박자 뒤지지만, 빠르게 따라오고 있다.

- **NCsoft VARCO Vision** — VARCO 모델군의 멀티모달 변형. 이미지/비디오 이해(VLM)가 우선이고, 본격 생성은 아직.

- **Naver HyperCLOVA X** — 텍스트가 주력, 비디오 생성은 별도 라인업으로 준비 중.

- **카카오 Karlo** — 이미지 생성 모델은 있었지만 비디오는 미공개.

- **로컬 워크플로** — 한국 크리에이터 다수가 Hunyuan/Wan/LTX를 ComfyUI에서 한국어 프롬프트(번역기 경유)로 사용 중. 영상 광고 제작사들이 빠르게 도입 중.

한국 시장의 특수성은 **K-콘텐츠 IP**다. 드라마/K-POP/웹툰의 캐릭터 일관성을 유지한 채 영상을 생성하는 워크플로(LoRA 학습 + Runway References + 립싱크)가 빠르게 실험되고 있다.

20장 · 일본 — NTT Tsuzumi · Pikalmer · Sakana

일본 진영도 비디오 모델 직접 개발은 적지만, 인접 분야가 활발하다.

- **NTT Tsuzumi** — NTT의 LLM 라인업. 일본어 강점. 비디오는 아직 별도 라인업이 없다.

- **Sony Pikalmer**(가칭, 내부 프로젝트) — Sony의 미디어 AI 시도들.

- **Sakana AI** — 진화적 모델 합성으로 유명. 비디오 모델 직접 개발은 아니지만, 모델 머지 기법이 LoRA 영역에서 응용 가능.

- **Stability AI Japan** — Stable Diffusion 한국어/일본어 변형으로 활동.

- **AI 애니메이션** — 일본 애니메이션 스튜디오들이 Runway Gen-4 · Pika 2.5를 일부 제작 파이프라인에 실험 도입 중. 다만 노동조합 이슈로 본격 도입에는 신중하다.

일본은 IP 일관성과 노동조합 이슈로 클로즈드 모델보다 컨트롤 가능한 오픈소스 워크플로에 무게가 실려 있다.

21장 · 비용 — 클립 한 편의 진짜 가격

비교 가능한 가격 표를 한 줄로 정리한다.

- **Sora 2** — ChatGPT Pro `$200/month`에 일정 사용량 포함. 추가는 크레딧.

- **Veo 3** — Vertex AI 기준 약 `$0.35-0.75/sec`(베타 가격, 변동 가능). Gemini Advanced/Ultra 구독에 일정 사용량 포함.

- **Runway Gen-4** — Standard `$15/month`(625 credits, 약 41초 분량), Pro `$35/month`.

- **Pika 2.5** — Standard `$8/month`, Pro `$28/month`.

- **Luma Dream Machine / Ray 2** — Standard `$9.99/month`, Unlimited `$94.99/month`.

- **Kling** — `$10/100 credits`. 5초 클립 약 100 credits.

- **Hailuo** — 크레딧 기반, `$10`부터.

- **HeyGen** — Creator `$24/month`부터.

- **로컬 GPU(Hunyuan/Wan/Mochi)** — H100 클라우드 시간당 `$2-3` 기준, 5초 클립 한 편 약 `$0.5-1`. RTX 4090(약 `$1,800`) 한 장 사면 무제한 생성(전기료 별도).

가장 싸게 만드는 길은 두 가지다. 하나는 오픈소스 모델 + 본인 GPU. 다른 하나는 Pika · Luma의 저가 구독 + 무리하지 않는 클립 양.

22장 · 한계 — 모션 일관성, 물리, 텍스트

2026년의 비디오 모델은 강하지만 약점도 명확하다.

- **장면 컨시스턴시** — 한 캐릭터를 5초 클립 여러 편에 걸쳐 똑같이 유지하는 것은 여전히 어렵다. Runway Gen-4의 References, ComfyUI의 LoRA가 이를 완화한다.

- **물리 시뮬레이션** — 액체·천·관절의 정확한 운동은 여전히 약하다. Sora 2가 가장 낫지만 완벽하지 않다.

- **텍스트 렌더링** — 비디오 안의 문자(간판, 책표지 등)는 종종 깨진다. Veo 3과 Sora 2가 가장 정확하다.

- **5초 이상의 일관성** — 25초까지 가는 Sora 2조차 후반부에 어색함이 늘어난다.

이 한계가 사라지는 속도는 모델 세대마다 다르다. 텍스트 렌더링은 빠르게 좋아졌고, 물리는 천천히 좋아지는 중이다.

23장 · 활용 사례 — 광고 · 소셜 · 스토리보드 · R&D

2026년 현재 가장 활발한 4가지 활용:

- **광고/마케팅** — 30초 SNS 광고. Pika의 Pikaffects, Runway Gen-4의 References, HeyGen 아바타가 결합된 파이프라인. 비용은 전통 제작 대비 1/10 이하.

- **소셜 콘텐츠** — TikTok·Reels·Shorts. Sora App · Luma · Kling이 강하다. "어그로성 짧은 클립"에서 무서울 정도로 강해졌다.

- **영화 사전 시각화(Previz) · 스토리보드** — Runway Gen-4 · LTX Studio가 제작사 워크플로에 침투. 본 촬영 전에 씬 흐름을 미리 본다.

- **R&D / 시뮬레이션** — NVIDIA · 자율주행 회사들이 비디오 모델을 합성 학습 데이터 생성에 쓰기 시작. 도로 상황 시나리오를 무한 생성.

본격적인 장편 영화·드라마 제작에는 아직 도달하지 못했다. 다만 단편/MV/광고/예고편에는 이미 들어와 있다.

24장 · 의사결정 트리 — 어떤 모델을 쓸까

마지막으로, 상황별 추천을 한 페이지에 정리한다.

- **소셜용 짧은 클립, 빠른 반복** → Pika 2.5, Luma Ray 2, Kling.

- **영화적 톤, 캐릭터 일관성** → Runway Gen-4 + References. 비싸지만 가장 컨트롤 가능.

- **네이티브 오디오 동기, 다이얼로그** → Sora 2 또는 Veo 3.

- **엔터프라이즈 통합(Vertex AI, GCP 데이터 거버넌스)** → Veo 3.

- **트레이닝 영상, 다국어 립싱크** → HeyGen, Synthesia.

- **저비용·반복 작업, 오픈소스 워크플로** → Hunyuan Video, Wan 2.1, Mochi 1, LTX-Video를 ComfyUI에서.

- **개인 GPU 한 장으로 시작** → Wan 2.1 1.3B 또는 LTX-Video.

- **상업 사용 라이선스 100% 클린** → Mochi 1(Apache 2.0).

이 트리는 6개월 안에 다시 갱신될 가능성이 높다. AI 비디오는 여전히 가장 빠르게 움직이는 분야 중 하나다.

에필로그 — 다음 1년의 질문들

2년 만에 60초 1080p에서 25초 4K 동기 오디오까지 왔다. 2027년의 비디오 모델은 무엇을 풀어야 하는가.

- **장편 일관성** — 1분 이상의 시퀀스를 끊김 없이.

- **인터랙티브 비디오** — 사용자가 중간에 개입해 분기.

- **실시간 비디오 생성** — 게임 렌더링처럼 즉시 응답.

- **3D 일관성** — 카메라가 자유롭게 도는 동안 세계가 무너지지 않게.

답을 가진 사람은 아직 없다. 하지만 2024-2026의 속도라면, 그 답은 또 다른 2년 안에 나올 가능성이 높다.

참고 자료

- OpenAI Sora 2 announcement — https://openai.com/index/sora-2/

- OpenAI Sora system card — https://openai.com/index/sora-system-card/

- Google Veo on Vertex AI — https://cloud.google.com/vertex-ai/generative-ai/docs/video/generate-videos

- Google Veo 3 (I/O 2025) — https://blog.google/technology/ai/google-io-2025-veo-3-imagen-4-flow/

- Runway Gen-4 — https://runwayml.com/research/introducing-runway-gen-4

- Runway References — https://help.runwayml.com/hc/en-us/articles/30625011765011

- Pika Labs — https://pika.art/

- Pika 2.2 release notes — https://pikalabs.notion.site/

- Luma Dream Machine — https://lumalabs.ai/dream-machine

- Luma Ray 2 — https://lumalabs.ai/ray

- Kling AI — https://klingai.com/

- MiniMax Hailuo — https://hailuoai.video/

- Tencent Hunyuan Video — https://github.com/Tencent/HunyuanVideo

- Hunyuan Video model card — https://huggingface.co/tencent/HunyuanVideo

- Alibaba Wan 2.1 — https://github.com/Wan-Video/Wan2.1

- Genmo Mochi 1 — https://github.com/genmoai/models

- Lightricks LTX-Video — https://github.com/Lightricks/LTX-Video

- CogVideoX — https://github.com/THUDM/CogVideo

- Stable Video Diffusion — https://stability.ai/stable-video

- ComfyUI — https://github.com/comfyanonymous/ComfyUI

- HeyGen — https://www.heygen.com/

- Synthesia — https://www.synthesia.io/

- D-ID — https://www.d-id.com/

- Hedra Character-1 — https://www.hedra.com/

- LTX Studio — https://ltx.studio/

- C2PA standard — https://c2pa.org/

- Google SynthID — https://deepmind.google/technologies/synthid/

- EU AI Act overview — https://artificialintelligenceact.eu/