프롤로그 — 생성형 미디어의 세 번째 다리
2022년 늦여름, 우리는 Stable Diffusion으로 처음 사진 같은 이미지를 만들었다. 2023년 초, ChatGPT가 글쓰기를 흔들었다. 2024년 봄, Suno와 Udio가 음악을 받았다. 그리고 2024년 12월, OpenAI가 Sora를 일반에게 풀면서 **마지막 한 축 — 영상** 이 도착했다.
비디오는 가장 늦게 왔다. 이유는 단순하다. 시간이라는 차원이 한 축 더 붙으면, 한 프레임의 사실성을 확보한 모델도 시퀀스를 가로질러 **일관성**을 지켜야 한다. 같은 인물의 얼굴, 같은 배경의 가구, 같은 손의 손가락 개수가 24fps로 6초만 흘러도 144 프레임이다. 그 144 프레임을 통과해도 인간 눈에는 여전히 위화감이 남는다 — 손이 갑자기 늘어나거나, 컵이 슬그머니 의자가 되거나, 카메라가 물리적으로 불가능한 회전을 한다.
2026년 봄, 그 문제는 "완전히 풀린" 게 아니라 **"실용권에 들어왔다."** 6초짜리 SNS 클립은 사람 손을 거의 거치지 않아도 출하 품질이 나온다. 60초짜리 광고는 컷 단위로 끊어 생성하고 사람이 편집하면 1주일 작업이 하루로 줄어든다. 캐릭터 일관성은 Runway Gen-4·Sora 2가 "References" 기능을 표준화하면서 한층 안정됐고, Veo 3은 네이티브 오디오를 붙여 "무성 클립 → 후시 사운드" 워크플로 자체를 갈아엎었다.
이 글은 2026년 5월 시점의 AI 비디오 생성 시장 전체를 — 누가 무엇을 잘하고, 무엇을 못하고, 얼마인지, 어디에 써야 하는지 — 한 호흡에 정리한다. 8개 주요 모델을 11개 능력 벡터로 비교하고, 실무 결정 프레임워크와 저작권 논쟁까지 다룬다.
1. 생성형 미디어 트라이펙타 — 비디오는 왜 마지막이었나
세 가지 미디어의 모델 수렴 일정을 보면 비디오가 늦은 이유가 한눈에 보인다.
| 미디어 | 첫 "실용권" 출시 | 결정적 변곡점 | 6초 vs 60초 격차 |
|--------|-----------------|---------------|-------------------|
| 텍스트 | 2022-11 ChatGPT | 2023-03 GPT-4 | 사실상 없음 |
| 이미지 | 2022-08 SD 1.4 | 2023-07 SDXL, 2024-08 FLUX | 한 장 = 한 장 |
| 음악 | 2024-04 Suno v3 | 2024-12 Suno v4, Udio | 30초 → 4분 어렵지 않음 |
| **비디오** | 2024-06 Runway Gen-3 | 2024-12 Sora, 2025-05 Veo 3 | **6초는 쉽고 60초는 어렵다** |
비디오의 본질적 어려움은 세 가지다.
1. **시간 일관성** — 같은 객체가 프레임 간 동일한 외형·위치 분포를 유지해야 한다. 캐릭터 얼굴이 컷 사이에 미세하게 변하면 시청자가 즉시 알아챈다.
2. **모션 사실성** — 옷자락, 머리카락, 액체, 폭발 같은 비강체 모션이 물리 법칙을 깨지 말아야 한다. 모델이 "물리 직관"을 가져야 한다는 뜻이다.
3. **카메라 모션** — 사용자가 의도한 카메라 무브(달리·트랙·줌·크레인)를 명령으로 줄 수 있어야 한다. 이게 안 되면 영화 도구로 안 쓰인다.
이 세 가지를 다 푼 모델은 아직 없다. 하지만 부분적으로 푼 모델은 많고, **어느 문제를 어떻게 풀었느냐**가 곧 각 모델의 정체성이 됐다.
2. 컨슈머 1티어 — Sora 2·Veo 3·Runway Gen-4
2.1 OpenAI Sora 2 — OG의 귀환
2024년 2월, OpenAI가 Sora를 발표하면서 모두를 흔들었다. 첫 데모(`Tokyo woman walking`)는 사실상 영화 같았다. 하지만 일반 공개는 더뎌서 2024-12-09에야 ChatGPT Plus·Pro 유저용으로 풀렸고, `sora.com`이라는 별도 앱도 함께 나왔다.
2026년 봄의 Sora 2는 그 사이 두 번 큰 업데이트를 거쳤다. 핵심은:
- **최대 길이 20초** (Pro 등급 60초). 1080p 30fps.
- **Storyboard** — 한 프롬프트로 여러 컷을 동시에 설계하는 UI. Sora의 트레이드마크.
- **Remix·Re-cut·Loop·Blend** — 기존 영상에 변주·확장·결합을 거는 도구들.
- **Character References** — 사진 한 장 또는 이전 영상에서 캐릭터를 추출해 다음 컷에 일관성 있게 등장시킨다.
- **C2PA 메타데이터** — 출력에 출처 정보가 박힌다.
가격은 ChatGPT Plus(월 20달러)에 일정량 포함, Pro(월 200달러)에 대량 포함. 사용량 기반 추가 결제도 있다. **공식 API는 2026년 봄 시점 일부 파트너 한정 베타.** Sora의 강점은 "프롬프트 이해도" — 길고 문학적인 프롬프트에서도 의도가 안 깨진다.
약점은 **모션 강도가 보수적** 이라는 것. 격렬한 액션, 폭발, 빠른 카메라 무브에서 Kling이나 Hailuo만큼 시원하게 나오지 않는다. OpenAI의 안전 정책이 모션의 거친 부분을 깎아낸다는 평이 많다.
2.2 Google Veo 3 — 오디오를 깔고 나온 한 방
2024년 5월 Google I/O에서 Veo 2가 발표됐고, 2025년 5월 I/O에서 **Veo 3** 가 등장했다. Veo 3의 헤드라인 한 줄은 단순했다 — **"비디오에 네이티브 오디오가 같이 생성된다."**
이게 왜 크냐. 다른 모든 모델은 무성 클립을 뱉고, 사용자가 ElevenLabs·Suno로 별도 사운드를 만들어 후편집에서 합쳤다. Veo 3은 단일 패스로:
- **앰비언트 사운드** — 빗소리, 도시 소음, 바람
- **포어그라운드 사운드** — 발자국, 컵 부딪치는 소리
- **대화** — 캐릭터의 입 모양과 동기화된 음성
세 가지를 모두 생성한다. "Pure Imagination" 데모(소년이 한 컷에서 도시·바다·우주·공룡까지 이동하며 노래)가 모든 걸 보여줬다 — 카메라·시각·노래가 한 번에 생성됐다.
Veo 3 사양:
- 길이 8초 기본, 일부 면 60초까지 확장.
- **Veo 3.1** (2025-10) — 오디오 품질 개선, 모션 자연도 향상, 캐릭터 보존 강화.
- **Gemini 앱·Vertex AI·Flow** 세 곳에서 접근. **Flow** 가 영화감독용 통합 워크플로 도구.
- 가격은 Gemini Advanced 구독 또는 Vertex AI 사용량 기반.
약점은 **프롬프트 충실도** — Sora만큼 긴 프롬프트의 미묘한 디테일을 다 잡지 못한다는 평. 또 **YouTube 발신 인디케이터** 처럼 Google 생태계에 묶여 있어 ChatGPT 사용자의 손이 잘 안 닿는다.
2.3 Runway Gen-4 — 영상 프로덕션의 표준 도구
Runway는 2023년 Gen-1, 2024년 Gen-3 Alpha, 그리고 2025년 봄 **Gen-4** 를 출시했다. Sora·Veo가 컨슈머·B2B의 양쪽 거인이라면, Runway는 **현직 영상 제작자의 도구**다.
Gen-4의 강점:
- **References** — 인물·로케이션·오브젝트의 일관성을 유지하는 표준 기능. Sora 2의 Character References보다 먼저 나와 더 성숙하다.
- **Aleph** — 2025-07 출시. 단순히 텍스트를 영상으로 바꾸는 게 아니라 기존 영상을 **에디트하는** 모델. 객체 추가·제거, 카메라 각도 변경, 스타일 변환 등.
- **Act-Two** — 2025-07 출시. 사람의 짧은 연기 영상을 입력으로 받아 캐릭터로 옮기는 모션 캡처 모델.
- **5초·10초** 표준, **1080p**, 가격은 크레딧 기반.
Runway가 영상 현장에서 자리 잡은 이유는 단순하다. **"우리 워크플로에 들어가기 쉽다."** Premiere·DaVinci·FCP와 어울리는 출력, 색공간 보존, 마스크·키프레임 인터페이스, 그리고 무엇보다 **API**. 광고 에이전시들이 Runway를 처음 부르는 모델로 쓴다.
약점은 **컨슈머 가격** — 무료 등급은 거의 의미 없는 워터마크 클립, 본격적으로 쓰려면 월 35달러부터 시작해 빨리 올라간다. Sora의 "Plus 20달러에 다 됨"과 비교되는 지점.
3. 컨슈머 2티어 — Pika·Luma
3.1 Pika Labs — Pikaffects의 즐거움
Pika는 2024년 봄 Pika 1.0, 2024년 가을 **Pika 2.0**, 그리고 일련의 마이너 업데이트로 자리잡았다. 2025년에는 **Pika 2.2**, 2026년 봄 시점 **Pika 2.5** 까지 왔다.
Pika의 차별점:
- **Pikaffects** — 사물이 폭발하거나, 케이크가 되거나, 풍선처럼 부풀거나, 녹아내리거나, 압축되는 일련의 시각 효과 프리셋. SNS·밈에서 폭발적 인기.
- **Pikadditions** — 기존 영상에 새 객체를 합성한다 (예: 친구 옆에 강아지 추가).
- **Pikaswap** — 영상 안의 한 객체를 다른 객체로 바꾼다.
- **Ingredients** — 한 컷에 여러 캐릭터·로케이션·오브젝트 입력을 동시에 넣고, Pika가 합성된 장면을 만든다. 일관성을 위한 핵심 기능.
가격은 **무료 등급 존재**, 월 8달러부터 시작. 컨슈머 친화도에서는 가장 강하다. 단, **모션 일관성**과 **풀-사실성** 측면에서는 Sora·Veo·Runway에 한 단계 뒤진다.
3.2 Luma Dream Machine — Ray2 + Photon
Luma AI는 원래 **3D 캡처(Gaussian Splatting)** 회사였다. 그 기술이 비디오로 옮겨오면서 2024-06 **Dream Machine** 첫 출시, 2025-01 **Ray2** 출시, 2025-08 **Ray3** 출시, 그리고 같은 라인업에 이미지 모델 **Photon** 까지 추가됐다.
Ray3의 특징:
- **HDR 영상** — 일반 SDR이 아닌 HDR 출력 지원. 영상 후반작업에서 그레이딩 여지가 넓다.
- **Frames** — 시작 프레임·끝 프레임을 사진으로 주고 사이를 보간한다. 광고 컷 만들기에 최적.
- **Camera Motion** — 카메라 무브를 명령어로 명시한다 (orbit, dolly, push-in 등).
Photon은 Luma의 이미지 모델인데, Dream Machine과 연결되어 "이미지 → 영상" 워크플로가 깔끔하다. 가격은 무료 등급 + 월 9.99달러부터.
Luma의 강점은 **모션 자연도와 카메라 무브** — 3D 캡처 회사 출신답게 공간 이해도가 높다. 약점은 **프롬프트 이해도** — Sora·Veo만큼 길고 문학적인 지시를 잘 못 받는다.
4. Veo 3 오디오 — 진짜로 게임을 흔든 한 수
2025-05 Google I/O 데모에서 Veo 3이 보여준 한 가지는 단순했다. **"비디오와 사운드가 같은 모델에서 한 번에 나온다."** 그 자리에서 다른 모든 모델 회사가 따라잡기 시작했다.
4.1 왜 네이티브 오디오가 중요한가
기존 워크플로:
프롬프트 → 비디오 모델 → 무성 클립
→ 오디오 모델 (Suno·ElevenLabs)
→ 후편집에서 합성
문제: 영상의 발자국 타이밍, 입 모양, 카메라 무브 임팩트를 사후에 사운드와 맞추려면 사람이 들어야 한다. 6초 클립이라도 사람 시간이 든다.
Veo 3 워크플로:
프롬프트 → Veo 3 → 비디오 + 동기 사운드 (한 패스)
발자국·문 닫는 소리·환경음·심지어 짧은 대사까지 시각과 자동 동기화된다. **"한 사람이 60초 광고를 통째로 만든다"** 가 가능해진 첫 시점이다.
4.2 다른 회사의 대응
- **Sora 2**: 2025년 가을 업데이트에서 일부 오디오 생성 시작. 아직은 환경음 위주, 대화는 제한적.
- **Runway**: 2025-08 Act-Two에 음성·립싱크 기능 일부 도입. Veo 3만큼 완성도는 아직 아님.
- **Kling**: 2025년 후반 Kling Audio 발표. 환경음 중심.
- **Hailuo**: 음향효과 라이브러리와 통합되었지만 동기 생성은 아님.
요약: **2026년 봄 시점, "네이티브 동기 오디오"는 Veo 3의 독점적 강점.** 다른 모델들은 1-2년 안에 따라잡을 것으로 보이지만, 현재로서는 Veo 3이 광고·콘텐츠 마케팅 시장의 한 축을 빠르게 가져가고 있다.
5. 중국 모델 웨이브 — Kling·Hailuo
서구 미디어의 시각에서 가장 충격적이었던 2024-2025년의 사건은 **중국 모델이 모션과 캐릭터에서 서구를 앞질렀다는 사실** 이었다.
5.1 Kuaishou Kling AI
Kuaishou(快手, 중국 쇼츠 플랫폼)가 운영하는 Kling은 2024-06 처음 데뷔하고, 2025년 봄 **Kling 1.6**, 가을 **Kling 2.0**, 그리고 2026년 봄 기준 **Kling 2.1** 까지 왔다.
Kling의 강점:
- **격렬한 모션** — 전투, 폭발, 비주얼 이펙트가 시원하게 나온다. Sora가 보수적이라면 Kling은 적극적.
- **캐릭터 일관성** — 얼굴 보존이 매우 뛰어나며 다중 캐릭터 장면에서도 안정적.
- **긴 클립** — 표준 5초·10초, Pro에서 최대 30초까지.
- **물리 표현** — 액체, 옷자락, 머리카락의 비강체 모션이 자연스럽다.
가격은 무료 등급 + 유료 등급(중국 위안 결제, 글로벌은 USD). 영어 인터페이스가 제공되고 글로벌 사용자가 빠르게 늘고 있다.
리스크: **데이터·개인정보 우려.** 미국·유럽 기업이 사내 워크플로에 통합하기엔 정책적 부담이 있다. 그러나 개인 제작자·인디 영상·SNS 시장에서는 무시할 수 없는 점유율을 가져갔다.
5.2 MiniMax Hailuo AI
MiniMax는 2024년 후반 **Hailuo** 를 출시하면서 단기간에 SNS에서 폭발적으로 퍼졌다. 무료 등급의 너그러움과 출력 품질이 좋은 균형을 이뤘기 때문이다.
Hailuo의 특징:
- **밈 친화적** — 캐릭터를 코미컬한 액션에 넣는 데 강하다. TikTok·X에 Hailuo 클립이 끊임없이 올라왔다.
- **물리 사실성** — 액션 시퀀스에서 카메라 임팩트가 자연스럽다.
- **무료 워터마크 클립** — 진입장벽이 낮다.
2026년 시점 Hailuo는 **MiniMax-Video-01** 시리즈와 **T2V-01-Director** (감독자 모드, 카메라 명시 제어)로 확장됐다. 가격 구조는 무료 + 사용량 기반 + 구독 혼합.
5.3 그 외 중국 모델
- **ByteDance Doubao Seedance** — TikTok 모회사의 영상 모델. 자사 플랫폼 깊이 통합.
- **Alibaba Wan** — 오픈소스로 일부 가중치 공개. 연구자·개발자에게 영향력.
- **Tencent Hunyuan Video** — 오픈소스 공개, 모델 카드와 가중치를 함께 풀어 LTX-Video와 함께 오픈소스 진영의 두 축이 됐다.
요약: **중국 진영은 "오픈소스 + 강력한 자사 폐쇄 모델"의 양 축으로 서구를 빠르게 따라잡았다.** 일부 능력 벡터에서는 이미 앞섰다.
6. 오픈소스·로컬 현실 — LTX·Mochi·Hunyuan·Wan
2024년까지 오픈소스 비디오 모델은 "재미는 있지만 출하 품질은 아닌" 상태였다. Stable Video Diffusion은 4초 정도의 짧은 클립을, AnimateDiff는 더 짧은 루프를 만들 수 있었지만 실무에 쓸 정도는 아니었다.
2024-12부터 그 풍경이 바뀌었다.
6.1 Lightricks LTX-Video — 오픈소스의 반격
Lightricks는 2024-11 **LTX-Video** 를 공개했다. 처음 보였을 때 충격은 두 가지였다:
1. **속도** — 6초 클립을 H100에서 **4초**에 생성. 거의 실시간이다.
2. **품질** — 768p 24fps 출력이 Pika·초기 Runway에 견줄 만했다.
2025년 봄 **LTX-Video 0.9.5**, 가을 **LTX-Video 13B**, 2026년 봄 시점 다양한 LoRA·컨트롤넷 옵션이 붙은 생태계가 형성됐다. ComfyUI 기본 노드로 통합됐고, 게이밍·아바타·VFX 회사가 사내 도구로 흡수했다.
6.2 Genmo Mochi 1
Genmo가 2024-10 공개한 **Mochi 1**, 그리고 2025년 후속 **Mochi 1 Plus** 는 480p 5.4초의 짧지만 강한 모션 품질을 보여줬다. Apache 2.0 라이선스로 풀려 상업 사용 자유.
6.3 Tencent HunyuanVideo
2024-12 텐센트가 **HunyuanVideo** 의 13B 모델 가중치를 공개했다. 24fps, 5초 출력. 폐쇄 모델 수준에 근접한 사실성으로 충격을 줬다.
6.4 Alibaba Wan2.1·2.2
2025년 알리바바가 **Wan 2.1**, **Wan 2.2** 가중치를 공개했다. 텍스트·이미지·비디오 멀티모달 모델 시리즈로, 영상 부분은 클로즈드 모델과 비교해도 약점이 적다.
6.5 Stability AI — 오픈소스의 전임자, 그러나
Stability AI의 **Stable Video Diffusion** 은 2023년 11월 공개되어 한때 오픈소스 비디오의 대표였지만, 2026년 시점에는 사실상 **LTX·Hunyuan·Mochi·Wan**에 자리를 내준 상태. Stability의 사업적 어려움과 새 모델 출시 둔화가 겹쳤다.
6.6 로컬 실행의 현실
오픈소스 모델을 실제로 집 컴퓨터에서 돌리려면:
| 모델 | VRAM (최소) | VRAM (권장) | 클립 길이 | 생성 시간 (H100) |
|------|-------------|--------------|-----------|------------------|
| LTX-Video 13B | 16GB | 24GB | 6초 | 4-8초 |
| Mochi 1 | 24GB | 48GB | 5.4초 | 60-120초 |
| HunyuanVideo | 60GB | 80GB | 5초 | 60-180초 |
| Wan 2.2 | 24GB | 48GB | 5초 | 30-90초 |
소비자 GPU(RTX 4090 24GB)에서 실용권에 있는 모델은 **LTX-Video**가 거의 유일하다. 그 외는 H100·A100급 서버를 빌려야 한다. 그래서 ComfyUI를 RunPod·Modal·Replicate에 띄워 시간당 결제하는 워크플로가 표준이 됐다.
7. 특수 목적 — Talking Head·립싱크 전문가
비디오 생성 시장에는 일반 모델과 다른 흐름이 하나 있다. **사람 얼굴·립싱크·아바타 영상** 만 전문으로 하는 도구들이다.
7.1 HeyGen
- 200개 이상의 아바타, 40개 언어 음성.
- 사용자 자신의 사진·음성으로 디지털 트윈을 만들 수 있다.
- 영상의 입을 다른 언어로 리립싱크 (번역 더빙).
- 기업 마케팅·교육 영상에서 압도적 점유.
7.2 D-ID
- 정지된 인물 사진을 말하는 비디오로 변환.
- 빠르고 저렴, API 친화적.
- 교육 자료·인포메이션 비디오에 흔히 쓰임.
7.3 Synthesia
- 기업 교육·온보딩 영상의 표준.
- 대본 입력 → 아바타가 그 대본을 연기.
- B2B SaaS로 자리잡았으며 가격대도 높음.
이 카테고리는 **Sora·Veo·Runway 같은 일반 모델이 침범하기 어렵다.** 이유는 도메인 특화 — 립싱크 정확도, 다국어 더빙 워크플로, 기업 보안 인증(SOC 2, HIPAA), 브랜드 일관성 도구 등이 일반 모델에는 없다.
8. 능력·제품 매트릭스 — 한 페이지 비교
| 능력 / 모델 | Sora 2 | Veo 3 | Gen-4 | Pika 2.5 | Kling 2.1 | Luma Ray3 | Hailuo | LTX 13B |
|-------------|--------|-------|-------|----------|-----------|-----------|--------|---------|
| **최대 길이** | 60s | 60s | 10s | 10s | 30s | 10s | 10s | 8s |
| **해상도** | 1080p | 1080p | 1080p | 1080p | 1080p | HDR | 720p | 768p |
| **네이티브 오디오** | 부분 | 강력 | 부분 | 부분 | 부분 | 없음 | 라이브러리 | 없음 |
| **모션 강도** | 중 | 중 | 중 | 중 | 강 | 중 | 강 | 중 |
| **캐릭터 일관성** | 강 | 강 | 매우강 | 중 | 매우강 | 중 | 중 | 약 |
| **카메라 제어** | 강 | 중 | 매우강 | 약 | 중 | 매우강 | 강 | 중 |
| **프롬프트 충실도** | 매우강 | 강 | 강 | 중 | 중 | 중 | 중 | 중 |
| **편집(in-context)** | Storyboard | Flow | Aleph | Pikaffects | 약 | Frames | 약 | LoRA |
| **API 공급** | 베타 | Vertex AI | 정식 | 정식 | 정식 | 정식 | 정식 | 셀프호스팅 |
| **무료 등급** | 없음 | 제한 | 워터마크 | 있음 | 있음 | 있음 | 있음 | 무료 |
| **시작 가격(월)** | 20 | Gemini Adv. | 35 | 8 | 사용량 | 9.99 | 사용량 | 0 |
> "매우강·강·중·약" 은 2026년 5월 시점 일반적 평가의 정성적 요약. 모델 업데이트가 잦아 1-2개월 안에 순위가 바뀌기도 한다.
9. 결정 프레임워크 — 어떤 도구를 언제 쓸까
9.1 한 줄로
- **6-10초 SNS 클립이 필요해. 캐릭터 일관성 중요.** → Kling 또는 Sora 2.
- **광고·마케팅 비디오 30-60초. 오디오 포함.** → Veo 3.
- **영화·CF 후반작업의 도구로 워크플로 통합.** → Runway Gen-4.
- **친구·가족과 노는 컨슈머 영상. 가격 민감.** → Pika.
- **인물 토킹헤드, 다국어 더빙.** → HeyGen.
- **사내 데이터 보안 필수, 로컬 실행.** → LTX-Video.
- **개인 실험·해커톤·연구.** → Hunyuan / Wan / Mochi (오픈소스).
- **3D 공간감·HDR 출력이 중요.** → Luma Ray3.
9.2 결정 트리
Q1. 영상이 사내 보안/저작권 이슈로 외부 API 못 쓰는가?
Yes → LTX·Hunyuan·Wan 셀프호스팅 (이슈: GPU 비용)
No → Q2
Q2. 사운드가 영상과 동기화돼 한 번에 나와야 하는가?
Yes → Veo 3 (현재로선 거의 독점)
No → Q3
Q3. 같은 캐릭터/장소가 여러 컷에 걸쳐 등장하는가?
Yes → Runway Gen-4(References) 또는 Sora 2(Character Refs) 또는 Kling
No → Q4
Q4. 격렬한 액션/물리 모션이 핵심인가?
Yes → Kling 또는 Hailuo
No → Q5
Q5. 토킹헤드/다국어 더빙인가?
Yes → HeyGen / Synthesia
No → Q6
Q6. 가격이 가장 큰 변수인가?
Yes → Pika / Hailuo 무료 등급 / LTX-Video 로컬
No → Sora 2 또는 Runway Gen-4 (기본 안전선택)
9.3 워크플로 패턴
실무에서 한 모델만 쓰는 경우는 거의 없다. 자주 보이는 조합:
- **광고 30초** — Veo 3으로 메인 컷, Runway Aleph로 색감 보정·로고 합성, ElevenLabs로 더빙 보강.
- **뮤직비디오 3분** — Suno로 곡, Midjourney로 컨셉 스틸, Runway Gen-4로 5-10초 컷 × 20개, DaVinci Resolve로 편집.
- **인플루언서 데일리 영상** — 본인 셀카 영상 + HeyGen 다국어 더빙 + Pika로 컷 사이 트랜지션.
- **인디 단편 영화** — Sora Storyboard로 컷 설계, Runway Gen-4로 메인 컷 + 캐릭터 일관성, Hunyuan으로 보조 컷(비용 절감), Adobe Premiere로 편집.
10. 저작권·표현 윤리 — 풀리지 않은 매듭
10.1 학습 데이터 논쟁
음악(Suno·Udio가 RIAA에 피소됐다) 및 이미지(Getty Images vs Stability)에 이어, 영상 모델 회사들도 학습 데이터 출처에 대한 추궁을 받고 있다. 2025년 한 해 동안:
- 미국·EU 다수의 영상 콘텐츠 회사가 OpenAI·Runway·Pika를 상대로 디스커버리·법적 검토를 시작.
- 일부 회사(특히 광고 에이전시)는 **"학습 데이터 출처가 합의된 모델만 사용"** 정책을 도입.
- Adobe Firefly Video는 "Adobe Stock + 라이선스된 콘텐츠로만 학습" 을 마케팅 포인트로 강조.
10.2 딥페이크·인격권
영상은 이미지·음성보다 인격권 침해 잠재력이 크다. 2024-2025년 정치인·연예인 딥페이크 사건들이 줄을 이었고, EU AI Act는 **"AI 생성 영상의 라벨링 의무"** 를 명시했다. 미국은 주별로 다른 법이 들어서고 있다.
주요 모델 회사들의 대응:
- **C2PA 메타데이터** 임베드 — Sora, Veo, Runway가 모두 출력에 출처를 박는다.
- **얼굴 인식 제한** — 유명인 이름이 든 프롬프트를 거부.
- **선거 관련 필터** — 후보자 이름·정치 슬로건 모드는 활동을 제한.
10.3 노동시장 영향
VFX·애니메이터·광고 영상 제작자들이 가장 빠르게 영향을 받았다. 2024-2025년 미국 광고업계 일부 도매상은 **30-40%의 외주 컷 단가 인하** 를 목격했다고 보고된다. 한편 새 직군 — "AI 영상 디렉터", "프롬프트 엔지니어 for video" — 도 생겨났다.
10.4 우리가 해야 할 일
- **출처 명시** — 자체 콘텐츠에 AI 사용을 명확히 표기.
- **인격권 존중** — 본인 동의 없는 얼굴 사용 금지.
- **저작권 클린 모델 우선** — Adobe Firefly Video, 또는 명확히 라이선스된 데이터로 학습된 모델 선호.
- **C2PA 보존** — 출력에 박힌 메타데이터를 후편집에서 일부러 제거하지 않기.
에필로그 — 영상이 글이 되었다
출하 전 체크리스트
- [ ] 클립이 한 컷인가 다중 컷인가 — 다중이면 References / Storyboard 도구 사용.
- [ ] 캐릭터·장소 일관성 검증을 거쳤는가.
- [ ] 모션이 의도한 카메라 무브를 따랐는가.
- [ ] 사운드가 필요한가 — Veo 3 단일 패스 vs 후편집 분리.
- [ ] 출력 해상도·프레임레이트가 후편집 파이프라인과 호환되는가.
- [ ] C2PA 메타데이터가 보존됐는가.
- [ ] 외부 데이터·실존 인물·브랜드 로고가 들어갔다면 권리 확인.
- [ ] 모델 사용 약관(상업 사용 가능 여부)을 확인했는가.
- [ ] 최종 영상에 AI 생성 사실을 어떻게 표기할지 결정했는가.
- [ ] 백업 — 원본 프롬프트·시드·중간 출력을 보관.
안티패턴 10가지
1. 한 모델 한 도구만 고집해서 약점 보완을 안 함.
2. 캐릭터 일관성 도구(References) 없이 컷마다 같은 인물을 다시 생성.
3. 무성 클립을 만들고 사후에 매번 사운드를 별도로 합성 (Veo 3을 안 씀).
4. 6초 클립을 24개 만들어서 1분으로 잇기 — 컷 간 점프가 시청자에게 보임.
5. 격렬한 모션이 필요한데 Sora만 고집하다 보수적 출력을 받음.
6. 토킹헤드 영상에 일반 모델 사용 — HeyGen이 훨씬 정확하다.
7. 오픈소스 모델을 노트북에서 실행하려다 시간만 버림 — 클라우드 GPU 빌려야 함.
8. 학습 데이터 라이선스 안 따지고 광고에 썼다가 클라이언트에서 거부됨.
9. 카메라 무브를 텍스트로 명시 안 하고 모델이 알아서 한 모션에 의존.
10. 첫 출력에서 마음에 안 들어도 시드·프롬프트를 미세하게 안 굴림.
다음 글 예고
다음 글 후보: **Veo 3 광고 워크플로 — 60초 광고를 한 사람이 만든다**, **Runway Gen-4 References 실전 — 캐릭터 일관성을 잡는 5가지 트릭**, **로컬 비디오 생성 셋업 가이드 — ComfyUI + LTX-Video를 RTX 4090에서**.
> "글로 적히던 이야기가 그림으로 그려졌고, 그림에 소리가 붙었고, 이제 그것이 움직인다. 영상은 글이 되었다 — 그리고 우리는 새로운 문법을 배우는 중이다."
— AI 비디오 생성 2026, 끝.
참고 / References
- [OpenAI Sora 공식 사이트](https://openai.com/sora/)
- [Sora — 사용 가이드](https://help.openai.com/en/articles/9957612-generating-videos-on-sora)
- [Sora 2 발표 블로그](https://openai.com/index/sora-2/)
- [Google Veo 3 공식 페이지](https://deepmind.google/technologies/veo/veo-3/)
- [Veo 3 Vertex AI 문서](https://cloud.google.com/vertex-ai/generative-ai/docs/models/veo/3-0-generate-preview)
- [Google Flow — 영상 제작 도구](https://labs.google/fx/tools/flow)
- [Runway 공식 사이트](https://runwayml.com/)
- [Runway Gen-4 발표](https://runwayml.com/research/introducing-runway-gen-4)
- [Runway Aleph](https://runwayml.com/research/introducing-runway-aleph)
- [Pika 공식 사이트](https://pika.art/)
- [Pika 2.0 블로그](https://pika.art/blog/pika-2-0)
- [Kuaishou Kling AI](https://kling.kuaishou.com/en)
- [MiniMax Hailuo AI](https://hailuoai.video/)
- [Luma Dream Machine](https://lumalabs.ai/dream-machine)
- [Luma Ray2 발표](https://lumalabs.ai/blog/news/introducing-ray2-flash)
- [Lightricks LTX-Video](https://www.lightricks.com/ltxv)
- [LTX-Video GitHub](https://github.com/Lightricks/LTX-Video)
- [Tencent HunyuanVideo](https://github.com/Tencent/HunyuanVideo)
- [Alibaba Wan 모델](https://github.com/Wan-Video/Wan2.2)
- [Genmo Mochi 1](https://www.genmo.ai/)
- [Stability AI — Stable Video Diffusion](https://stability.ai/news/stable-video-diffusion-open-ai-video-model)
- [HeyGen 공식 사이트](https://www.heygen.com/)
- [D-ID 공식 사이트](https://www.d-id.com/)
- [Synthesia 공식 사이트](https://www.synthesia.io/)
- [Adobe Firefly Video](https://www.adobe.com/products/firefly/features/video.html)
- [C2PA — 콘텐츠 진위 메타데이터 표준](https://c2pa.org/)
- [EU AI Act — 생성형 AI 라벨링 규정](https://artificialintelligenceact.eu/)
- [Will Smith Spaghetti Video — AI 영상 발전 밈](https://knowyourmeme.com/memes/ai-will-smith-eating-spaghetti)
현재 단락 (1/230)
2022년 늦여름, 우리는 Stable Diffusion으로 처음 사진 같은 이미지를 만들었다. 2023년 초, ChatGPT가 글쓰기를 흔들었다. 2024년 봄, Suno와 Ud...