- Published on
AI 비디오 생성 2026 — Sora 2·Veo 3·Runway Gen-4·Pika·Kling·Luma·Hailuo·LTX 비교 심층 가이드
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 생성형 미디어의 세 번째 다리
2022년 늦여름, 우리는 Stable Diffusion으로 처음 사진 같은 이미지를 만들었다. 2023년 초, ChatGPT가 글쓰기를 흔들었다. 2024년 봄, Suno와 Udio가 음악을 받았다. 그리고 2024년 12월, OpenAI가 Sora를 일반에게 풀면서 마지막 한 축 — 영상 이 도착했다.
비디오는 가장 늦게 왔다. 이유는 단순하다. 시간이라는 차원이 한 축 더 붙으면, 한 프레임의 사실성을 확보한 모델도 시퀀스를 가로질러 일관성을 지켜야 한다. 같은 인물의 얼굴, 같은 배경의 가구, 같은 손의 손가락 개수가 24fps로 6초만 흘러도 144 프레임이다. 그 144 프레임을 통과해도 인간 눈에는 여전히 위화감이 남는다 — 손이 갑자기 늘어나거나, 컵이 슬그머니 의자가 되거나, 카메라가 물리적으로 불가능한 회전을 한다.
2026년 봄, 그 문제는 "완전히 풀린" 게 아니라 "실용권에 들어왔다." 6초짜리 SNS 클립은 사람 손을 거의 거치지 않아도 출하 품질이 나온다. 60초짜리 광고는 컷 단위로 끊어 생성하고 사람이 편집하면 1주일 작업이 하루로 줄어든다. 캐릭터 일관성은 Runway Gen-4·Sora 2가 "References" 기능을 표준화하면서 한층 안정됐고, Veo 3은 네이티브 오디오를 붙여 "무성 클립 → 후시 사운드" 워크플로 자체를 갈아엎었다.
이 글은 2026년 5월 시점의 AI 비디오 생성 시장 전체를 — 누가 무엇을 잘하고, 무엇을 못하고, 얼마인지, 어디에 써야 하는지 — 한 호흡에 정리한다. 8개 주요 모델을 11개 능력 벡터로 비교하고, 실무 결정 프레임워크와 저작권 논쟁까지 다룬다.
1. 생성형 미디어 트라이펙타 — 비디오는 왜 마지막이었나
세 가지 미디어의 모델 수렴 일정을 보면 비디오가 늦은 이유가 한눈에 보인다.
| 미디어 | 첫 "실용권" 출시 | 결정적 변곡점 | 6초 vs 60초 격차 |
|---|---|---|---|
| 텍스트 | 2022-11 ChatGPT | 2023-03 GPT-4 | 사실상 없음 |
| 이미지 | 2022-08 SD 1.4 | 2023-07 SDXL, 2024-08 FLUX | 한 장 = 한 장 |
| 음악 | 2024-04 Suno v3 | 2024-12 Suno v4, Udio | 30초 → 4분 어렵지 않음 |
| 비디오 | 2024-06 Runway Gen-3 | 2024-12 Sora, 2025-05 Veo 3 | 6초는 쉽고 60초는 어렵다 |
비디오의 본질적 어려움은 세 가지다.
- 시간 일관성 — 같은 객체가 프레임 간 동일한 외형·위치 분포를 유지해야 한다. 캐릭터 얼굴이 컷 사이에 미세하게 변하면 시청자가 즉시 알아챈다.
- 모션 사실성 — 옷자락, 머리카락, 액체, 폭발 같은 비강체 모션이 물리 법칙을 깨지 말아야 한다. 모델이 "물리 직관"을 가져야 한다는 뜻이다.
- 카메라 모션 — 사용자가 의도한 카메라 무브(달리·트랙·줌·크레인)를 명령으로 줄 수 있어야 한다. 이게 안 되면 영화 도구로 안 쓰인다.
이 세 가지를 다 푼 모델은 아직 없다. 하지만 부분적으로 푼 모델은 많고, 어느 문제를 어떻게 풀었느냐가 곧 각 모델의 정체성이 됐다.
2. 컨슈머 1티어 — Sora 2·Veo 3·Runway Gen-4
2.1 OpenAI Sora 2 — OG의 귀환
2024년 2월, OpenAI가 Sora를 발표하면서 모두를 흔들었다. 첫 데모(Tokyo woman walking)는 사실상 영화 같았다. 하지만 일반 공개는 더뎌서 2024-12-09에야 ChatGPT Plus·Pro 유저용으로 풀렸고, sora.com이라는 별도 앱도 함께 나왔다.
2026년 봄의 Sora 2는 그 사이 두 번 큰 업데이트를 거쳤다. 핵심은:
- 최대 길이 20초 (Pro 등급 60초). 1080p 30fps.
- Storyboard — 한 프롬프트로 여러 컷을 동시에 설계하는 UI. Sora의 트레이드마크.
- Remix·Re-cut·Loop·Blend — 기존 영상에 변주·확장·결합을 거는 도구들.
- Character References — 사진 한 장 또는 이전 영상에서 캐릭터를 추출해 다음 컷에 일관성 있게 등장시킨다.
- C2PA 메타데이터 — 출력에 출처 정보가 박힌다.
가격은 ChatGPT Plus(월 20달러)에 일정량 포함, Pro(월 200달러)에 대량 포함. 사용량 기반 추가 결제도 있다. 공식 API는 2026년 봄 시점 일부 파트너 한정 베타. Sora의 강점은 "프롬프트 이해도" — 길고 문학적인 프롬프트에서도 의도가 안 깨진다.
약점은 모션 강도가 보수적 이라는 것. 격렬한 액션, 폭발, 빠른 카메라 무브에서 Kling이나 Hailuo만큼 시원하게 나오지 않는다. OpenAI의 안전 정책이 모션의 거친 부분을 깎아낸다는 평이 많다.
2.2 Google Veo 3 — 오디오를 깔고 나온 한 방
2024년 5월 Google I/O에서 Veo 2가 발표됐고, 2025년 5월 I/O에서 Veo 3 가 등장했다. Veo 3의 헤드라인 한 줄은 단순했다 — "비디오에 네이티브 오디오가 같이 생성된다."
이게 왜 크냐. 다른 모든 모델은 무성 클립을 뱉고, 사용자가 ElevenLabs·Suno로 별도 사운드를 만들어 후편집에서 합쳤다. Veo 3은 단일 패스로:
- 앰비언트 사운드 — 빗소리, 도시 소음, 바람
- 포어그라운드 사운드 — 발자국, 컵 부딪치는 소리
- 대화 — 캐릭터의 입 모양과 동기화된 음성
세 가지를 모두 생성한다. "Pure Imagination" 데모(소년이 한 컷에서 도시·바다·우주·공룡까지 이동하며 노래)가 모든 걸 보여줬다 — 카메라·시각·노래가 한 번에 생성됐다.
Veo 3 사양:
- 길이 8초 기본, 일부 면 60초까지 확장.
- Veo 3.1 (2025-10) — 오디오 품질 개선, 모션 자연도 향상, 캐릭터 보존 강화.
- Gemini 앱·Vertex AI·Flow 세 곳에서 접근. Flow 가 영화감독용 통합 워크플로 도구.
- 가격은 Gemini Advanced 구독 또는 Vertex AI 사용량 기반.
약점은 프롬프트 충실도 — Sora만큼 긴 프롬프트의 미묘한 디테일을 다 잡지 못한다는 평. 또 YouTube 발신 인디케이터 처럼 Google 생태계에 묶여 있어 ChatGPT 사용자의 손이 잘 안 닿는다.
2.3 Runway Gen-4 — 영상 프로덕션의 표준 도구
Runway는 2023년 Gen-1, 2024년 Gen-3 Alpha, 그리고 2025년 봄 Gen-4 를 출시했다. Sora·Veo가 컨슈머·B2B의 양쪽 거인이라면, Runway는 현직 영상 제작자의 도구다.
Gen-4의 강점:
- References — 인물·로케이션·오브젝트의 일관성을 유지하는 표준 기능. Sora 2의 Character References보다 먼저 나와 더 성숙하다.
- Aleph — 2025-07 출시. 단순히 텍스트를 영상으로 바꾸는 게 아니라 기존 영상을 에디트하는 모델. 객체 추가·제거, 카메라 각도 변경, 스타일 변환 등.
- Act-Two — 2025-07 출시. 사람의 짧은 연기 영상을 입력으로 받아 캐릭터로 옮기는 모션 캡처 모델.
- 5초·10초 표준, 1080p, 가격은 크레딧 기반.
Runway가 영상 현장에서 자리 잡은 이유는 단순하다. "우리 워크플로에 들어가기 쉽다." Premiere·DaVinci·FCP와 어울리는 출력, 색공간 보존, 마스크·키프레임 인터페이스, 그리고 무엇보다 API. 광고 에이전시들이 Runway를 처음 부르는 모델로 쓴다.
약점은 컨슈머 가격 — 무료 등급은 거의 의미 없는 워터마크 클립, 본격적으로 쓰려면 월 35달러부터 시작해 빨리 올라간다. Sora의 "Plus 20달러에 다 됨"과 비교되는 지점.
3. 컨슈머 2티어 — Pika·Luma
3.1 Pika Labs — Pikaffects의 즐거움
Pika는 2024년 봄 Pika 1.0, 2024년 가을 Pika 2.0, 그리고 일련의 마이너 업데이트로 자리잡았다. 2025년에는 Pika 2.2, 2026년 봄 시점 Pika 2.5 까지 왔다.
Pika의 차별점:
- Pikaffects — 사물이 폭발하거나, 케이크가 되거나, 풍선처럼 부풀거나, 녹아내리거나, 압축되는 일련의 시각 효과 프리셋. SNS·밈에서 폭발적 인기.
- Pikadditions — 기존 영상에 새 객체를 합성한다 (예: 친구 옆에 강아지 추가).
- Pikaswap — 영상 안의 한 객체를 다른 객체로 바꾼다.
- Ingredients — 한 컷에 여러 캐릭터·로케이션·오브젝트 입력을 동시에 넣고, Pika가 합성된 장면을 만든다. 일관성을 위한 핵심 기능.
가격은 무료 등급 존재, 월 8달러부터 시작. 컨슈머 친화도에서는 가장 강하다. 단, 모션 일관성과 풀-사실성 측면에서는 Sora·Veo·Runway에 한 단계 뒤진다.
3.2 Luma Dream Machine — Ray2 + Photon
Luma AI는 원래 3D 캡처(Gaussian Splatting) 회사였다. 그 기술이 비디오로 옮겨오면서 2024-06 Dream Machine 첫 출시, 2025-01 Ray2 출시, 2025-08 Ray3 출시, 그리고 같은 라인업에 이미지 모델 Photon 까지 추가됐다.
Ray3의 특징:
- HDR 영상 — 일반 SDR이 아닌 HDR 출력 지원. 영상 후반작업에서 그레이딩 여지가 넓다.
- Frames — 시작 프레임·끝 프레임을 사진으로 주고 사이를 보간한다. 광고 컷 만들기에 최적.
- Camera Motion — 카메라 무브를 명령어로 명시한다 (orbit, dolly, push-in 등).
Photon은 Luma의 이미지 모델인데, Dream Machine과 연결되어 "이미지 → 영상" 워크플로가 깔끔하다. 가격은 무료 등급 + 월 9.99달러부터.
Luma의 강점은 모션 자연도와 카메라 무브 — 3D 캡처 회사 출신답게 공간 이해도가 높다. 약점은 프롬프트 이해도 — Sora·Veo만큼 길고 문학적인 지시를 잘 못 받는다.
4. Veo 3 오디오 — 진짜로 게임을 흔든 한 수
2025-05 Google I/O 데모에서 Veo 3이 보여준 한 가지는 단순했다. "비디오와 사운드가 같은 모델에서 한 번에 나온다." 그 자리에서 다른 모든 모델 회사가 따라잡기 시작했다.
4.1 왜 네이티브 오디오가 중요한가
기존 워크플로:
프롬프트 → 비디오 모델 → 무성 클립
→ 오디오 모델 (Suno·ElevenLabs)
→ 후편집에서 합성
문제: 영상의 발자국 타이밍, 입 모양, 카메라 무브 임팩트를 사후에 사운드와 맞추려면 사람이 들어야 한다. 6초 클립이라도 사람 시간이 든다.
Veo 3 워크플로:
프롬프트 → Veo 3 → 비디오 + 동기 사운드 (한 패스)
발자국·문 닫는 소리·환경음·심지어 짧은 대사까지 시각과 자동 동기화된다. "한 사람이 60초 광고를 통째로 만든다" 가 가능해진 첫 시점이다.
4.2 다른 회사의 대응
- Sora 2: 2025년 가을 업데이트에서 일부 오디오 생성 시작. 아직은 환경음 위주, 대화는 제한적.
- Runway: 2025-08 Act-Two에 음성·립싱크 기능 일부 도입. Veo 3만큼 완성도는 아직 아님.
- Kling: 2025년 후반 Kling Audio 발표. 환경음 중심.
- Hailuo: 음향효과 라이브러리와 통합되었지만 동기 생성은 아님.
요약: 2026년 봄 시점, "네이티브 동기 오디오"는 Veo 3의 독점적 강점. 다른 모델들은 1-2년 안에 따라잡을 것으로 보이지만, 현재로서는 Veo 3이 광고·콘텐츠 마케팅 시장의 한 축을 빠르게 가져가고 있다.
5. 중국 모델 웨이브 — Kling·Hailuo
서구 미디어의 시각에서 가장 충격적이었던 2024-2025년의 사건은 중국 모델이 모션과 캐릭터에서 서구를 앞질렀다는 사실 이었다.
5.1 Kuaishou Kling AI
Kuaishou(快手, 중국 쇼츠 플랫폼)가 운영하는 Kling은 2024-06 처음 데뷔하고, 2025년 봄 Kling 1.6, 가을 Kling 2.0, 그리고 2026년 봄 기준 Kling 2.1 까지 왔다.
Kling의 강점:
- 격렬한 모션 — 전투, 폭발, 비주얼 이펙트가 시원하게 나온다. Sora가 보수적이라면 Kling은 적극적.
- 캐릭터 일관성 — 얼굴 보존이 매우 뛰어나며 다중 캐릭터 장면에서도 안정적.
- 긴 클립 — 표준 5초·10초, Pro에서 최대 30초까지.
- 물리 표현 — 액체, 옷자락, 머리카락의 비강체 모션이 자연스럽다.
가격은 무료 등급 + 유료 등급(중국 위안 결제, 글로벌은 USD). 영어 인터페이스가 제공되고 글로벌 사용자가 빠르게 늘고 있다.
리스크: 데이터·개인정보 우려. 미국·유럽 기업이 사내 워크플로에 통합하기엔 정책적 부담이 있다. 그러나 개인 제작자·인디 영상·SNS 시장에서는 무시할 수 없는 점유율을 가져갔다.
5.2 MiniMax Hailuo AI
MiniMax는 2024년 후반 Hailuo 를 출시하면서 단기간에 SNS에서 폭발적으로 퍼졌다. 무료 등급의 너그러움과 출력 품질이 좋은 균형을 이뤘기 때문이다.
Hailuo의 특징:
- 밈 친화적 — 캐릭터를 코미컬한 액션에 넣는 데 강하다. TikTok·X에 Hailuo 클립이 끊임없이 올라왔다.
- 물리 사실성 — 액션 시퀀스에서 카메라 임팩트가 자연스럽다.
- 무료 워터마크 클립 — 진입장벽이 낮다.
2026년 시점 Hailuo는 MiniMax-Video-01 시리즈와 T2V-01-Director (감독자 모드, 카메라 명시 제어)로 확장됐다. 가격 구조는 무료 + 사용량 기반 + 구독 혼합.
5.3 그 외 중국 모델
- ByteDance Doubao Seedance — TikTok 모회사의 영상 모델. 자사 플랫폼 깊이 통합.
- Alibaba Wan — 오픈소스로 일부 가중치 공개. 연구자·개발자에게 영향력.
- Tencent Hunyuan Video — 오픈소스 공개, 모델 카드와 가중치를 함께 풀어 LTX-Video와 함께 오픈소스 진영의 두 축이 됐다.
요약: 중국 진영은 "오픈소스 + 강력한 자사 폐쇄 모델"의 양 축으로 서구를 빠르게 따라잡았다. 일부 능력 벡터에서는 이미 앞섰다.
6. 오픈소스·로컬 현실 — LTX·Mochi·Hunyuan·Wan
2024년까지 오픈소스 비디오 모델은 "재미는 있지만 출하 품질은 아닌" 상태였다. Stable Video Diffusion은 4초 정도의 짧은 클립을, AnimateDiff는 더 짧은 루프를 만들 수 있었지만 실무에 쓸 정도는 아니었다.
2024-12부터 그 풍경이 바뀌었다.
6.1 Lightricks LTX-Video — 오픈소스의 반격
Lightricks는 2024-11 LTX-Video 를 공개했다. 처음 보였을 때 충격은 두 가지였다:
- 속도 — 6초 클립을 H100에서 4초에 생성. 거의 실시간이다.
- 품질 — 768p 24fps 출력이 Pika·초기 Runway에 견줄 만했다.
2025년 봄 LTX-Video 0.9.5, 가을 LTX-Video 13B, 2026년 봄 시점 다양한 LoRA·컨트롤넷 옵션이 붙은 생태계가 형성됐다. ComfyUI 기본 노드로 통합됐고, 게이밍·아바타·VFX 회사가 사내 도구로 흡수했다.
6.2 Genmo Mochi 1
Genmo가 2024-10 공개한 Mochi 1, 그리고 2025년 후속 Mochi 1 Plus 는 480p 5.4초의 짧지만 강한 모션 품질을 보여줬다. Apache 2.0 라이선스로 풀려 상업 사용 자유.
6.3 Tencent HunyuanVideo
2024-12 텐센트가 HunyuanVideo 의 13B 모델 가중치를 공개했다. 24fps, 5초 출력. 폐쇄 모델 수준에 근접한 사실성으로 충격을 줬다.
6.4 Alibaba Wan2.1·2.2
2025년 알리바바가 Wan 2.1, Wan 2.2 가중치를 공개했다. 텍스트·이미지·비디오 멀티모달 모델 시리즈로, 영상 부분은 클로즈드 모델과 비교해도 약점이 적다.
6.5 Stability AI — 오픈소스의 전임자, 그러나
Stability AI의 Stable Video Diffusion 은 2023년 11월 공개되어 한때 오픈소스 비디오의 대표였지만, 2026년 시점에는 사실상 LTX·Hunyuan·Mochi·Wan에 자리를 내준 상태. Stability의 사업적 어려움과 새 모델 출시 둔화가 겹쳤다.
6.6 로컬 실행의 현실
오픈소스 모델을 실제로 집 컴퓨터에서 돌리려면:
| 모델 | VRAM (최소) | VRAM (권장) | 클립 길이 | 생성 시간 (H100) |
|---|---|---|---|---|
| LTX-Video 13B | 16GB | 24GB | 6초 | 4-8초 |
| Mochi 1 | 24GB | 48GB | 5.4초 | 60-120초 |
| HunyuanVideo | 60GB | 80GB | 5초 | 60-180초 |
| Wan 2.2 | 24GB | 48GB | 5초 | 30-90초 |
소비자 GPU(RTX 4090 24GB)에서 실용권에 있는 모델은 LTX-Video가 거의 유일하다. 그 외는 H100·A100급 서버를 빌려야 한다. 그래서 ComfyUI를 RunPod·Modal·Replicate에 띄워 시간당 결제하는 워크플로가 표준이 됐다.
7. 특수 목적 — Talking Head·립싱크 전문가
비디오 생성 시장에는 일반 모델과 다른 흐름이 하나 있다. 사람 얼굴·립싱크·아바타 영상 만 전문으로 하는 도구들이다.
7.1 HeyGen
- 200개 이상의 아바타, 40개 언어 음성.
- 사용자 자신의 사진·음성으로 디지털 트윈을 만들 수 있다.
- 영상의 입을 다른 언어로 리립싱크 (번역 더빙).
- 기업 마케팅·교육 영상에서 압도적 점유.
7.2 D-ID
- 정지된 인물 사진을 말하는 비디오로 변환.
- 빠르고 저렴, API 친화적.
- 교육 자료·인포메이션 비디오에 흔히 쓰임.
7.3 Synthesia
- 기업 교육·온보딩 영상의 표준.
- 대본 입력 → 아바타가 그 대본을 연기.
- B2B SaaS로 자리잡았으며 가격대도 높음.
이 카테고리는 Sora·Veo·Runway 같은 일반 모델이 침범하기 어렵다. 이유는 도메인 특화 — 립싱크 정확도, 다국어 더빙 워크플로, 기업 보안 인증(SOC 2, HIPAA), 브랜드 일관성 도구 등이 일반 모델에는 없다.
8. 능력·제품 매트릭스 — 한 페이지 비교
| 능력 / 모델 | Sora 2 | Veo 3 | Gen-4 | Pika 2.5 | Kling 2.1 | Luma Ray3 | Hailuo | LTX 13B |
|---|---|---|---|---|---|---|---|---|
| 최대 길이 | 60s | 60s | 10s | 10s | 30s | 10s | 10s | 8s |
| 해상도 | 1080p | 1080p | 1080p | 1080p | 1080p | HDR | 720p | 768p |
| 네이티브 오디오 | 부분 | 강력 | 부분 | 부분 | 부분 | 없음 | 라이브러리 | 없음 |
| 모션 강도 | 중 | 중 | 중 | 중 | 강 | 중 | 강 | 중 |
| 캐릭터 일관성 | 강 | 강 | 매우강 | 중 | 매우강 | 중 | 중 | 약 |
| 카메라 제어 | 강 | 중 | 매우강 | 약 | 중 | 매우강 | 강 | 중 |
| 프롬프트 충실도 | 매우강 | 강 | 강 | 중 | 중 | 중 | 중 | 중 |
| 편집(in-context) | Storyboard | Flow | Aleph | Pikaffects | 약 | Frames | 약 | LoRA |
| API 공급 | 베타 | Vertex AI | 정식 | 정식 | 정식 | 정식 | 정식 | 셀프호스팅 |
| 무료 등급 | 없음 | 제한 | 워터마크 | 있음 | 있음 | 있음 | 있음 | 무료 |
| 시작 가격(월) | 20 | Gemini Adv. | 35 | 8 | 사용량 | 9.99 | 사용량 | 0 |
"매우강·강·중·약" 은 2026년 5월 시점 일반적 평가의 정성적 요약. 모델 업데이트가 잦아 1-2개월 안에 순위가 바뀌기도 한다.
9. 결정 프레임워크 — 어떤 도구를 언제 쓸까
9.1 한 줄로
- 6-10초 SNS 클립이 필요해. 캐릭터 일관성 중요. → Kling 또는 Sora 2.
- 광고·마케팅 비디오 30-60초. 오디오 포함. → Veo 3.
- 영화·CF 후반작업의 도구로 워크플로 통합. → Runway Gen-4.
- 친구·가족과 노는 컨슈머 영상. 가격 민감. → Pika.
- 인물 토킹헤드, 다국어 더빙. → HeyGen.
- 사내 데이터 보안 필수, 로컬 실행. → LTX-Video.
- 개인 실험·해커톤·연구. → Hunyuan / Wan / Mochi (오픈소스).
- 3D 공간감·HDR 출력이 중요. → Luma Ray3.
9.2 결정 트리
Q1. 영상이 사내 보안/저작권 이슈로 외부 API 못 쓰는가?
Yes → LTX·Hunyuan·Wan 셀프호스팅 (이슈: GPU 비용)
No → Q2
Q2. 사운드가 영상과 동기화돼 한 번에 나와야 하는가?
Yes → Veo 3 (현재로선 거의 독점)
No → Q3
Q3. 같은 캐릭터/장소가 여러 컷에 걸쳐 등장하는가?
Yes → Runway Gen-4(References) 또는 Sora 2(Character Refs) 또는 Kling
No → Q4
Q4. 격렬한 액션/물리 모션이 핵심인가?
Yes → Kling 또는 Hailuo
No → Q5
Q5. 토킹헤드/다국어 더빙인가?
Yes → HeyGen / Synthesia
No → Q6
Q6. 가격이 가장 큰 변수인가?
Yes → Pika / Hailuo 무료 등급 / LTX-Video 로컬
No → Sora 2 또는 Runway Gen-4 (기본 안전선택)
9.3 워크플로 패턴
실무에서 한 모델만 쓰는 경우는 거의 없다. 자주 보이는 조합:
- 광고 30초 — Veo 3으로 메인 컷, Runway Aleph로 색감 보정·로고 합성, ElevenLabs로 더빙 보강.
- 뮤직비디오 3분 — Suno로 곡, Midjourney로 컨셉 스틸, Runway Gen-4로 5-10초 컷 × 20개, DaVinci Resolve로 편집.
- 인플루언서 데일리 영상 — 본인 셀카 영상 + HeyGen 다국어 더빙 + Pika로 컷 사이 트랜지션.
- 인디 단편 영화 — Sora Storyboard로 컷 설계, Runway Gen-4로 메인 컷 + 캐릭터 일관성, Hunyuan으로 보조 컷(비용 절감), Adobe Premiere로 편집.
10. 저작권·표현 윤리 — 풀리지 않은 매듭
10.1 학습 데이터 논쟁
음악(Suno·Udio가 RIAA에 피소됐다) 및 이미지(Getty Images vs Stability)에 이어, 영상 모델 회사들도 학습 데이터 출처에 대한 추궁을 받고 있다. 2025년 한 해 동안:
- 미국·EU 다수의 영상 콘텐츠 회사가 OpenAI·Runway·Pika를 상대로 디스커버리·법적 검토를 시작.
- 일부 회사(특히 광고 에이전시)는 "학습 데이터 출처가 합의된 모델만 사용" 정책을 도입.
- Adobe Firefly Video는 "Adobe Stock + 라이선스된 콘텐츠로만 학습" 을 마케팅 포인트로 강조.
10.2 딥페이크·인격권
영상은 이미지·음성보다 인격권 침해 잠재력이 크다. 2024-2025년 정치인·연예인 딥페이크 사건들이 줄을 이었고, EU AI Act는 "AI 생성 영상의 라벨링 의무" 를 명시했다. 미국은 주별로 다른 법이 들어서고 있다.
주요 모델 회사들의 대응:
- C2PA 메타데이터 임베드 — Sora, Veo, Runway가 모두 출력에 출처를 박는다.
- 얼굴 인식 제한 — 유명인 이름이 든 프롬프트를 거부.
- 선거 관련 필터 — 후보자 이름·정치 슬로건 모드는 활동을 제한.
10.3 노동시장 영향
VFX·애니메이터·광고 영상 제작자들이 가장 빠르게 영향을 받았다. 2024-2025년 미국 광고업계 일부 도매상은 30-40%의 외주 컷 단가 인하 를 목격했다고 보고된다. 한편 새 직군 — "AI 영상 디렉터", "프롬프트 엔지니어 for video" — 도 생겨났다.
10.4 우리가 해야 할 일
- 출처 명시 — 자체 콘텐츠에 AI 사용을 명확히 표기.
- 인격권 존중 — 본인 동의 없는 얼굴 사용 금지.
- 저작권 클린 모델 우선 — Adobe Firefly Video, 또는 명확히 라이선스된 데이터로 학습된 모델 선호.
- C2PA 보존 — 출력에 박힌 메타데이터를 후편집에서 일부러 제거하지 않기.
에필로그 — 영상이 글이 되었다
출하 전 체크리스트
- 클립이 한 컷인가 다중 컷인가 — 다중이면 References / Storyboard 도구 사용.
- 캐릭터·장소 일관성 검증을 거쳤는가.
- 모션이 의도한 카메라 무브를 따랐는가.
- 사운드가 필요한가 — Veo 3 단일 패스 vs 후편집 분리.
- 출력 해상도·프레임레이트가 후편집 파이프라인과 호환되는가.
- C2PA 메타데이터가 보존됐는가.
- 외부 데이터·실존 인물·브랜드 로고가 들어갔다면 권리 확인.
- 모델 사용 약관(상업 사용 가능 여부)을 확인했는가.
- 최종 영상에 AI 생성 사실을 어떻게 표기할지 결정했는가.
- 백업 — 원본 프롬프트·시드·중간 출력을 보관.
안티패턴 10가지
- 한 모델 한 도구만 고집해서 약점 보완을 안 함.
- 캐릭터 일관성 도구(References) 없이 컷마다 같은 인물을 다시 생성.
- 무성 클립을 만들고 사후에 매번 사운드를 별도로 합성 (Veo 3을 안 씀).
- 6초 클립을 24개 만들어서 1분으로 잇기 — 컷 간 점프가 시청자에게 보임.
- 격렬한 모션이 필요한데 Sora만 고집하다 보수적 출력을 받음.
- 토킹헤드 영상에 일반 모델 사용 — HeyGen이 훨씬 정확하다.
- 오픈소스 모델을 노트북에서 실행하려다 시간만 버림 — 클라우드 GPU 빌려야 함.
- 학습 데이터 라이선스 안 따지고 광고에 썼다가 클라이언트에서 거부됨.
- 카메라 무브를 텍스트로 명시 안 하고 모델이 알아서 한 모션에 의존.
- 첫 출력에서 마음에 안 들어도 시드·프롬프트를 미세하게 안 굴림.
다음 글 예고
다음 글 후보: Veo 3 광고 워크플로 — 60초 광고를 한 사람이 만든다, Runway Gen-4 References 실전 — 캐릭터 일관성을 잡는 5가지 트릭, 로컬 비디오 생성 셋업 가이드 — ComfyUI + LTX-Video를 RTX 4090에서.
"글로 적히던 이야기가 그림으로 그려졌고, 그림에 소리가 붙었고, 이제 그것이 움직인다. 영상은 글이 되었다 — 그리고 우리는 새로운 문법을 배우는 중이다."
— AI 비디오 생성 2026, 끝.
참고 / References
- OpenAI Sora 공식 사이트
- Sora — 사용 가이드
- Sora 2 발표 블로그
- Google Veo 3 공식 페이지
- Veo 3 Vertex AI 문서
- Google Flow — 영상 제작 도구
- Runway 공식 사이트
- Runway Gen-4 발표
- Runway Aleph
- Pika 공식 사이트
- Pika 2.0 블로그
- Kuaishou Kling AI
- MiniMax Hailuo AI
- Luma Dream Machine
- Luma Ray2 발표
- Lightricks LTX-Video
- LTX-Video GitHub
- Tencent HunyuanVideo
- Alibaba Wan 모델
- Genmo Mochi 1
- Stability AI — Stable Video Diffusion
- HeyGen 공식 사이트
- D-ID 공식 사이트
- Synthesia 공식 사이트
- Adobe Firefly Video
- C2PA — 콘텐츠 진위 메타데이터 표준
- EU AI Act — 생성형 AI 라벨링 규정
- Will Smith Spaghetti Video — AI 영상 발전 밈