Skip to content

Split View: AI 비디오 생성 2026 — Sora 2·Veo 3·Runway Gen-4·Pika·Kling·Luma·Hailuo·LTX 비교 심층 가이드

|

AI 비디오 생성 2026 — Sora 2·Veo 3·Runway Gen-4·Pika·Kling·Luma·Hailuo·LTX 비교 심층 가이드

프롤로그 — 생성형 미디어의 세 번째 다리

2022년 늦여름, 우리는 Stable Diffusion으로 처음 사진 같은 이미지를 만들었다. 2023년 초, ChatGPT가 글쓰기를 흔들었다. 2024년 봄, Suno와 Udio가 음악을 받았다. 그리고 2024년 12월, OpenAI가 Sora를 일반에게 풀면서 마지막 한 축 — 영상 이 도착했다.

비디오는 가장 늦게 왔다. 이유는 단순하다. 시간이라는 차원이 한 축 더 붙으면, 한 프레임의 사실성을 확보한 모델도 시퀀스를 가로질러 일관성을 지켜야 한다. 같은 인물의 얼굴, 같은 배경의 가구, 같은 손의 손가락 개수가 24fps로 6초만 흘러도 144 프레임이다. 그 144 프레임을 통과해도 인간 눈에는 여전히 위화감이 남는다 — 손이 갑자기 늘어나거나, 컵이 슬그머니 의자가 되거나, 카메라가 물리적으로 불가능한 회전을 한다.

2026년 봄, 그 문제는 "완전히 풀린" 게 아니라 "실용권에 들어왔다." 6초짜리 SNS 클립은 사람 손을 거의 거치지 않아도 출하 품질이 나온다. 60초짜리 광고는 컷 단위로 끊어 생성하고 사람이 편집하면 1주일 작업이 하루로 줄어든다. 캐릭터 일관성은 Runway Gen-4·Sora 2가 "References" 기능을 표준화하면서 한층 안정됐고, Veo 3은 네이티브 오디오를 붙여 "무성 클립 → 후시 사운드" 워크플로 자체를 갈아엎었다.

이 글은 2026년 5월 시점의 AI 비디오 생성 시장 전체를 — 누가 무엇을 잘하고, 무엇을 못하고, 얼마인지, 어디에 써야 하는지 — 한 호흡에 정리한다. 8개 주요 모델을 11개 능력 벡터로 비교하고, 실무 결정 프레임워크와 저작권 논쟁까지 다룬다.


1. 생성형 미디어 트라이펙타 — 비디오는 왜 마지막이었나

세 가지 미디어의 모델 수렴 일정을 보면 비디오가 늦은 이유가 한눈에 보인다.

미디어첫 "실용권" 출시결정적 변곡점6초 vs 60초 격차
텍스트2022-11 ChatGPT2023-03 GPT-4사실상 없음
이미지2022-08 SD 1.42023-07 SDXL, 2024-08 FLUX한 장 = 한 장
음악2024-04 Suno v32024-12 Suno v4, Udio30초 → 4분 어렵지 않음
비디오2024-06 Runway Gen-32024-12 Sora, 2025-05 Veo 36초는 쉽고 60초는 어렵다

비디오의 본질적 어려움은 세 가지다.

  1. 시간 일관성 — 같은 객체가 프레임 간 동일한 외형·위치 분포를 유지해야 한다. 캐릭터 얼굴이 컷 사이에 미세하게 변하면 시청자가 즉시 알아챈다.
  2. 모션 사실성 — 옷자락, 머리카락, 액체, 폭발 같은 비강체 모션이 물리 법칙을 깨지 말아야 한다. 모델이 "물리 직관"을 가져야 한다는 뜻이다.
  3. 카메라 모션 — 사용자가 의도한 카메라 무브(달리·트랙·줌·크레인)를 명령으로 줄 수 있어야 한다. 이게 안 되면 영화 도구로 안 쓰인다.

이 세 가지를 다 푼 모델은 아직 없다. 하지만 부분적으로 푼 모델은 많고, 어느 문제를 어떻게 풀었느냐가 곧 각 모델의 정체성이 됐다.


2. 컨슈머 1티어 — Sora 2·Veo 3·Runway Gen-4

2.1 OpenAI Sora 2 — OG의 귀환

2024년 2월, OpenAI가 Sora를 발표하면서 모두를 흔들었다. 첫 데모(Tokyo woman walking)는 사실상 영화 같았다. 하지만 일반 공개는 더뎌서 2024-12-09에야 ChatGPT Plus·Pro 유저용으로 풀렸고, sora.com이라는 별도 앱도 함께 나왔다.

2026년 봄의 Sora 2는 그 사이 두 번 큰 업데이트를 거쳤다. 핵심은:

  • 최대 길이 20초 (Pro 등급 60초). 1080p 30fps.
  • Storyboard — 한 프롬프트로 여러 컷을 동시에 설계하는 UI. Sora의 트레이드마크.
  • Remix·Re-cut·Loop·Blend — 기존 영상에 변주·확장·결합을 거는 도구들.
  • Character References — 사진 한 장 또는 이전 영상에서 캐릭터를 추출해 다음 컷에 일관성 있게 등장시킨다.
  • C2PA 메타데이터 — 출력에 출처 정보가 박힌다.

가격은 ChatGPT Plus(월 20달러)에 일정량 포함, Pro(월 200달러)에 대량 포함. 사용량 기반 추가 결제도 있다. 공식 API는 2026년 봄 시점 일부 파트너 한정 베타. Sora의 강점은 "프롬프트 이해도" — 길고 문학적인 프롬프트에서도 의도가 안 깨진다.

약점은 모션 강도가 보수적 이라는 것. 격렬한 액션, 폭발, 빠른 카메라 무브에서 Kling이나 Hailuo만큼 시원하게 나오지 않는다. OpenAI의 안전 정책이 모션의 거친 부분을 깎아낸다는 평이 많다.

2.2 Google Veo 3 — 오디오를 깔고 나온 한 방

2024년 5월 Google I/O에서 Veo 2가 발표됐고, 2025년 5월 I/O에서 Veo 3 가 등장했다. Veo 3의 헤드라인 한 줄은 단순했다 — "비디오에 네이티브 오디오가 같이 생성된다."

이게 왜 크냐. 다른 모든 모델은 무성 클립을 뱉고, 사용자가 ElevenLabs·Suno로 별도 사운드를 만들어 후편집에서 합쳤다. Veo 3은 단일 패스로:

  • 앰비언트 사운드 — 빗소리, 도시 소음, 바람
  • 포어그라운드 사운드 — 발자국, 컵 부딪치는 소리
  • 대화 — 캐릭터의 입 모양과 동기화된 음성

세 가지를 모두 생성한다. "Pure Imagination" 데모(소년이 한 컷에서 도시·바다·우주·공룡까지 이동하며 노래)가 모든 걸 보여줬다 — 카메라·시각·노래가 한 번에 생성됐다.

Veo 3 사양:

  • 길이 8초 기본, 일부 면 60초까지 확장.
  • Veo 3.1 (2025-10) — 오디오 품질 개선, 모션 자연도 향상, 캐릭터 보존 강화.
  • Gemini 앱·Vertex AI·Flow 세 곳에서 접근. Flow 가 영화감독용 통합 워크플로 도구.
  • 가격은 Gemini Advanced 구독 또는 Vertex AI 사용량 기반.

약점은 프롬프트 충실도 — Sora만큼 긴 프롬프트의 미묘한 디테일을 다 잡지 못한다는 평. 또 YouTube 발신 인디케이터 처럼 Google 생태계에 묶여 있어 ChatGPT 사용자의 손이 잘 안 닿는다.

2.3 Runway Gen-4 — 영상 프로덕션의 표준 도구

Runway는 2023년 Gen-1, 2024년 Gen-3 Alpha, 그리고 2025년 봄 Gen-4 를 출시했다. Sora·Veo가 컨슈머·B2B의 양쪽 거인이라면, Runway는 현직 영상 제작자의 도구다.

Gen-4의 강점:

  • References — 인물·로케이션·오브젝트의 일관성을 유지하는 표준 기능. Sora 2의 Character References보다 먼저 나와 더 성숙하다.
  • Aleph — 2025-07 출시. 단순히 텍스트를 영상으로 바꾸는 게 아니라 기존 영상을 에디트하는 모델. 객체 추가·제거, 카메라 각도 변경, 스타일 변환 등.
  • Act-Two — 2025-07 출시. 사람의 짧은 연기 영상을 입력으로 받아 캐릭터로 옮기는 모션 캡처 모델.
  • 5초·10초 표준, 1080p, 가격은 크레딧 기반.

Runway가 영상 현장에서 자리 잡은 이유는 단순하다. "우리 워크플로에 들어가기 쉽다." Premiere·DaVinci·FCP와 어울리는 출력, 색공간 보존, 마스크·키프레임 인터페이스, 그리고 무엇보다 API. 광고 에이전시들이 Runway를 처음 부르는 모델로 쓴다.

약점은 컨슈머 가격 — 무료 등급은 거의 의미 없는 워터마크 클립, 본격적으로 쓰려면 월 35달러부터 시작해 빨리 올라간다. Sora의 "Plus 20달러에 다 됨"과 비교되는 지점.


3. 컨슈머 2티어 — Pika·Luma

3.1 Pika Labs — Pikaffects의 즐거움

Pika는 2024년 봄 Pika 1.0, 2024년 가을 Pika 2.0, 그리고 일련의 마이너 업데이트로 자리잡았다. 2025년에는 Pika 2.2, 2026년 봄 시점 Pika 2.5 까지 왔다.

Pika의 차별점:

  • Pikaffects — 사물이 폭발하거나, 케이크가 되거나, 풍선처럼 부풀거나, 녹아내리거나, 압축되는 일련의 시각 효과 프리셋. SNS·밈에서 폭발적 인기.
  • Pikadditions — 기존 영상에 새 객체를 합성한다 (예: 친구 옆에 강아지 추가).
  • Pikaswap — 영상 안의 한 객체를 다른 객체로 바꾼다.
  • Ingredients — 한 컷에 여러 캐릭터·로케이션·오브젝트 입력을 동시에 넣고, Pika가 합성된 장면을 만든다. 일관성을 위한 핵심 기능.

가격은 무료 등급 존재, 월 8달러부터 시작. 컨슈머 친화도에서는 가장 강하다. 단, 모션 일관성풀-사실성 측면에서는 Sora·Veo·Runway에 한 단계 뒤진다.

3.2 Luma Dream Machine — Ray2 + Photon

Luma AI는 원래 3D 캡처(Gaussian Splatting) 회사였다. 그 기술이 비디오로 옮겨오면서 2024-06 Dream Machine 첫 출시, 2025-01 Ray2 출시, 2025-08 Ray3 출시, 그리고 같은 라인업에 이미지 모델 Photon 까지 추가됐다.

Ray3의 특징:

  • HDR 영상 — 일반 SDR이 아닌 HDR 출력 지원. 영상 후반작업에서 그레이딩 여지가 넓다.
  • Frames — 시작 프레임·끝 프레임을 사진으로 주고 사이를 보간한다. 광고 컷 만들기에 최적.
  • Camera Motion — 카메라 무브를 명령어로 명시한다 (orbit, dolly, push-in 등).

Photon은 Luma의 이미지 모델인데, Dream Machine과 연결되어 "이미지 → 영상" 워크플로가 깔끔하다. 가격은 무료 등급 + 월 9.99달러부터.

Luma의 강점은 모션 자연도와 카메라 무브 — 3D 캡처 회사 출신답게 공간 이해도가 높다. 약점은 프롬프트 이해도 — Sora·Veo만큼 길고 문학적인 지시를 잘 못 받는다.


4. Veo 3 오디오 — 진짜로 게임을 흔든 한 수

2025-05 Google I/O 데모에서 Veo 3이 보여준 한 가지는 단순했다. "비디오와 사운드가 같은 모델에서 한 번에 나온다." 그 자리에서 다른 모든 모델 회사가 따라잡기 시작했다.

4.1 왜 네이티브 오디오가 중요한가

기존 워크플로:

프롬프트 → 비디오 모델 → 무성 클립
                     → 오디오 모델 (Suno·ElevenLabs)
                     → 후편집에서 합성

문제: 영상의 발자국 타이밍, 입 모양, 카메라 무브 임팩트를 사후에 사운드와 맞추려면 사람이 들어야 한다. 6초 클립이라도 사람 시간이 든다.

Veo 3 워크플로:

프롬프트 → Veo 3 → 비디오 + 동기 사운드 (한 패스)

발자국·문 닫는 소리·환경음·심지어 짧은 대사까지 시각과 자동 동기화된다. "한 사람이 60초 광고를 통째로 만든다" 가 가능해진 첫 시점이다.

4.2 다른 회사의 대응

  • Sora 2: 2025년 가을 업데이트에서 일부 오디오 생성 시작. 아직은 환경음 위주, 대화는 제한적.
  • Runway: 2025-08 Act-Two에 음성·립싱크 기능 일부 도입. Veo 3만큼 완성도는 아직 아님.
  • Kling: 2025년 후반 Kling Audio 발표. 환경음 중심.
  • Hailuo: 음향효과 라이브러리와 통합되었지만 동기 생성은 아님.

요약: 2026년 봄 시점, "네이티브 동기 오디오"는 Veo 3의 독점적 강점. 다른 모델들은 1-2년 안에 따라잡을 것으로 보이지만, 현재로서는 Veo 3이 광고·콘텐츠 마케팅 시장의 한 축을 빠르게 가져가고 있다.


5. 중국 모델 웨이브 — Kling·Hailuo

서구 미디어의 시각에서 가장 충격적이었던 2024-2025년의 사건은 중국 모델이 모션과 캐릭터에서 서구를 앞질렀다는 사실 이었다.

5.1 Kuaishou Kling AI

Kuaishou(快手, 중국 쇼츠 플랫폼)가 운영하는 Kling은 2024-06 처음 데뷔하고, 2025년 봄 Kling 1.6, 가을 Kling 2.0, 그리고 2026년 봄 기준 Kling 2.1 까지 왔다.

Kling의 강점:

  • 격렬한 모션 — 전투, 폭발, 비주얼 이펙트가 시원하게 나온다. Sora가 보수적이라면 Kling은 적극적.
  • 캐릭터 일관성 — 얼굴 보존이 매우 뛰어나며 다중 캐릭터 장면에서도 안정적.
  • 긴 클립 — 표준 5초·10초, Pro에서 최대 30초까지.
  • 물리 표현 — 액체, 옷자락, 머리카락의 비강체 모션이 자연스럽다.

가격은 무료 등급 + 유료 등급(중국 위안 결제, 글로벌은 USD). 영어 인터페이스가 제공되고 글로벌 사용자가 빠르게 늘고 있다.

리스크: 데이터·개인정보 우려. 미국·유럽 기업이 사내 워크플로에 통합하기엔 정책적 부담이 있다. 그러나 개인 제작자·인디 영상·SNS 시장에서는 무시할 수 없는 점유율을 가져갔다.

5.2 MiniMax Hailuo AI

MiniMax는 2024년 후반 Hailuo 를 출시하면서 단기간에 SNS에서 폭발적으로 퍼졌다. 무료 등급의 너그러움과 출력 품질이 좋은 균형을 이뤘기 때문이다.

Hailuo의 특징:

  • 밈 친화적 — 캐릭터를 코미컬한 액션에 넣는 데 강하다. TikTok·X에 Hailuo 클립이 끊임없이 올라왔다.
  • 물리 사실성 — 액션 시퀀스에서 카메라 임팩트가 자연스럽다.
  • 무료 워터마크 클립 — 진입장벽이 낮다.

2026년 시점 Hailuo는 MiniMax-Video-01 시리즈와 T2V-01-Director (감독자 모드, 카메라 명시 제어)로 확장됐다. 가격 구조는 무료 + 사용량 기반 + 구독 혼합.

5.3 그 외 중국 모델

  • ByteDance Doubao Seedance — TikTok 모회사의 영상 모델. 자사 플랫폼 깊이 통합.
  • Alibaba Wan — 오픈소스로 일부 가중치 공개. 연구자·개발자에게 영향력.
  • Tencent Hunyuan Video — 오픈소스 공개, 모델 카드와 가중치를 함께 풀어 LTX-Video와 함께 오픈소스 진영의 두 축이 됐다.

요약: 중국 진영은 "오픈소스 + 강력한 자사 폐쇄 모델"의 양 축으로 서구를 빠르게 따라잡았다. 일부 능력 벡터에서는 이미 앞섰다.


6. 오픈소스·로컬 현실 — LTX·Mochi·Hunyuan·Wan

2024년까지 오픈소스 비디오 모델은 "재미는 있지만 출하 품질은 아닌" 상태였다. Stable Video Diffusion은 4초 정도의 짧은 클립을, AnimateDiff는 더 짧은 루프를 만들 수 있었지만 실무에 쓸 정도는 아니었다.

2024-12부터 그 풍경이 바뀌었다.

6.1 Lightricks LTX-Video — 오픈소스의 반격

Lightricks는 2024-11 LTX-Video 를 공개했다. 처음 보였을 때 충격은 두 가지였다:

  1. 속도 — 6초 클립을 H100에서 4초에 생성. 거의 실시간이다.
  2. 품질 — 768p 24fps 출력이 Pika·초기 Runway에 견줄 만했다.

2025년 봄 LTX-Video 0.9.5, 가을 LTX-Video 13B, 2026년 봄 시점 다양한 LoRA·컨트롤넷 옵션이 붙은 생태계가 형성됐다. ComfyUI 기본 노드로 통합됐고, 게이밍·아바타·VFX 회사가 사내 도구로 흡수했다.

6.2 Genmo Mochi 1

Genmo가 2024-10 공개한 Mochi 1, 그리고 2025년 후속 Mochi 1 Plus 는 480p 5.4초의 짧지만 강한 모션 품질을 보여줬다. Apache 2.0 라이선스로 풀려 상업 사용 자유.

6.3 Tencent HunyuanVideo

2024-12 텐센트가 HunyuanVideo 의 13B 모델 가중치를 공개했다. 24fps, 5초 출력. 폐쇄 모델 수준에 근접한 사실성으로 충격을 줬다.

6.4 Alibaba Wan2.1·2.2

2025년 알리바바가 Wan 2.1, Wan 2.2 가중치를 공개했다. 텍스트·이미지·비디오 멀티모달 모델 시리즈로, 영상 부분은 클로즈드 모델과 비교해도 약점이 적다.

6.5 Stability AI — 오픈소스의 전임자, 그러나

Stability AI의 Stable Video Diffusion 은 2023년 11월 공개되어 한때 오픈소스 비디오의 대표였지만, 2026년 시점에는 사실상 LTX·Hunyuan·Mochi·Wan에 자리를 내준 상태. Stability의 사업적 어려움과 새 모델 출시 둔화가 겹쳤다.

6.6 로컬 실행의 현실

오픈소스 모델을 실제로 집 컴퓨터에서 돌리려면:

모델VRAM (최소)VRAM (권장)클립 길이생성 시간 (H100)
LTX-Video 13B16GB24GB6초4-8초
Mochi 124GB48GB5.4초60-120초
HunyuanVideo60GB80GB5초60-180초
Wan 2.224GB48GB5초30-90초

소비자 GPU(RTX 4090 24GB)에서 실용권에 있는 모델은 LTX-Video가 거의 유일하다. 그 외는 H100·A100급 서버를 빌려야 한다. 그래서 ComfyUI를 RunPod·Modal·Replicate에 띄워 시간당 결제하는 워크플로가 표준이 됐다.


7. 특수 목적 — Talking Head·립싱크 전문가

비디오 생성 시장에는 일반 모델과 다른 흐름이 하나 있다. 사람 얼굴·립싱크·아바타 영상 만 전문으로 하는 도구들이다.

7.1 HeyGen

  • 200개 이상의 아바타, 40개 언어 음성.
  • 사용자 자신의 사진·음성으로 디지털 트윈을 만들 수 있다.
  • 영상의 입을 다른 언어로 리립싱크 (번역 더빙).
  • 기업 마케팅·교육 영상에서 압도적 점유.

7.2 D-ID

  • 정지된 인물 사진을 말하는 비디오로 변환.
  • 빠르고 저렴, API 친화적.
  • 교육 자료·인포메이션 비디오에 흔히 쓰임.

7.3 Synthesia

  • 기업 교육·온보딩 영상의 표준.
  • 대본 입력 → 아바타가 그 대본을 연기.
  • B2B SaaS로 자리잡았으며 가격대도 높음.

이 카테고리는 Sora·Veo·Runway 같은 일반 모델이 침범하기 어렵다. 이유는 도메인 특화 — 립싱크 정확도, 다국어 더빙 워크플로, 기업 보안 인증(SOC 2, HIPAA), 브랜드 일관성 도구 등이 일반 모델에는 없다.


8. 능력·제품 매트릭스 — 한 페이지 비교

능력 / 모델Sora 2Veo 3Gen-4Pika 2.5Kling 2.1Luma Ray3HailuoLTX 13B
최대 길이60s60s10s10s30s10s10s8s
해상도1080p1080p1080p1080p1080pHDR720p768p
네이티브 오디오부분강력부분부분부분없음라이브러리없음
모션 강도
캐릭터 일관성매우강매우강
카메라 제어매우강매우강
프롬프트 충실도매우강
편집(in-context)StoryboardFlowAlephPikaffectsFramesLoRA
API 공급베타Vertex AI정식정식정식정식정식셀프호스팅
무료 등급없음제한워터마크있음있음있음있음무료
시작 가격(월)20Gemini Adv.358사용량9.99사용량0

"매우강·강·중·약" 은 2026년 5월 시점 일반적 평가의 정성적 요약. 모델 업데이트가 잦아 1-2개월 안에 순위가 바뀌기도 한다.


9. 결정 프레임워크 — 어떤 도구를 언제 쓸까

9.1 한 줄로

  • 6-10초 SNS 클립이 필요해. 캐릭터 일관성 중요. → Kling 또는 Sora 2.
  • 광고·마케팅 비디오 30-60초. 오디오 포함. → Veo 3.
  • 영화·CF 후반작업의 도구로 워크플로 통합. → Runway Gen-4.
  • 친구·가족과 노는 컨슈머 영상. 가격 민감. → Pika.
  • 인물 토킹헤드, 다국어 더빙. → HeyGen.
  • 사내 데이터 보안 필수, 로컬 실행. → LTX-Video.
  • 개인 실험·해커톤·연구. → Hunyuan / Wan / Mochi (오픈소스).
  • 3D 공간감·HDR 출력이 중요. → Luma Ray3.

9.2 결정 트리

Q1. 영상이 사내 보안/저작권 이슈로 외부 API 못 쓰는가?
  Yes → LTX·Hunyuan·Wan 셀프호스팅 (이슈: GPU 비용)
  No → Q2

Q2. 사운드가 영상과 동기화돼 한 번에 나와야 하는가?
  Yes → Veo 3 (현재로선 거의 독점)
  No → Q3

Q3. 같은 캐릭터/장소가 여러 컷에 걸쳐 등장하는가?
  Yes → Runway Gen-4(References) 또는 Sora 2(Character Refs) 또는 Kling
  No → Q4

Q4. 격렬한 액션/물리 모션이 핵심인가?
  Yes → Kling 또는 Hailuo
  No → Q5

Q5. 토킹헤드/다국어 더빙인가?
  Yes → HeyGen / Synthesia
  No → Q6

Q6. 가격이 가장 큰 변수인가?
  Yes → Pika / Hailuo 무료 등급 / LTX-Video 로컬
  No → Sora 2 또는 Runway Gen-4 (기본 안전선택)

9.3 워크플로 패턴

실무에서 한 모델만 쓰는 경우는 거의 없다. 자주 보이는 조합:

  • 광고 30초 — Veo 3으로 메인 컷, Runway Aleph로 색감 보정·로고 합성, ElevenLabs로 더빙 보강.
  • 뮤직비디오 3분 — Suno로 곡, Midjourney로 컨셉 스틸, Runway Gen-4로 5-10초 컷 × 20개, DaVinci Resolve로 편집.
  • 인플루언서 데일리 영상 — 본인 셀카 영상 + HeyGen 다국어 더빙 + Pika로 컷 사이 트랜지션.
  • 인디 단편 영화 — Sora Storyboard로 컷 설계, Runway Gen-4로 메인 컷 + 캐릭터 일관성, Hunyuan으로 보조 컷(비용 절감), Adobe Premiere로 편집.

10. 저작권·표현 윤리 — 풀리지 않은 매듭

10.1 학습 데이터 논쟁

음악(Suno·Udio가 RIAA에 피소됐다) 및 이미지(Getty Images vs Stability)에 이어, 영상 모델 회사들도 학습 데이터 출처에 대한 추궁을 받고 있다. 2025년 한 해 동안:

  • 미국·EU 다수의 영상 콘텐츠 회사가 OpenAI·Runway·Pika를 상대로 디스커버리·법적 검토를 시작.
  • 일부 회사(특히 광고 에이전시)는 "학습 데이터 출처가 합의된 모델만 사용" 정책을 도입.
  • Adobe Firefly Video는 "Adobe Stock + 라이선스된 콘텐츠로만 학습" 을 마케팅 포인트로 강조.

10.2 딥페이크·인격권

영상은 이미지·음성보다 인격권 침해 잠재력이 크다. 2024-2025년 정치인·연예인 딥페이크 사건들이 줄을 이었고, EU AI Act는 "AI 생성 영상의 라벨링 의무" 를 명시했다. 미국은 주별로 다른 법이 들어서고 있다.

주요 모델 회사들의 대응:

  • C2PA 메타데이터 임베드 — Sora, Veo, Runway가 모두 출력에 출처를 박는다.
  • 얼굴 인식 제한 — 유명인 이름이 든 프롬프트를 거부.
  • 선거 관련 필터 — 후보자 이름·정치 슬로건 모드는 활동을 제한.

10.3 노동시장 영향

VFX·애니메이터·광고 영상 제작자들이 가장 빠르게 영향을 받았다. 2024-2025년 미국 광고업계 일부 도매상은 30-40%의 외주 컷 단가 인하 를 목격했다고 보고된다. 한편 새 직군 — "AI 영상 디렉터", "프롬프트 엔지니어 for video" — 도 생겨났다.

10.4 우리가 해야 할 일

  • 출처 명시 — 자체 콘텐츠에 AI 사용을 명확히 표기.
  • 인격권 존중 — 본인 동의 없는 얼굴 사용 금지.
  • 저작권 클린 모델 우선 — Adobe Firefly Video, 또는 명확히 라이선스된 데이터로 학습된 모델 선호.
  • C2PA 보존 — 출력에 박힌 메타데이터를 후편집에서 일부러 제거하지 않기.

에필로그 — 영상이 글이 되었다

출하 전 체크리스트

  • 클립이 한 컷인가 다중 컷인가 — 다중이면 References / Storyboard 도구 사용.
  • 캐릭터·장소 일관성 검증을 거쳤는가.
  • 모션이 의도한 카메라 무브를 따랐는가.
  • 사운드가 필요한가 — Veo 3 단일 패스 vs 후편집 분리.
  • 출력 해상도·프레임레이트가 후편집 파이프라인과 호환되는가.
  • C2PA 메타데이터가 보존됐는가.
  • 외부 데이터·실존 인물·브랜드 로고가 들어갔다면 권리 확인.
  • 모델 사용 약관(상업 사용 가능 여부)을 확인했는가.
  • 최종 영상에 AI 생성 사실을 어떻게 표기할지 결정했는가.
  • 백업 — 원본 프롬프트·시드·중간 출력을 보관.

안티패턴 10가지

  1. 한 모델 한 도구만 고집해서 약점 보완을 안 함.
  2. 캐릭터 일관성 도구(References) 없이 컷마다 같은 인물을 다시 생성.
  3. 무성 클립을 만들고 사후에 매번 사운드를 별도로 합성 (Veo 3을 안 씀).
  4. 6초 클립을 24개 만들어서 1분으로 잇기 — 컷 간 점프가 시청자에게 보임.
  5. 격렬한 모션이 필요한데 Sora만 고집하다 보수적 출력을 받음.
  6. 토킹헤드 영상에 일반 모델 사용 — HeyGen이 훨씬 정확하다.
  7. 오픈소스 모델을 노트북에서 실행하려다 시간만 버림 — 클라우드 GPU 빌려야 함.
  8. 학습 데이터 라이선스 안 따지고 광고에 썼다가 클라이언트에서 거부됨.
  9. 카메라 무브를 텍스트로 명시 안 하고 모델이 알아서 한 모션에 의존.
  10. 첫 출력에서 마음에 안 들어도 시드·프롬프트를 미세하게 안 굴림.

다음 글 예고

다음 글 후보: Veo 3 광고 워크플로 — 60초 광고를 한 사람이 만든다, Runway Gen-4 References 실전 — 캐릭터 일관성을 잡는 5가지 트릭, 로컬 비디오 생성 셋업 가이드 — ComfyUI + LTX-Video를 RTX 4090에서.

"글로 적히던 이야기가 그림으로 그려졌고, 그림에 소리가 붙었고, 이제 그것이 움직인다. 영상은 글이 되었다 — 그리고 우리는 새로운 문법을 배우는 중이다."

— AI 비디오 생성 2026, 끝.


참고 / References

AI Video Generation in 2026 — Sora 2, Veo 3, Runway Gen-4, Pika, Kling, Luma, Hailuo, LTX (a deep-dive comparison)

Prologue — The third leg of generative media

In late summer 2022, we generated our first photoreal images with Stable Diffusion. Early 2023, ChatGPT rewrote how we wrote. Spring 2024, Suno and Udio handed us music. And then in December 2024, OpenAI shipped Sora to the public — the last leg, video, finally arrived.

Video came last for a simple reason. Add one more dimension (time), and a model that nails a single frame still has to maintain consistency across the sequence. The same person's face, the same chair in the background, the same hand with the same number of fingers — at 24 fps, six seconds is 144 frames. Even after threading those 144 frames, the human eye still senses something off: a hand suddenly grows another digit, a cup quietly morphs into a chair, a camera rotates in a way no physical rig could.

By spring 2026, the problem is not "solved" — it's "in the usable zone." A six-second social clip ships at production quality with almost no human polish. A sixty-second ad, cut by cut with light human editing, compresses a week of work into a day. Character consistency stabilized once Runway Gen-4 and Sora 2 standardized "References." Veo 3 added native synchronized audio and gutted the entire "silent clip → post-foley" workflow.

This post is a single-pass map of the AI-video market as of May 2026 — who's good at what, who's bad at what, how much, where to use them. Eight major models compared across eleven capability vectors, plus a practical decision framework and a section on the copyright fight.


1. The generative-media trifecta — why video came last

Looking at the convergence timeline for three media at a glance shows why video took longer.

MediumFirst "usable" releaseDecisive inflection6-sec vs 60-sec gap
Text2022-11 ChatGPT2023-03 GPT-4Effectively none
Image2022-08 SD 1.42023-07 SDXL, 2024-08 FLUXOne frame is one frame
Music2024-04 Suno v32024-12 Suno v4, Udio30 sec to 4 min — not hard
Video2024-06 Runway Gen-32024-12 Sora, 2025-05 Veo 36 sec easy, 60 sec hard

Video is hard for three intrinsic reasons.

  1. Temporal coherence — the same object must maintain consistent appearance and position across frames. If a character's face drifts subtly between cuts, viewers catch it instantly.
  2. Motion realism — non-rigid motion (clothes, hair, fluids, explosions) must not break physics. The model needs "physical intuition."
  3. Camera control — the user must be able to specify camera moves (dolly, track, zoom, crane) as commands. Without it the model never becomes a film tool.

No model has fully cracked all three yet. But many have cracked them partially, and which problem they cracked, and how is now each model's identity.


2. Consumer tier 1 — Sora 2, Veo 3, Runway Gen-4

2.1 OpenAI Sora 2 — The OG returns

In February 2024 OpenAI announced Sora and shook the room. The first demo (the Tokyo woman walking) looked like a film clip. Public release dragged, though — Plus and Pro users only got access on 2024-12-09 alongside a dedicated sora.com app.

By spring 2026 Sora 2 has been through two big updates. The headline points:

  • Max length 20 seconds (60 seconds on Pro), 1080p 30fps.
  • Storyboard — a UI for laying out multiple cuts from a single prompt. Sora's signature.
  • Remix, Re-cut, Loop, Blend — tools for re-variation, extension, and combination of existing clips.
  • Character References — extract a character from a single photo or prior clip and reuse it consistently in the next shot.
  • C2PA metadata — provenance is embedded in the output.

Pricing: a limited allowance is bundled into ChatGPT Plus (20 USD/month), a much larger one in Pro (200 USD/month), with usage-based add-ons. The official API is in limited partner beta as of spring 2026. Sora's strength is prompt fidelity — long, literary prompts survive intact.

The weakness is that motion is conservative. Aggressive action, explosions, fast camera moves don't come out as kinetic as Kling or Hailuo. Many observers attribute this to OpenAI's safety policy shaving the rougher edges off motion.

2.2 Google Veo 3 — Audio was the killer feature

Veo 2 was announced at Google I/O 2024. At I/O 2025, Veo 3 landed. Its one-line headline was simple: "audio is generated natively, in the same pass as the video."

Why is that a big deal? Every other model spits a silent clip and the user separately generates audio with ElevenLabs or Suno and stitches it in post. Veo 3 does all of this in a single pass:

  • Ambient sound — rain, city noise, wind.
  • Foreground sound — footsteps, cups clinking.
  • Dialogue — lip-synced character speech.

The "Pure Imagination" demo (a boy traversing city, ocean, space, and dinosaurs while singing in a single shot) showed the lot — camera, visuals, song generated together.

Veo 3 specs:

  • 8 seconds default, some surfaces stretching to 60.
  • Veo 3.1 (October 2025) — better audio, more natural motion, stronger character preservation.
  • Available via Gemini app, Vertex AI, and Flow. Flow is the integrated workflow tool for filmmakers.
  • Pricing through Gemini Advanced subscription or Vertex AI usage.

Weakness: prompt fidelity isn't as tight as Sora — long, nuanced prompts lose some detail. And Veo lives inside Google's ecosystem (the YouTube provenance indicator, for instance), which keeps it slightly out of reach for ChatGPT-native users.

2.3 Runway Gen-4 — The standard tool in real video production

Runway shipped Gen-1 in 2023, Gen-3 Alpha in 2024, and Gen-4 in spring 2025. If Sora and Veo are the consumer and B2B giants, Runway is the working production tool.

Gen-4 strengths:

  • References — the canonical feature for character, location, and object consistency. Predates Sora 2's Character References and is more mature.
  • Aleph (July 2025) — not text-to-video; it edits an existing video. Add or remove objects, change camera angle, swap styles.
  • Act-Two (July 2025) — feed in a short performance clip from a person, retarget that motion onto a character.
  • 5-second and 10-second standard, 1080p, credit-based pricing.

Why Runway took root on real sets is simple: "it fits the workflow." Outputs that play nicely with Premiere/DaVinci/FCP, color-space preservation, mask and keyframe controls, and above all an API. Ad agencies use Runway as the first model in the pipe.

Weakness: consumer pricing. The free tier is basically a watermarked sample, and serious use starts at 35 USD/month and climbs fast. Compare against Sora's "everything in Plus 20 USD."


3. Consumer tier 2 — Pika, Luma

3.1 Pika Labs — The fun of Pikaffects

Pika launched Pika 1.0 in spring 2024, Pika 2.0 that fall, and a string of minor releases since. 2025 brought Pika 2.2, and Pika 2.5 by spring 2026.

Pika's differentiators:

  • Pikaffects — a library of visual effects that explode an object, turn it into cake, balloon it, melt it, compress it, and so on. A social-meme hit.
  • Pikadditions — composite new objects into existing video (drop a dog next to a friend).
  • Pikaswap — swap one object in the video for another.
  • Ingredients — feed multiple characters, locations, and objects into one shot and Pika composes them. Central to consistency.

Pricing: there's a real free tier, and paid starts at 8 USD/month. Most consumer-friendly of the bunch. Motion consistency and full photorealism are still a notch behind Sora, Veo, and Runway.

3.2 Luma Dream Machine — Ray2/Ray3 plus Photon

Luma AI was originally a 3D capture (Gaussian Splatting) company. That spatial-understanding heritage carried into video: Dream Machine launched June 2024, Ray2 January 2025, Ray3 August 2025, and they added an image model called Photon alongside.

Ray3 highlights:

  • HDR video output — not just standard SDR, opening real grading headroom in post.
  • Frames — give a start frame and an end frame as photos; the model interpolates the motion. Perfect for ad cuts.
  • Camera Motion — explicit named camera moves (orbit, dolly, push-in, etc.).

Photon is Luma's image model and integrates cleanly with Dream Machine, so "image-to-video" is a tidy single workflow. Pricing: free tier plus paid starting at 9.99 USD/month.

Luma's strengths are motion naturalness and camera moves — fitting for a 3D-capture origin. The weakness is prompt fidelity — long, literary instructions don't survive as well as in Sora or Veo.


4. Veo 3 audio — the move that actually shook the board

In the Google I/O 2025 demo, Veo 3 made a single point: "video and sound come out of the same model in one pass." Every other vendor started chasing.

4.1 Why native synced audio matters

The old workflow:

prompt -> video model -> silent clip
                     -> audio model (Suno, ElevenLabs)
                     -> composite in post

The problem: matching footstep timing, lip movement, and camera-move impact to the audio in post requires human ears. Even a six-second clip costs human time.

The Veo 3 workflow:

prompt -> Veo 3 -> video + synced audio (one pass)

Footsteps, door slams, ambient sound, even short dialogue come out lip-and-impact synced with the visuals. "A solo creator ships a 60-second ad" became feasible for the first time.

4.2 How everyone else responded

  • Sora 2: started limited audio generation in a fall 2025 update. Mostly ambient, dialogue limited.
  • Runway: Act-Two (August 2025) added some voice and lip-sync. Not at Veo 3's level yet.
  • Kling: announced Kling Audio in late 2025. Ambient-leaning.
  • Hailuo: integrated a sound-effect library but not synced generation.

Bottom line: as of spring 2026, native synced audio is a unique Veo 3 strength. Others will catch up within one or two years, but right now Veo 3 is quietly capturing a real slice of the ad and content-marketing market.


5. The Chinese wave — Kling, Hailuo

The most shocking story in Western media during 2024-2025 was that Chinese models overtook the West on motion and characters.

5.1 Kuaishou Kling AI

Kling — run by Kuaishou, the Chinese short-video platform — debuted June 2024, hit Kling 1.6 in spring 2025, Kling 2.0 that fall, and Kling 2.1 by spring 2026.

Strengths:

  • Aggressive motion — combat, explosions, VFX come out kinetic. Where Sora is conservative, Kling is bold.
  • Character consistency — face preservation is excellent, even in multi-character scenes.
  • Long clips — 5- and 10-second standard, up to 30 seconds on Pro.
  • Physics — non-rigid motion of liquids, fabric, hair feels natural.

Pricing: free tier plus paid (CNY in mainland, USD globally). The English UI is in place and global users are climbing.

Risk: data and privacy concerns. US and EU enterprises hesitate to integrate Chinese-hosted models into internal workflows. But for individual creators, indie filmmakers, and the social-clip market, Kling has carved real share.

5.2 MiniMax Hailuo AI

MiniMax launched Hailuo in late 2024 and it went viral on social almost immediately. The combination of a generous free tier and strong output quality clicked.

Hailuo highlights:

  • Meme-friendly — strong at putting characters into comedic action. Hailuo clips ran constantly on TikTok and X.
  • Physical realism — action sequences feel grounded; the camera reads impact naturally.
  • Free watermarked clips — low barrier.

By 2026 Hailuo has expanded into the MiniMax-Video-01 series and T2V-01-Director (a director mode with explicit camera control). Pricing: free plus usage-based plus subscription.

5.3 Other Chinese models

  • ByteDance Doubao Seedance — TikTok parent's video model, deeply integrated into their own platforms.
  • Alibaba Wan — partial weights released as open source. Influential among researchers and developers.
  • Tencent Hunyuan Video — open-source release with model card and weights. Together with LTX-Video, the two pillars of the open-source camp.

Summary: the Chinese camp is closing the gap fast on both axes — strong closed models plus serious open-source releases. On some capability vectors, they've already led.


6. Open-source and local reality — LTX, Mochi, Hunyuan, Wan

Through 2024 the open-source video story was "fun but not production." Stable Video Diffusion shipped roughly four-second clips, AnimateDiff did even shorter loops; neither was production-grade.

December 2024 onward, that changed.

6.1 Lightricks LTX-Video — Open-source strikes back

Lightricks released LTX-Video in November 2024. The first reaction had two pillars:

  1. Speed — six seconds of clip in four seconds on an H100. Practically real time.
  2. Quality — 768p 24fps that holds its own against Pika and early Runway.

By spring 2025 came LTX-Video 0.9.5, by fall LTX-Video 13B, and by spring 2026 a full ecosystem of LoRAs and ControlNets had formed. ComfyUI shipped first-class nodes; game studios, avatar startups, and VFX houses pulled it into internal tooling.

6.2 Genmo Mochi 1

Genmo's October 2024 Mochi 1, and the 2025 Mochi 1 Plus, deliver 480p 5.4-second clips with strong motion. Apache 2.0, commercial use free.

6.3 Tencent HunyuanVideo

In December 2024 Tencent released the HunyuanVideo 13B weights. 24fps, 5-second output. Realism close to closed-model peers — a real shock.

6.4 Alibaba Wan2.1 / Wan2.2

In 2025 Alibaba released Wan 2.1 and Wan 2.2 weights. A multimodal text-image-video family; the video side holds up against closed peers with few obvious weaknesses.

6.5 Stability AI — open-source predecessor, but

Stability AI's Stable Video Diffusion (November 2023) was once the face of open-source video, but by 2026 it has effectively ceded ground to LTX, Hunyuan, Mochi, and Wan. Stability's business troubles and slowed model releases stacked.

6.6 The reality of running locally

To run these models on a home GPU:

ModelVRAM (min)VRAM (recommended)Clip lengthGeneration time (H100)
LTX-Video 13B16GB24GB6s4-8s
Mochi 124GB48GB5.4s60-120s
HunyuanVideo60GB80GB5s60-180s
Wan 2.224GB48GB5s30-90s

On a consumer GPU (RTX 4090 with 24GB) the only practical model is LTX-Video. Others need H100/A100-class hardware. Hence the standard workflow: spin up ComfyUI on RunPod, Modal, or Replicate and pay by the hour.


7. Special-purpose — Talking-head and lip-sync specialists

Alongside general-purpose models, there's a parallel category for faces, lip-sync, and avatar video.

7.1 HeyGen

  • Over 200 avatars, 40+ language voices.
  • Build a digital twin from your own photo and voice samples.
  • Re-lip-sync a clip into another language (translation dubbing).
  • Dominant in corporate marketing and training video.

7.2 D-ID

  • Turn a still portrait into a talking head.
  • Fast, cheap, API-friendly.
  • Standard in courseware and explainer video.

7.3 Synthesia

  • The standard for enterprise training and onboarding.
  • Script in, avatar performs the script.
  • B2B SaaS with enterprise pricing.

This category is hard for Sora, Veo, or Runway to invade. Reason: domain specialization — lip-sync accuracy, multi-language dubbing workflows, enterprise security certifications (SOC 2, HIPAA), brand-consistency tooling. General models don't have those.


8. Capability vs product matrix — one-page comparison

Capability / ModelSora 2Veo 3Gen-4Pika 2.5Kling 2.1Luma Ray3HailuoLTX 13B
Max length60s60s10s10s30s10s10s8s
Resolution1080p1080p1080p1080p1080pHDR720p768p
Native audiopartialstrongpartialpartialpartialnonelibrarynone
Motion intensitymidmidmidmidhighmidhighmid
Character consistencystrongstrongvery strongmidvery strongmidmidweak
Camera controlstrongmidvery strongweakmidvery strongstrongmid
Prompt fidelityvery strongstrongstrongmidmidmidmidmid
In-context editingStoryboardFlowAlephPikaffectsweakFramesweakLoRA
API availabilitybetaVertex AIfullfullfullfullfullself-host
Free tiernonelimitedwatermarkyesyesyesyesfree
Starting price (USD/month)20Gemini Adv.358usage9.99usage0

The "very strong / strong / mid / weak" labels are a qualitative summary as of May 2026. Model updates land monthly, so rankings shift within a release cycle or two.


9. Decision framework — which tool, when

9.1 The one-line answers

  • 6-10 sec social clip, character consistency matters -> Kling or Sora 2.
  • 30-60 sec ad or marketing video with audio -> Veo 3.
  • Film/CF post-production tool integrated into your workflow -> Runway Gen-4.
  • Casual fun with friends, price-sensitive -> Pika.
  • Talking head, multi-language dubbing -> HeyGen.
  • Strict in-house data security, local execution required -> LTX-Video.
  • Personal experiments, hackathons, research -> Hunyuan / Wan / Mochi (open source).
  • Spatial fidelity and HDR output matter -> Luma Ray3.

9.2 Decision tree

Q1. Does internal security/copyright rule out external APIs?
  Yes -> LTX, Hunyuan, Wan self-hosted (cost: GPUs)
  No -> Q2

Q2. Does audio need to come out synced with video in one pass?
  Yes -> Veo 3 (effectively a near-monopoly today)
  No -> Q3

Q3. Does the same character/location appear across multiple cuts?
  Yes -> Runway Gen-4 (References) or Sora 2 (Character Refs) or Kling
  No -> Q4

Q4. Is aggressive action/physical motion central?
  Yes -> Kling or Hailuo
  No -> Q5

Q5. Talking-head/multi-language dubbing?
  Yes -> HeyGen / Synthesia
  No -> Q6

Q6. Is price the dominant constraint?
  Yes -> Pika / Hailuo free tier / LTX-Video local
  No -> Sora 2 or Runway Gen-4 (the default safe pick)

9.3 Workflow patterns

In practice nobody uses just one model. Common combinations:

  • 30-second ad — Veo 3 for the main cuts, Runway Aleph for color/logo composite, ElevenLabs to reinforce dub.
  • 3-minute music video — Suno for the song, Midjourney for concept stills, Runway Gen-4 for 20+ 5-10 sec cuts, DaVinci Resolve to edit.
  • Influencer daily clip — own selfie video + HeyGen multi-language dub + Pika for transition effects.
  • Indie short film — Sora Storyboard to design shots, Runway Gen-4 for main cuts with character consistency, Hunyuan for secondary cuts (cost saving), Adobe Premiere to edit.

10.1 Training-data fights

Following music (Suno and Udio sued by the RIAA) and images (Getty Images vs Stability), video model companies are now in the crosshairs. Through 2025:

  • Several US and EU video-content companies opened discovery and legal review against OpenAI, Runway, and Pika.
  • Some companies — ad agencies in particular — adopted a "only models with consented training data" policy.
  • Adobe Firefly Video is marketing "trained only on Adobe Stock plus licensed content" as its main differentiator.

10.2 Deepfakes and personality rights

Video has higher personality-rights exposure than image or audio. A wave of political and celebrity deepfake incidents through 2024-2025 prompted the EU AI Act to mandate labeling of AI-generated video. The US has state-by-state legislation.

Vendor responses:

  • C2PA metadata embedded — Sora, Veo, Runway all stamp provenance.
  • Face-recognition gates — prompts naming celebrities are rejected.
  • Election filters — candidate names and political slogans are throttled.

10.3 Labor market impact

VFX artists, animators, and ad-video producers were hit fastest. Through 2024-2025 some US ad-industry shops reported 30-40 percent drops in outsourced cut prices. New roles also emerged — "AI video director," "video prompt engineer."

10.4 What we should do

  • Disclose — clearly label AI use in your content.
  • Respect personality rights — no faces without consent.
  • Prefer copyright-clean models — Adobe Firefly Video, or models trained on clearly licensed data.
  • Preserve C2PA — do not strip provenance metadata in post.

Epilogue — Video became language

Pre-ship checklist

  • Single cut or multi-cut? Multi-cut needs References/Storyboard tooling.
  • Character and location consistency verified.
  • Motion follows the intended camera move.
  • Audio needed? Veo 3 single-pass vs separate post.
  • Output resolution/framerate compatible with the post pipeline.
  • C2PA metadata preserved.
  • If external data, real people, or brand logos appear — rights cleared.
  • Model terms (commercial use allowed?) verified.
  • Decided how the final video will disclose AI generation.
  • Backups — prompts, seeds, intermediate outputs preserved.

Ten anti-patterns

  1. Sticking to a single model and never compensating for its weaknesses.
  2. Generating the same character from scratch every cut, without using References.
  3. Generating silent clips and always foley-ing in post (i.e., never using Veo 3).
  4. Stitching 24 six-second clips into a minute, with obvious cut jumps.
  5. Insisting on Sora for action shots and getting conservative output.
  6. Using a general model for talking-head when HeyGen is far more accurate.
  7. Running open-source models on a laptop and burning time — rent a cloud GPU.
  8. Skipping training-data license review and getting the client to reject the ad.
  9. Not specifying camera moves textually and accepting whatever the model picks.
  10. Not iterating on seeds and prompts after the first unsatisfactory output.

What's next

Candidate follow-ups: Veo 3 ad workflow — one person, sixty seconds, Runway Gen-4 References in practice — five tricks for nailing character consistency, Local video generation setup — ComfyUI plus LTX-Video on an RTX 4090.

"Stories written as text were drawn, the drawings got sound, and now they move. Video became language — and we are learning a new grammar."

— AI Video Generation 2026, end.


References