Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

AI Video Generation 2026 — 2024년 2월 Sora 1 데모가 영상 업계를 뒤집은 지 2년이 지났다. 2026년 5월 현재 비디오 생성은 폐쇄형 4사(OpenAI·Google·Kuaishou·MiniMax), 영상 업계 표준(Runway·Luma·Pika), 오픈웨이트 진영(Hunyuan·LTX·Wan·Open-Sora)의 세 축으로 굳었다. 이 글은 그 지형도다.

Prologue — 2년 만에 무엇이 바뀌었나
1장 · 2026년 AI 비디오 생성 지도 — 폐쇄형 / 오픈웨이트 / 실시간
2장 · Sora 2 (OpenAI) — 1세대 → 2세대
3장 · Veo 3 (Google) — 합성 오디오 + 대화 동기화
4장 · Kling 2 (Kuaishou) — 중국의 가장 강한 비디오 모델
5장 · Hailuo (MiniMax) — 중국의 또 다른 강자
6장 · Runway Gen-4 — 영상 업계 표준
7장 · Luma Ray 2 — Dream Machine 후속
8장 · Pika 2 — Image-to-Video 전환
9장 · HunyuanVideo (Tencent, 오픈) — 첫 진정한 오픈 경쟁자
10장 · LTX-Video / Wan 2.1 / Open-Sora — 오픈웨이트 진영
11장 · Diffusion Transformer (DiT) 기술 배경
12장 · 음성·음악 결합 — Lyria 2 / Suno / Udio / ElevenLabs SFX
13장 · 한국·일본 — Sakana AI, KAIST, Naver 영상 AI
14장 · 누가 무엇을 골라야 하나 — 워크로드별 추천
15장 · 마무리 — 2026년 AI 비디오의 큰 그림
참고 / References

Prologue — 2년 만에 무엇이 바뀌었나

2024년 2월 16일, OpenAI는 Sora 1 데모를 공개했다. 도쿄 거리를 걷는 여성, 우주에서 본 지구, 종이 비행기가 정글 위를 나는 장면 — 모두 1080p, 60초 길이. 영상은 단 한 줄 텍스트 프롬프트에서 생성됐다. 2024년 11월에는 Sora가 정식 API로 풀렸지만, 화질·길이·물리적 일관성 면에서 여전히 한계가 있었다.

2년 뒤 2026년 5월 현재, 풍경은 완전히 다르다.

Sora 2 (OpenAI, 2025.10) — 4K, 120초, 일관된 캐릭터, 정확한 카메라 컨트롤. ChatGPT Plus에서 직접 생성 가능.
Veo 3 (Google DeepMind, 2025.6) — 영상과 동기화된 합성 오디오·대화·음악. "립싱크된 캐릭터 영상을 한 번에" 만드는 최초의 메이저 모델.
Kling 2 (Kuaishou, 2025.4) — 중국발 최강 영상 모델. 2024년 6월 Kling 1.0이 Sora 1 데모와 거의 동등한 품질을 한 달 만에 일반 공개.
Hailuo (MiniMax, 2024~) — 중국 또 하나의 강자. 사용자가 무료로 매일 몇 분씩 받아 쓸 수 있게 만든 게 결정적.
HunyuanVideo (Tencent, 2024.12) — 첫 진정한 오픈웨이트 경쟁자. 13B 파라미터, Apache 2.0 호환 라이선스.
Runway Gen-4 (2025) — 영화·광고 업계 표준. ACT(Adobe Creative)·After Effects 같은 워크플로에 가장 깊게 통합.
Luma Ray 2 (2025) — Dream Machine 후속. 카메라 모션·물리적 일관성 강조.
Pika 2 — image-to-video로 피벗. "내 사진을 살아 움직이게" 시장.
LTX-Video (Lightricks, 2024.11) — 1프레임/초 미만 latency, 오픈웨이트, 소비자 GPU에서 돌아감.
Wan-2.1 (Alibaba, 2025.2) — 또 하나의 강력한 오픈웨이트.
Open-Sora (HPC-AI Tech) — 학계 오픈소스, Sora 아키텍처 재구현.

여기에 오디오 쪽이 합쳐졌다. Google Lyria 2, Suno v4, Udio가 BGM·노래를, ElevenLabs SFX가 사운드 이펙트를, HeyGen·Synthesia가 립싱크를 맡는다. 영상·음악·립싱크가 별도 파이프라인이었던 2024년에서, 2026년엔 단일 워크플로로 합쳐졌다.

이 글은 14개 장에 걸쳐 누가 무엇을 잘하고, 무엇을 골라야 하는지 정리한다.

1장 · 2026년 AI 비디오 생성 지도 — 폐쇄형 / 오픈웨이트 / 실시간

1.1 세 진영

2026년 5월 시점에서 AI 비디오 생성 시장은 세 그룹으로 갈린다.

진영	대표	강점	약점
폐쇄형 SOTA	Sora 2, Veo 3, Kling 2, Hailuo	품질·길이·일관성 압도	가격, 제약, 워터마크
영상 업계 표준	Runway Gen-4, Luma Ray 2, Pika 2	워크플로 통합, 제어 옵션	품질은 SOTA에 약간 못 미침
오픈웨이트	HunyuanVideo, LTX, Wan 2.1, Open-Sora	자체 호스팅, 파인튜닝 가능	품질·길이 격차 존재

이는 LLM 시장의 GPT-4·Claude·Gemini / Anthropic API 호환 OSS / Llama·Qwen 구조와 거의 동일하다. 영상 쪽이 1~2년 뒤늦게 같은 패턴을 따라가는 셈.

1.2 평가 축

비디오 생성 모델을 평가하는 4축은 다음과 같다.

품질(quality) — 해상도, 디테일, 텍스처 일관성
시간 일관성(temporal coherence) — 캐릭터·물체가 프레임 사이에서 일관되게 유지되는가
물리(physics) — 중력, 충돌, 액체, 옷감 같은 게 어색하지 않은가
제어(control) — 프롬프트만이 아니라 카메라·캐릭터·스타일을 얼마나 세밀히 조정 가능한가

이 4축을 모두 만족시키는 모델은 아직 없다. 워크로드가 광고 인서트인지, 단편 영화 사전 시각화인지, 소셜 컨텐츠인지에 따라 어떤 축을 우선할지 답이 바뀐다.

1.3 데이터 한 줄 정리

모델	최대 해상도	최대 길이	오디오 동기화	라이선스
Sora 2 (OpenAI)	4K	120s	별도	폐쇄, API
Veo 3 (Google)	4K	60s	합성 오디오 동시 생성	폐쇄, Vertex AI
Kling 2 (Kuaishou)	1080p	30s	없음	폐쇄, 자체 웹
Hailuo (MiniMax)	1080p	10s	없음	폐쇄, API
Runway Gen-4	1080p	16s	없음	폐쇄, 워크플로 SaaS
Luma Ray 2	1080p	10s	없음	폐쇄, API
Pika 2	720p~1080p	10s	없음	폐쇄, API
HunyuanVideo (Tencent)	720p	5s	없음	오픈, 13B
LTX-Video (Lightricks)	720p	5s	없음	오픈, 2B
Wan 2.1 (Alibaba)	720p	5s	없음	오픈, 14B
Open-Sora	720p	16s	없음	오픈, MIT

5s 같은 짧은 길이는 "한 번의 generation에 출력되는 최대 길이"다. 이어붙여 더 길게 만드는 건 별도 작업이다.

2장 · Sora 2 (OpenAI) — 1세대 → 2세대

2.1 Sora 1 → Sora 2

Sora 1은 2024년 2월 데모, 11월 정식 출시였다. 당시 사양:

최대 길이: 60초 (가장 긴 모델 중 하나였음)
해상도: 1080p
약점: 손가락이 뒤틀리거나, 캐릭터가 컷 사이에서 옷이 바뀌거나, 발걸음이 어색

2025년 10월 공개된 Sora 2는 다음이 바뀌었다.

최대 길이: 120초까지
해상도: 4K 옵션
캐릭터 일관성: 같은 프롬프트 안에서 캐릭터 외형이 유지됨. "캐릭터 메모리"로 이름 붙음
카메라 제어: 명시적 카메라 모션 토큰 (zoom in, dolly out, orbit left)
물리: 액체·충돌·중력 처리 개선

OpenAI는 Sora 2를 ChatGPT Plus / Team / Enterprise 안에서 직접 호출 가능하게 통합했다. API는 별도 신청 단계.

2.2 가격과 속도

2026년 5월 시점:

ChatGPT Plus ($20/mo): 표준 해상도 12초까지 무료 한도, 그 이상은 크레딧
API: 1초당 약 $0.30~$0.50 (해상도·길이별)
생성 시간: 12초 영상에 1~3분

영상 LLM은 텍스트 LLM과 비교해 generation cost가 100배 이상이다. "이 영상이 정말 비싸게 만들어졌다"는 느낌은 사실 그대로 비용 구조에 반영돼 있다.

2.3 프롬프트 예시

A close-up of a Korean street food vendor flipping hotteok on a hot grill,
steam rising, the camera slowly dollies in from the left.
Time of day: golden hour. Style: cinematic, shallow depth of field.
Duration: 8 seconds. Aspect ratio: 16:9.

Sora 2는 (a) 카메라 동작, (b) 시간대·조명, (c) 스타일, (d) duration·aspect ratio 같은 메타데이터를 명시적으로 인식한다.

2.4 캐릭터 메모리

Sora 2의 큰 변화 중 하나가 캐릭터 메모리다. 한 생성 안에서 등장한 캐릭터를 다음 생성에서도 같은 외형으로 유지할 수 있다. 광고 시퀀스나 짧은 스토리에 매우 유용.

[Shot 1] A woman in a red coat walks into a Tokyo subway station at night.
[Shot 2] (Same woman, same coat) She buys a ticket from the machine.
[Shot 3] (Same woman) The train arrives, she steps in.

이건 영상 업계에서 "이걸로 콘티 그릴 수 있다"는 평가를 받았다. 광고 사전 시각화(previs)의 비용을 1/10로 줄였다는 사례 보고가 많다.

2.5 약점

한국어 텍스트가 화면에 나오는 장면은 여전히 깨짐. 영문 텍스트도 가끔 글자가 흔들림
빠른 액션(스포츠, 격투)에서 사지가 늘어남
워터마크가 항상 박힘 (API 사용 시 옵션으로 끌 수 있음)
C2PA 콘텐츠 신원 메타데이터가 모든 출력에 박힘

3장 · Veo 3 (Google) — 합성 오디오 + 대화 동기화

3.1 Veo 1 → 2 → 3

Google DeepMind의 Veo는 2024년 5월 Google I/O에서 Veo 1을 공개했다. 12월에 Veo 2가, 2025년 6월에 Veo 3가 나왔다. 가장 큰 변화는 Veo 3에서 도입된 합성 오디오다.

Veo 3는 영상과 동기화된 다음 4종을 동시에 생성한다.

영상(video)
환경음(ambient audio) — 거리 소음, 비, 바람 등
대화(dialogue) — 캐릭터 입 모양과 동기화된 음성
음악(music) — Lyria 2와 통합된 BGM

이게 무슨 의미냐면, 2024년까지 "AI 영상"이라고 하면 무음 클립이었다. 사용자가 별도로 BGM·SFX·립싱크를 합쳐야 했다. Veo 3는 한 prompt에서 이 모든 것을 동시 생성한다.

3.2 프롬프트 예시

A barista in a Seoul cafe pours coffee while explaining the beans to a customer.
She says in Korean: "이건 에티오피아 예가체프예요, 꽃 향이 강해요."
The customer nods. Background: light jazz, gentle espresso machine sounds.

Veo 3는 이 prompt에서:

바리스타가 커피를 따르는 영상
한국어 대화를 자연스럽게 발음 (립싱크 포함)
재즈 BGM + 에스프레소 머신 소리

를 모두 동기화해서 출력한다. 한국어·일본어·중국어 같은 비영어도 잘 처리한다.

3.3 가격과 접근

Google Vertex AI를 통해 API 제공
Google AI Studio (aistudio.google.com)에서 무료 한도 안에서 직접 시도 가능
가격: 8초 영상 + 오디오 약 $0.50~$1.00
Workspace 비즈니스/엔터프라이즈 플랜에 직접 통합

3.4 강점과 약점

강점

한 번에 영상+오디오. 워크플로가 1단계로 압축됨
다국어 대화 (영어, 한국어, 일본어, 중국어, 스페인어 등) 자연스러움
Google Workspace 통합 — Slides/Docs에 바로 들어감

약점

길이 제약 60초까지 (Sora 2의 절반)
카메라 제어가 Sora 2보다 덜 정교
미국 외 지역에서 가용성 제한적인 시기가 있었음

4장 · Kling 2 (Kuaishou) — 중국의 가장 강한 비디오 모델

4.1 Kling 1 → 2 — 한 달의 충격

2024년 6월, Sora 1 데모가 공개된 지 4개월 뒤. 중국 영상 SNS 회사 Kuaishou(快手, 콰이쇼우)가 Kling 1.0을 일반 공개했다. 충격적이었던 건 두 가지:

Sora 데모와 거의 동등한 품질 — 그때까지 OpenAI 데모만 봤지 누구도 비슷한 걸 만들지 못했음
누구나 무료로 쓸 수 있게 풀었음 — Sora가 막혀 있던 동안 Kling이 압도적인 사용자 베이스를 만듦

이후 Kling은 1.5, 1.6, 2.0(2025.4)로 빠르게 업그레이드됐다. 2026년 5월 시점 Kling 2는:

1080p, 30초
카메라 모션 제어 — Sora 2처럼 명시적 카메라 토큰
Image-to-Video — 첫 프레임과 마지막 프레임을 모두 지정 가능
Multi-shot — 한 prompt에서 여러 컷 자동 분할

4.2 왜 빠른가

Kuaishou는 TikTok과 경쟁하는 중국 영상 SNS다. 자체 영상 데이터가 어마어마하다 (수십억 시간). 이게 Kling의 학습 데이터 우위.

또 하나, 중국 AI 회사들은 LLM 시장과 마찬가지로 영상에서도 굉장히 빠른 iteration cycle을 보여준다. Kling은 2024년 6월~2025년 4월 사이 1.0 → 1.5 → 1.6 → 2.0을 거쳤다. 같은 기간 Sora는 1.0 → 2.0이었다.

4.3 가격과 접근

klingai.com (해외) / kling.kuaishou.com (중국)
무료 크레딧 매일 제공, 유료는 월 $10~$60 구독
글로벌 사용자 등록 가능, 신용카드만 있으면 됨

4.4 약점

검열·정치적 민감 콘텐츠 자동 차단 (중국 회사 특유 정책)
한국어·일본어 텍스트 안에 들어간 장면은 깨짐
C2PA 메타데이터 미제공, 출처 추적 어려움
가격이 자주 바뀜, 무료 한도 자주 변경

5장 · Hailuo (MiniMax) — 중국의 또 다른 강자

5.1 MiniMax는 누구

MiniMax(미니맥스)는 상하이에 본사를 둔 중국 AI 회사. 2023년부터 LLM과 영상·음성 모델을 동시에 개발해왔다. Hailuo(海螺, 하이루오)는 그들의 영상 생성 브랜드.

2024년 8월 Hailuo가 공개됐을 때 "Sora를 직접 쓰기 어려운 사용자들의 대안" 위치였다. Kling만큼 강하진 않았지만 무료 한도가 너그러웠다.

2026년 5월 현재 Hailuo는:

1080p, 10초
첫 프레임·마지막 프레임 모두 지정 가능 (Image-to-Video)
무료 일일 크레딧 자주 제공
Director Mode — 카메라 동작 토큰 제어

5.2 강점

무료 한도가 가장 너그러움 — 학생·취미용엔 최고
글로벌 사용자 등록 쉬움
빠른 generation — 6초 영상 30초 안에 나옴
Image-to-video 품질 — 인물 사진을 영상으로 만드는 시나리오에서 강점

5.3 약점

최대 길이 10초로 짧음
캐릭터 일관성은 Sora 2·Kling 2보다 약함
약관·검열은 Kling과 비슷한 중국 특성

5.4 Kling vs Hailuo

축	Kling 2	Hailuo
최대 길이	30s	10s
해상도	1080p	1080p
카메라 제어	강함	중간
무료 한도	적당	후함
글로벌 접근	잘됨	잘됨
가격	`$10`~`$60`/mo	`$5`~`$30`/mo

중국 영상 모델 중에선 Kling이 SOTA, Hailuo가 가성비. 둘 다 매우 빠르게 발전 중이다.

6장 · Runway Gen-4 — 영상 업계 표준

6.1 Runway의 위치

Runway는 영상·머신러닝 도구 회사로 2018년 창업. 2022년 Stable Diffusion 공동 발표에 이름을 올렸고, 2023년 Gen-1·Gen-2로 AI 비디오 시장을 열었다.

2024년 6월 Gen-3 Alpha, 2025년 Gen-4로 이어졌다. Runway의 강점은 모델 품질보다 워크플로다.

Frames — 캐릭터·스타일·로케이션 일관성을 위한 reference image 기반 control
Director Mode — 카메라 동작을 정밀 제어
Video-to-Video — 기존 영상을 스타일 변환
Motion Brush — 특정 영역만 움직이도록 마스킹
After Effects 플러그인 — 콤포지팅 워크플로에 직접 통합

6.2 Gen-4의 캐릭터 일관성

Gen-4의 가장 큰 진화는 reference image 기반 캐릭터 일관성이다. 다음과 같은 워크플로가 가능하다.

[Reference image] character.png (얼굴 사진)
[Prompt] Same character walking through Times Square at night, neon lights,
camera tracks behind.

이건 광고·뮤직비디오·단편 영화에서 결정적이다. 캐릭터를 여러 컷에 걸쳐 유지하는 비용이 압도적으로 낮아진다.

6.3 가격

Standard $15/mo — 625 크레딧
Pro $35/mo — 2,250 크레딧
Unlimited $95/mo
Enterprise — 협의

10초 영상에 약 50 크레딧 (변동). 광고·미디어 회사 기준으론 합리적인 가격이다.

6.4 누가 쓰나

광고 에이전시 (Ogilvy, Wieden+Kennedy 같은 곳이 사례 발표)
뮤직비디오 감독
단편 영화·다큐멘터리
After Effects 사용자 — 플러그인 깊은 통합

Sora 2가 "이미지 한 장에서 천재 같은 영상이 나옴"이라면, Runway는 "프로 비디오 워크플로에 자연스럽게 들어감"이다.

7장 · Luma Ray 2 — Dream Machine 후속

7.1 Luma의 출발

Luma AI는 NeRF(Neural Radiance Fields) 연구 출신 회사. 2022~2023년 NeRF 기반 3D 캡처 앱으로 알려졌다.

2024년 6월 Dream Machine을 출시하면서 영상 생성 시장에 진입했다. Kling 공개와 거의 동시였다. 2025년 Ray 1, 2025년 후반 Ray 2로 업그레이드됐다.

7.2 Ray 2의 특징

물리 일관성 강조 — Luma는 카메라 모션과 물리 시뮬레이션 품질에 집중. NeRF 연구 배경이 반영됨
Keyframes — 첫 프레임·중간·마지막 프레임 지정 가능
카메라 모션 제어 — orbit, dolly, zoom 같은 영화 카메라 동작 토큰
API 잘 정비됨 — 개발자가 자기 앱에 통합하기 좋음

7.3 가격

Free — 매일 30 크레딧
Standard $9.99/mo
Pro $29.99/mo
Premier $94.99/mo
API — 5초 영상 약 $0.50

7.4 Runway vs Luma

축	Runway Gen-4	Luma Ray 2
영상 품질	비슷	비슷
카메라 제어	강함 (Director Mode)	강함 (영화적 toks)
캐릭터 일관성	강함 (Frames, ref)	보통
워크플로 통합	After Effects, 자체 에디터	API 친화
가격	약간 비쌈	저렴한 편

업계 표준은 Runway, API 통합·물리 일관성은 Luma. 둘 다 좋은 선택지다.

8장 · Pika 2 — Image-to-Video 전환

8.1 Pika의 변천

Pika Labs는 2023년 디스코드 봇으로 시작한 회사. 초기에 Runway와 함께 AI 비디오 시장을 열었다.

2024년 후반 Pika 2가 나오면서 전략이 바뀌었다. "Sora·Veo·Kling 같은 t2v 시장에서 정면 경쟁"이 아니라, 이미지·캐릭터·짧은 소셜 콘텐츠로 포지셔닝.

Pika 2의 핵심 기능:

Pikaffects — 사진 한 장에서 특수 효과 영상 만들기 ("녹아내림", "폭발", "압축됨" 같은 효과)
Pikascenes — 인물 사진을 시나리오 안에 자연스럽게 넣음
Lip-sync — 사진을 말하게 만들기
Image-to-video 빠른 처리 — 8초 영상 30초 안에

8.2 누가 쓰나

소셜 미디어 크리에이터 (TikTok, Instagram Reels)
밈 제작자
캐주얼 사용자 — "사진을 살아 움직이게"

Sora 2의 "70초짜리 단편 영화" 시장이 아니라, 8초 소셜 컨텐츠 시장에서 강하다.

8.3 가격

Free — 매일 한도
Standard $10/mo
Pro $35/mo
Fancy $95/mo

영상 인플루언서·소셜 마케팅에서 가성비가 좋다.

9장 · HunyuanVideo (Tencent, 오픈) — 첫 진정한 오픈 경쟁자

9.1 무엇이 처음인가

2024년 12월 3일 Tencent가 HunyuanVideo를 공개했다. 그게 왜 사건이었냐면:

13B 파라미터 — 당시까지 공개된 오픈 비디오 모델 중 압도적으로 큼
품질이 Runway Gen-3·Luma Dream Machine과 비교 가능 — 처음으로 폐쇄형 SOTA에 근접한 오픈웨이트
Apache 2.0 호환 라이선스 (몇 가지 제약 있음) — 상업 사용 가능

LLM에서 Llama 2가 처음 "오픈웨이트로 GPT-3.5 따라잡았다" 순간을 만든 것처럼, 영상에선 HunyuanVideo가 그런 순간이었다.

9.2 아키텍처

HunyuanVideo는 DiT(Diffusion Transformer)와 Latent Diffusion을 결합한 구조다.

3D VAE — 영상을 latent space로 압축
DiT 인코더 — 압축된 표현에 diffusion 적용
MLLM 텍스트 인코더 — 멀티모달 LLM을 텍스트 인코딩에 사용 (CLIP보다 풍부한 표현)
Flow matching — 학습 단계에서 노이즈 → 영상 매핑을 더 효율적으로

기술 보고서가 공개돼 있어서 학계에서 많이 인용된다.

9.3 사용 방법

git clone https://github.com/Tencent/HunyuanVideo
cd HunyuanVideo

# 권장: H100 또는 A100 80GB GPU
python sample_video.py \
  --prompt "A cat playing piano in a jazz bar, warm light" \
  --video-length 65 \
  --infer-steps 50 \
  --save-path ./outputs

7B 변형도 별도로 있어서 RTX 4090에서도 돌릴 수 있다. 다만 품질은 13B가 압도적이다.

9.4 ComfyUI에서

ComfyUI(노드 기반 워크플로 도구)가 HunyuanVideo 노드를 공식 지원한다.

[Load HunyuanVideo Model] → [CLIP Text Encode] → [HunyuanVideo Sampler] → [Video Combine]

영상 제작자들이 자기 워크플로에 통합하는 사례가 폭증했다. 폐쇄형 모델의 가격에 비해 GPU 비용만 들기 때문.

9.5 약점

5초 길이 제한 (단일 generation)
한국어·일본어 텍스트 화면은 깨짐
VRAM 60GB+ 필요 (full 모델). 양자화·LoRA로 우회

10장 · LTX-Video / Wan 2.1 / Open-Sora — 오픈웨이트 진영

10.1 LTX-Video (Lightricks, 2024.11)

Lightricks는 이스라엘의 모바일 영상 편집 앱 회사 (Facetune, Videoleap). 2024년 11월 LTX-Video를 공개했다.

2B 파라미터 — 작은 편
속도가 빠름 — RTX 4090에서 5초 영상 4초 안에 (실시간 미만)
오픈웨이트 — 자체 호스팅 가능
상업 사용 가능 라이선스

LTX의 의의는 **"소비자 GPU에서 돌아가는 영상 모델"**이다. HunyuanVideo가 H100급을 요구하는 동안, LTX는 4090 한 장이면 돌아간다.

from diffusers import LTXPipeline
import torch

pipe = LTXPipeline.from_pretrained(
    "Lightricks/LTX-Video", torch_dtype=torch.bfloat16
).to("cuda")

video = pipe(
    prompt="A woman walking in the rain at night, neon city",
    num_frames=121,
    guidance_scale=3.0,
).frames[0]

10.2 Wan 2.1 (Alibaba, 2025.2)

Alibaba는 LLM에서 Qwen, 영상에서 Wan을 운영한다. Wan 2.1은 2025년 2월에 공개됐다.

14B 파라미터
text-to-video와 image-to-video 모두 지원
flow matching 기반
다국어 텍스트 프롬프트 — 중국어·영어 모두 잘

품질은 HunyuanVideo와 비슷한 급. 두 모델은 자주 비교된다.

10.3 Open-Sora (HPC-AI Tech)

Open-Sora는 싱가포르 NUS·HPC-AI Tech의 학계 오픈소스 프로젝트. Sora 1 데모 직후 "Sora 아키텍처를 재구현해보자"는 목표로 시작.

MIT 라이선스
학습 코드·데이터 파이프라인 전부 공개
품질은 HunyuanVideo·Wan 대비 약간 떨어짐
연구·교육 목적에 매우 유용

영상 모델 학습 파이프라인을 공부하기에 좋은 코드베이스다.

10.4 오픈 진영 비교 표

모델	파라미터	최대 길이	최소 GPU	라이선스	특징
HunyuanVideo (13B)	13B	5s	60GB	Apache 2.0 호환	품질 최고
HunyuanVideo (7B)	7B	5s	24GB	Apache 2.0 호환	절충
LTX-Video	2B	5s	12GB	상업 OK	빠르고 작음
Wan 2.1	14B	5s	60GB	상업 OK	HunyuanVideo 경쟁
Open-Sora v2	11B	16s	40GB	MIT	학계, 16초

오픈 진영은 2025년에 한 번 폭발했고, 2026년에 폐쇄형 SOTA와의 격차는 좁아지는 중이다. 다만 캐릭터 일관성·다중 컷 같은 고급 기능에선 아직 격차가 있다.

11장 · Diffusion Transformer (DiT) 기술 배경

11.1 왜 DiT인가

2014년 GAN 등장 이래 영상 생성은 GAN·VAE·Diffusion 사이를 오갔다. 이미지에선 2022년 Stable Diffusion이 latent diffusion으로 자리잡았다. 영상은 좀 더 늦었다.

핵심 전환점은 William Peebles와 Saining Xie의 DiT (Diffusion Transformer, 2023) 논문이다. "UNet 기반 diffusion"을 "Transformer 기반 diffusion"으로 바꾸는 시도였다.

11.2 UNet vs Transformer

축	UNet diffusion	DiT
백본	CNN 기반 UNet	Vision Transformer
스케일링	어렵게 됨 (UNet 구조 제약)	잘 됨 (LLM과 동일 스케일링 법칙)
비디오 적용	시간 축 처리 어색	자연스러움
학습 안정성	검증됨	새롭지만 안정

영상은 본질적으로 (height, width, time)의 3D 텐서다. UNet에 시간 축을 끼워 넣는 건 자연스럽지 않다. Transformer는 시퀀스 처리가 본업이라 시간 축이 추가 토큰일 뿐.

이 발견 이후 거의 모든 메이저 영상 모델이 DiT 또는 그 변형으로 옮겨갔다. Sora, Veo, Kling, HunyuanVideo, Open-Sora 전부 DiT 계열이다.

11.3 Latent Diffusion이 같이 중요한 이유

영상 한 프레임은 1024x1024 = 1M 픽셀. 1초 24fps면 24M 픽셀. 이걸 raw에서 diffusion하는 건 불가능하다.

Latent Diffusion의 핵심: VAE로 영상을 latent 공간 (예: 128x128x8 = 130K)으로 압축한 뒤, latent에서 diffusion. 이러면 계산량이 100배 이상 줄어든다.

영상 모델의 첫 단계는 거의 항상 3D VAE (Causal VAE)로 압축. HunyuanVideo, Wan, Open-Sora 모두 자체 3D VAE를 학습해서 쓴다.

11.4 Flow Matching — 새 학습 방법

2022~2023년에 diffusion의 대안으로 떠오른 게 Flow Matching이다.

Diffusion: 노이즈→영상 경로를 SDE로 학습. Flow Matching: 노이즈→영상 경로를 ODE로 학습. 학습이 더 안정적이고 추론이 더 빠름.

HunyuanVideo, Wan 2.1, Stable Diffusion 3 모두 flow matching을 채택했다. 2026년 시점의 표준이라 봐도 좋다.

11.5 텍스트 인코더 — CLIP에서 LLM으로

영상 모델의 텍스트 prompt 인코딩은 전통적으로 CLIP을 썼다. 2024~2025년에 변화가 일어났다.

Stable Diffusion 3 — T5-XXL을 텍스트 인코더로 추가
HunyuanVideo — MLLM(multimodal LLM) 자체를 텍스트 인코더로
Veo 3 — Gemini 텍스트 인코더 활용

긴 prompt, 복잡한 장면 묘사, 다국어 처리에서 LLM 기반 인코더가 압도적이다. CLIP의 77 토큰 제약을 넘기는 것 자체가 큰 발전.

12장 · 음성·음악 결합 — Lyria 2 / Suno / Udio / ElevenLabs SFX

12.1 영상은 무음이 아니다

2024년까지 AI 영상은 거의 무음이었다. Sora 1, Kling 1, Runway Gen-3 모두 비디오 트랙만 출력. 사용자가 별도로 BGM·SFX·내레이션·립싱크를 합쳐야 했다.

2025년 이후 이게 바뀌었다.

12.2 Lyria 2 (Google DeepMind, 2024)

Lyria는 Google DeepMind의 음악 생성 모델. 2024년 2.0 공개.

텍스트→음악 생성
YouTube Shorts Dream Track 같은 곳에 통합
Veo 3와 통합 — Veo 3가 영상 생성 시 Lyria가 BGM 같이 생성

12.3 Suno v4 / Udio

Suno (Cambridge, MA)와 Udio (former Google DeepMind people)는 음악 생성에서 가장 강한 두 회사.

Suno v4 — 가사+멜로디를 한 번에. 4분 풀랭스 곡 가능
Udio — 비슷한 품질, 더 정교한 control

영상 콘텐츠 제작자가 BGM이 필요하면 거의 둘 중 하나를 쓴다. 무료 한도가 후하다.

12.4 ElevenLabs Sound Effects

ElevenLabs는 본업이 TTS지만 2024년 SFX(sound effects) 생성 모델을 추가했다.

텍스트→사운드 — "footsteps in snow", "thunder rumble", "espresso machine"
0~22초 길이
무료 한도 충분

영상 SFX 라이브러리에서 직접 찾기 어려운 효과음을 즉시 만들 수 있다.

12.5 HeyGen / Synthesia — 립싱크 전문

HeyGen과 Synthesia는 "AI 아바타 + 립싱크" 시장의 두 강자.

사용자가 자기 얼굴 영상 업로드 → AI 아바타 생성
텍스트 입력 → 그 텍스트를 아바타가 자연스럽게 말함 (다국어)
사내 교육·고객 지원·세일즈 데모에 많이 쓰임

기업용 시장에선 HeyGen·Synthesia가 사실상 표준이다.

12.6 통합 워크플로

2026년의 영상 콘텐츠 제작 워크플로 예시:

[Sora 2 또는 Kling 2] 메인 영상 8초
  ↓
[Suno v4] BGM 30초 (영상보다 좀 더 길게)
  ↓
[ElevenLabs SFX] 효과음 (발걸음, 환경음)
  ↓
[ElevenLabs TTS] 내레이션
  ↓
[CapCut / DaVinci / Premiere] 합치기

또는 Veo 3 하나로 다 끝낼 수도 있다 (영상 +오디오 동시 생성).

13장 · 한국·일본 — Sakana AI, KAIST, Naver 영상 AI

13.1 한국 — KAIST·Naver·생성형 비디오 스타트업

한국 학계는 AI 비디오에서 다음과 같은 흐름을 보인다.

KAIST — Diffusion·Flow Matching 이론 연구. 최정환 교수 그룹 등
Naver AI Lab — HyperCLOVA X 멀티모달 확장, 영상 이해(VLM)와 생성 모두
카카오브레인 — Karlo (이미지 생성), Sketch2Video 연구
스타트업 — Lablup (모델 인프라), Snowmind, Twelve Labs (영상 검색)

특히 Twelve Labs는 "AI가 영상을 이해하는 검색"으로 글로벌에서 인정받았다. 생성보다 이해 쪽에 강점. NVIDIA와 협업 사례 다수.

13.2 일본 — Sakana AI

Sakana AI는 Google Brain·DeepMind 출신 David Ha와 Llion Jones(트랜스포머 논문 공저자)가 도쿄에서 창업한 회사.

진화적 모델 합치기 (Evolutionary Model Merging) — 여러 모델을 자동으로 조합해 새 모델 생성
DiffusionPipe / Sakana AI Scientist — diffusion 모델 자동 설계
일본 정부·기업과 협업해서 일본어 특화 multimodal 모델 개발

직접 비디오 생성 SaaS를 내진 않지만, 다른 회사들이 쓰는 핵심 기술을 만든다.

13.3 일본의 영상·애니메이션 AI

일본은 애니메이션 산업과 결합한 영상 AI가 특히 활발하다.

Stability AI Japan — Japanese Stable Diffusion, 애니메이션 스타일 특화
AniPortrait / EMO — 인물 사진 + 음성에서 립싱크 애니메이션
VOICEVOX와 결합 — 음성 합성과 영상의 결합 워크플로

일본 시장은 특히 "캐릭터 일관성"에 강한 도메인 노하우가 있다.

국가	학습 데이터 정책	출력물 저작권
미국	Fair use 논의 진행 중	인간 창작 부분만 인정
EU	AI Act, opt-out 명시	비슷
일본	학습은 명시적 허용 (저작권법 30조 4)	특수 케이스 인정
한국	명확한 법 정비 진행 중	비슷
중국	검열 강함, 출력 책임 명시	특수 케이스 인정

일본의 학습 데이터 정책이 가장 관대해서, 일본은 AI 영상·이미지 모델 학습 친화 지역으로 평가된다.

14장 · 누가 무엇을 골라야 하나 — 워크로드별 추천

14.1 광고·브랜드 인서트

추천: Sora 2 or Veo 3

Sora 2: 캐릭터 메모리, 4K, 120초 — 짧은 광고 시퀀스 그대로
Veo 3: 오디오 동시 생성 — 후처리 비용 절감
예산: 광고 한 편 영상 생성 비용 $50~$500

광고 에이전시가 Runway Gen-4를 같이 쓰는 경우가 많다. 광고 사전 시각화는 Sora/Veo, 최종 콤포지팅은 Runway + After Effects.

14.2 영화·드라마 사전 시각화 (Previs)

추천: Sora 2 + Runway Gen-4

Sora 2의 캐릭터 메모리로 콘티 영상 만듦
Runway Gen-4의 reference image로 캐릭터 일관성 유지
감독·VFX 슈퍼바이저 워크플로에 직접 통합

영화업계 사례: 한 단편 영화의 previs 비용이 기존 30,000달러에서 3,000달러로 떨어졌다는 보고가 다수.

14.3 소셜 컨텐츠 (TikTok, Reels, Shorts)

추천: Pika 2 + Hailuo + Suno

Pika 2의 효과·립싱크
Hailuo의 너그러운 무료 한도
Suno의 BGM
예산: 월 $20~$50로 풀워크플로

14.4 학습·교육 콘텐츠

추천: HeyGen + ElevenLabs

HeyGen 아바타 + ElevenLabs TTS
사내 교육·온라인 강의·튜토리얼
다국어 자막·더빙 자동

14.5 게임 / 인터랙티브

추천: LTX-Video + 자체 호스팅

빠른 generation이 결정적 (게임 안에서 동적으로 콘텐츠 생성)
라이선스 문제 없는 오픈웨이트
RTX 4090 한 장으로 가능

14.6 연구·실험·아카데믹

추천: HunyuanVideo + Open-Sora

학습 파이프라인 코드 전부 공개
자체 데이터로 파인튜닝 가능
논문 작성용 reproducibility

14.7 예산표 (월간)

사용 시나리오	추천 도구	월 비용 (USD)
취미·실험	Kling/Hailuo 무료 + Pika	`$0`
1인 크리에이터	Pika Pro + Suno	`$30`~`$50`
소셜 마케팅	Kling + Hailuo + Suno + ElevenLabs	`$50`~`$150`
광고 에이전시	Sora 2 API + Runway Pro + Veo 3	`$500`~`$5,000`
영화 사전 시각화	Sora 2 + Runway Unlimited + Luma	`$1,000`~`$10,000`
자체 호스팅 (오픈)	HunyuanVideo/LTX + GPU 임대	GPU 비용만

14.8 모델 선택 의사결정 트리

              [영상 + 오디오 필요?]
              /              \
           Yes               No
            |                  \
        [Veo 3]         [캐릭터 일관성 중요?]
                          /              \
                        Yes               No
                         |                  \
                     [길이 30s+?]      [소셜 짧은 영상?]
                      /        \         /         \
                    Yes        No      Yes          No
                     |          \       |            \
                 [Sora 2]   [Runway Gen-4]  [Pika 2]  [Kling/Hailuo]

15장 · 마무리 — 2026년 AI 비디오의 큰 그림

세 가지 큰 흐름.

첫째, 영상·오디오·립싱크가 한 워크플로로 합쳐졌다. Veo 3가 시작점을 만들었고, Sora 3 또는 Sora 2의 다음 버전에서도 같은 방향이 예상된다. 2024년의 "별도 도구를 합쳐 쓰던" 단계는 끝났다.

둘째, 오픈웨이트가 폐쇄형 SOTA를 1년 격차로 따라잡고 있다. HunyuanVideo, Wan 2.1, LTX의 등장으로 자체 호스팅·파인튜닝이 가능해졌다. LLM에서 Llama 3가 GPT-4를 따라잡은 패턴과 비슷하다. 다만 캐릭터 일관성·다중 컷 같은 고급 제어는 폐쇄형이 1년 정도 앞서 있다.

셋째, 영상 생성은 "재밌는 데모"에서 "양산 워크플로"로 넘어갔다. 광고, 영화 사전 시각화, 소셜 콘텐츠, 사내 교육 — 모두 사례 보고가 다수다. 2024년의 "이거 데모지?" 단계에서, 2026년엔 "이걸로 마감 친다" 단계로 왔다.

다음 1~2년의 관전 포인트는 (1) Sora 3가 정말 캐릭터 일관성을 끝낼지, (2) HunyuanVideo급 오픈 모델이 1년 안에 또 나올지, (3) 영상·오디오·립싱크가 정말 단일 모델로 통합될지, (4) C2PA·워터마크가 표준화될지다.

영상은 이제 "AI가 만들었다"는 사실 자체가 더 이상 화제가 아니다. 그보다 "이걸 어떻게 잘 만드느냐"가 진짜 게임이 됐다.

참고 / References

OpenAI Sora — https://openai.com/sora
Sora 1 system card (2024.2) — https://openai.com/research/video-generation-models-as-world-simulators
Google DeepMind Veo — https://deepmind.google/technologies/veo/
Google Vertex AI Veo — https://cloud.google.com/vertex-ai/generative-ai/docs/video/overview
Kling AI — https://klingai.com
Kuaishou Kling 발표 — https://kling.kuaishou.com
MiniMax Hailuo — https://hailuoai.video
Runway Gen-4 — https://runwayml.com/research/introducing-runway-gen-4
Luma AI Dream Machine / Ray — https://lumalabs.ai/dream-machine
Pika Labs — https://pika.art
Tencent HunyuanVideo GitHub — https://github.com/Tencent/HunyuanVideo
HunyuanVideo 기술 보고서 — https://arxiv.org/abs/2412.03603
Lightricks LTX-Video — https://github.com/Lightricks/LTX-Video
Alibaba Wan-2.1 — https://github.com/Wan-Video/Wan2.1
Open-Sora (HPC-AI Tech) — https://github.com/hpcaitech/Open-Sora
DiT 논문 (Peebles & Xie, 2023) — https://arxiv.org/abs/2212.09748
Latent Diffusion (Rombach et al.) — https://arxiv.org/abs/2112.10752
Flow Matching 논문 — https://arxiv.org/abs/2210.02747
Google Lyria — https://deepmind.google/discover/blog/transforming-music-creation-with-ai-and-human-creativity/
Suno AI — https://suno.com
Udio — https://udio.com
ElevenLabs Sound Effects — https://elevenlabs.io/sound-effects
HeyGen — https://heygen.com
Synthesia — https://synthesia.io
ComfyUI — https://github.com/comfyanonymous/ComfyUI
Sakana AI — https://sakana.ai
Twelve Labs — https://twelvelabs.io
Naver AI Lab — https://clova.ai
C2PA Content Credentials — https://c2pa.org
AniPortrait — https://github.com/Zejun-Yang/AniPortrait
EMO (Alibaba) — https://humanaigc.github.io/emote-portrait-alive/
KAIST AI — https://gsai.kaist.ac.kr