1. 서론: 비디오/이미지 생성 AI의 새로운 지평
2025년은 비디오 생성 AI가 폭발적으로 성장한 해다. OpenAI Sora, Google Veo, Runway Gen-3, Kling 등 상용 서비스가 쏟아지는 가운데, Alibaba가 오픈소스로 공개한 **Wan** 시리즈는 "오픈소스도 상용 모델과 경쟁할 수 있다"는 사실을 증명했다. 동시에 이미지 생성 분야에서는 **Z-Image Turbo**가 6B 파라미터로 20B~80B급 모델에 맞먹는 품질을 8 step 만에 달성하며 효율성의 새 기준을 세웠다.
[비디오/이미지 생성 AI 타임라인 2024-2026]
2024 Q1-Q2 2024 Q3-Q4 2025 Q1-Q2 2025 Q3-Q4 2026 Q1
| | | | |
v v v v v
Sora Preview HunyuanVideo Wan 2.1 Wan 2.2 (MoE) Wan 2.6
Runway Gen-3 CogVideoX Z-Image Wan 2.5-Preview Veo 3.1
Pika 1.0 Kling 1.0 Z-Image Turbo Kling 2.6 Seedance 1.5
Sora 2
이 글에서는 Wan 시리즈의 전체 아키텍처와 학습 방법론을 심층 분석하고, Z-Image Turbo의 초고속 이미지 생성 기술을 해부한 뒤, 경쟁 모델과의 비교 및 실전 활용 가이드까지 포괄적으로 다룬다.
2. Wan 모델 소개
2.1 Alibaba/Wan Team 배경
Wan은 Alibaba Cloud의 Wan-AI 팀이 개발한 대규모 비디오 생성 모델 시리즈다. "Wan"이라는 이름은 중국어로 "만(萬)"을 의미하며, 만 가지 가능성을 열겠다는 비전을 담고 있다. Alibaba의 Tongyi(통의) 연구소와 긴밀히 협력하며 개발되었으며, 오픈소스 생태계에 대한 Alibaba의 전략적 투자 일환이기도 하다.
**핵심 마일스톤:**
| 버전 | 출시일 | 주요 특징 |
| --------------- | ----------- | -------------------------------------------------- |
| Wan 2.1 | 2025년 2월 | 최초 오픈소스 공개, T2V/I2V 지원 |
| Wan 2.2 | 2025년 7월 | MoE 아키텍처 도입, 27B 파라미터 |
| Wan 2.5-Preview | 2025년 9월 | Native Multimodality (텍스트+이미지+비디오+오디오) |
| Wan 2.6 | 2025년 12월 | Reference-to-Video, 멀티샷 내러티브 |
2.2 Text-to-Video와 Image-to-Video 기능
Wan은 두 가지 핵심 모달리티를 지원한다:
**Text-to-Video (T2V):** 텍스트 프롬프트만으로 고품질 비디오를 생성한다. 다국어 T5 인코더를 통해 영어, 중국어 등 복수 언어 프롬프트를 처리할 수 있으며, Classifier-Free Guidance를 통해 프롬프트 충실도를 제어한다.
**Image-to-Video (I2V):** 단일 이미지를 입력으로 받아 해당 이미지를 첫 프레임으로 하는 자연스러운 비디오를 생성한다. 이미지의 시각적 특성(구도, 색감, 객체)을 보존하면서 시간적 동작을 추가하는 것이 핵심이다.
[Wan 모델 파이프라인 개요]
Text-to-Video:
텍스트 프롬프트 ──> T5 Encoder ──> Cross-Attention ──> DiT Backbone ──> 3D VAE Decoder ──> 비디오
Image-to-Video:
입력 이미지 ──> VAE Encoder ──┐
├──> DiT Backbone ──> 3D VAE Decoder ──> 비디오
텍스트 프롬프트 ──> T5 Encoder ──┘
2.3 오픈소스 공개 현황
Wan의 가장 큰 차별점은 **완전한 오픈소스**라는 점이다. Apache-2.0 라이선스로 공개되어 상업적 사용이 자유롭다.
**공개 리소스:**
- **GitHub 레포지토리:** `Wan-Video/Wan2.1`, `Wan-Video/Wan2.2`
- **Hugging Face 모델:** `Wan-AI/Wan2.1-T2V-14B`, `Wan-AI/Wan2.1-T2V-1.3B`, `Wan-AI/Wan2.2-T2V-A14B`, `Wan-AI/Wan2.2-I2V-A14B`
- **추론 코드:** 완전한 Python 추론 파이프라인 제공
- **모델 가중치:** Hugging Face 및 ModelScope에서 다운로드 가능
- **라이선스:** Apache-2.0 (상업적 사용 가능)
3. Wan 아키텍처 분석
Wan의 아키텍처는 Diffusion Transformer(DiT) 패러다임을 기반으로 하며, 비디오 생성에 최적화된 여러 혁신적 컴포넌트를 포함한다.
3.1 3D Causal VAE (Wan-VAE)
Wan-VAE는 비디오 데이터를 효율적으로 압축하는 핵심 컴포넌트로, 공간(Spatial)과 시간(Temporal) 차원을 동시에 압축한다.
[Wan-VAE 압축 구조]
입력 비디오: [T, H, W, 3] (예: 81프레임, 720, 1280, RGB)
|
v
3D Causal VAE Encoder
|
v
Latent Space: [T/4, H/8, W/8, 16] (압축비: 4x8x8, latent dim=16)
|
v
3D Causal VAE Decoder
|
v
복원 비디오: [T, H, W, 3]
**핵심 설계 원칙:**
1. **Causal Convolution:** 시간 축에서 인과적(causal) 컨볼루션을 사용하여, 미래 프레임 정보가 과거 프레임 인코딩에 영향을 미치지 않도록 한다. 이를 통해 무한 길이 비디오의 스트리밍 인코딩이 가능하다.
2. **압축비 4x8x8:** 시간 축 4배, 공간 축 8x8 압축을 적용한다. Latent dimension은 16으로, 이는 Open-Sora Plan(latent dim=4)이나 SVD(압축비 1x8x8, latent dim=4)와 차별화되는 설계다.
3. **3단계 학습 전략:**
- **Stage 1:** 동일 구조의 2D Image VAE를 이미지 데이터로 학습하여 공간적 압축 능력을 확보
- **Stage 2:** 학습된 2D VAE를 3D Causal VAE로 inflate하여 시간적 압축 prior를 제공
- **Stage 3:** 저해상도(128x128), 소규모 프레임(5프레임) 비디오로 초기 학습 후 점진적으로 해상도 및 프레임 수 확장
4. **Temporal Chunk Processing:** 시간 축 압축비에 따라 각 처리 청크의 프레임 수를 최대 4로 제한하여 메모리 오버플로를 방지한다.
**성능 특성:**
- 1080P 해상도의 무한 길이 비디오를 과거 시간 정보 손실 없이 인코딩/디코딩 가능
- 높은 시간적 일관성(temporal consistency) 유지
- 다른 VAE 대비 우수한 복원 품질
3.2 Diffusion Transformer (DiT) Backbone
Wan의 핵심 생성 모델은 Diffusion Transformer(DiT) 아키텍처를 채택한다. U-Net 기반 전통적 diffusion 모델과 달리, Transformer의 확장성(scalability)을 활용한다.
[Wan DiT Backbone 구조]
Time Embedding
|
MLP (Linear + SiLU)
|
6개 Modulation Parameters
|
┌────────────┼────────────┐
v v v
┌──────────────────────────────────────┐
│ Transformer Block │
│ │
│ ┌─────────────────────────────────┐ │
│ │ Spatio-Temporal Self-Attention │ │
│ │ (Multi-Head) │ │
│ └─────────────────────────────────┘ │
│ | │
│ ┌─────────────────────────────────┐ │
│ │ Cross-Attention │ │
│ │ (Text Conditioning) │ │
│ └─────────────────────────────────┘ │
│ | │
│ ┌─────────────────────────────────┐ │
│ │ Feed-Forward Network │ │
│ └─────────────────────────────────┘ │
└──────────────────────────────────────┘
|
(x N blocks)
|
Output Prediction
**주요 특징:**
1. **Spatio-Temporal Self-Attention:** Patchified 비디오 latent 표현에 대해 공간과 시간을 동시에 처리하는 multi-head self-attention을 적용한다. 이를 통해 프레임 간 시간적 일관성과 프레임 내 공간적 일관성을 동시에 학습한다.
2. **Modulation 메커니즘:** 시간 임베딩(timestep embedding)을 MLP(Linear + SiLU)로 처리하여 6개의 modulation 파라미터를 예측한다. 이 MLP는 모든 transformer 블록에서 공유되며, 각 블록은 고유한 bias 세트를 학습한다.
3. **Cross-Attention for Text Conditioning:** T5 인코더의 텍스트 임베딩을 cross-attention을 통해 각 transformer 블록에 주입한다. 이를 통해 텍스트 프롬프트의 의미적 정보가 생성 과정 전반에 걸쳐 영향을 미친다.
3.3 Text Encoder (T5/CLIP Integration)
Wan은 다국어 T5 인코더를 텍스트 인코더로 사용한다. 이는 CLIP만 사용하는 모델 대비 몇 가지 장점을 제공한다:
| 특성 | T5 (Wan) | CLIP (기존 모델) |
| ---------------- | ------------------ | ----------------------- |
| 텍스트 이해력 | 심층적 의미 이해 | 이미지-텍스트 정렬 중심 |
| 다국어 지원 | 우수 (다국어 학습) | 영어 중심 |
| 긴 프롬프트 처리 | 우수 | 제한적 (77 토큰) |
| 복잡한 관계 추론 | 가능 | 제한적 |
| 파라미터 동결 | Frozen | Frozen |
T5 인코더는 학습 과정에서 파라미터가 동결(frozen)되며, cross-attention을 통해 DiT backbone에 프롬프트 임베딩을 제공한다. 다국어 T5의 채택으로 영어뿐 아니라 중국어, 한국어 등 다양한 언어의 프롬프트를 자연스럽게 처리할 수 있다.
3.4 Flow Matching Training
Wan 2.1은 **Flow Matching** 프레임워크를 채택하여 전통적 DDPM 대비 학습 효율성을 크게 개선했다.
[Flow Matching vs DDPM 비교]
DDPM (Denoising Diffusion Probabilistic Models):
x_0 ──(많은 discrete steps)──> x_T (Gaussian noise)
학습: 각 step에서 noise 예측
문제: 수백~수천 step 필요, 복잡한 noise schedule
Flow Matching:
x_0 ──(직선 경로)──> x_1 (Gaussian noise)
학습: velocity field v(x_t, t) 예측
장점: 직선 경로로 더 적은 step에서 고품질 생성
**Flow Matching의 핵심 원리:**
Flow Matching은 데이터 분포와 노이즈 분포 사이의 **직선 경로(straight path)**를 학습한다. DDPM이 복잡한 noise schedule을 통해 점진적으로 노이즈를 제거하는 반면, Flow Matching은 ODE(Ordinary Differential Equation) 기반으로 더 효율적인 경로를 학습한다.
핵심 학습 목적함수:
L_FM = E_{t, x_0, x_1} [ || v_theta(x_t, t) - (x_1 - x_0) ||^2 ]
여기서:
x_t = (1-t) * x_0 + t * x_1 (직선 보간)
v_theta: 학습 가능한 velocity field
t ~ U(0, 1): 시간 파라미터
이 접근법을 통해 Wan은 전통적 diffusion 모델 대비 더 적은 추론 step으로 고품질 비디오를 생성할 수 있다.
3.5 Motion Module / Temporal Attention
비디오 생성에서 가장 중요한 요소 중 하나는 **시간적 일관성(temporal consistency)**이다. Wan은 이를 위해 spatio-temporal self-attention을 핵심으로 활용한다.
[Spatio-Temporal Attention 동작 방식]
Frame 1 Frame 2 Frame 3 Frame 4
| | | |
v v v v
[패치화] --> [패치화] --> [패치화] --> [패치화]
| | | |
└───────────┴───────────┴───────────┘
|
Spatio-Temporal Self-Attention
(모든 프레임의 모든 패치 간 attention)
|
┌───────────┬───────────┬───────────┐
| | | |
Frame 1 Frame 2 Frame 3 Frame 4
이 방식에서 모든 프레임의 모든 패치가 서로 attention을 수행하므로, 한 프레임의 객체 움직임이 다른 프레임과 자연스럽게 연결된다. 이는 프레임별 독립적 생성 후 시간적 일관성을 맞추는 방식보다 훨씬 자연스러운 모션을 만들어낸다.
3.6 Resolution and Duration Capabilities
Wan의 해상도 및 길이 지원 현황:
| 모델 | 해상도 | 프레임 수 | FPS | 비디오 길이 |
| ------------------ | --------------- | --------- | --- | ----------- |
| Wan 2.1 T2V-1.3B | 832x480 (480P) | ~81 | 16 | ~5초 |
| Wan 2.1 T2V-14B | 1280x720 (720P) | ~81 | 16 | ~5초 |
| Wan 2.1 I2V-14B | 1280x720 (720P) | ~81 | 16 | ~5초 |
| Wan 2.2 TI2V-5B | 1280x720 (720P) | ~97 | 24 | ~4초 |
| Wan 2.2 A14B (MoE) | 1280x720 (720P) | ~97 | 24 | ~4초 |
Wan 2.2에서는 FPS가 16에서 24로 향상되어 기존 버전의 약간의 끊김 현상이 개선되었다.
4. Wan 모델 변형
4.1 Wan 2.1: 1.3B (경량 모델)
Wan 2.1의 1.3B 모델은 소비자급 GPU에서 실행 가능한 경량 모델이다.
**주요 특성:**
- **파라미터:** 1.3B (약 13억)
- **지원 태스크:** Text-to-Video만 지원 (Image-to-Video 미지원)
- **최적 해상도:** 480P (832x480)
- **VRAM 요구량:** 약 8.2GB
- **생성 속도:** RTX 4090 기준 5초 480P 비디오 약 4분
1.3B 모델은 720P 해상도도 기술적으로 지원하지만, 해당 해상도에서의 학습이 제한적이어서 480P 사용이 권장된다. 개인 개발자나 리소스가 제한된 환경에서 프로토타이핑 용도로 적합하다.
4.2 Wan 2.1: 14B (대형 모델)
14B 모델은 Wan 2.1의 풀 스케일 모델로, 720P 해상도를 안정적으로 지원한다.
**주요 특성:**
- **파라미터:** 14B (약 140억)
- **지원 태스크:** Text-to-Video, Image-to-Video 모두 지원
- **최적 해상도:** 720P (1280x720)
- **VRAM 요구량:** 24GB 이상 (32GB+ 권장)
- **다국어:** T5 인코더를 통한 다국어 프롬프트 지원
4.3 Wan 2.2: MoE 아키텍처 (A14B)
Wan 2.2는 대규모 언어 모델(LLM)에서 검증된 **Mixture-of-Experts(MoE)** 아키텍처를 비디오 생성 diffusion 모델에 도입한 획기적 버전이다.
[Wan 2.2 MoE 아키텍처 구조]
Denoising Process Timeline:
t=T (pure noise) ─────────────────────────────> t=0 (clean video)
High-Noise Phase Low-Noise Phase
┌──────────────┐ ┌──────────────┐
│ Expert 1 │ │ Expert 2 │
│ (14B) │ │ (14B) │
│ │ │ │
│ 전체 레이아웃 │ SNR │ 디테일 개선 │
│ 구조 결정 │ 전환점 │ 텍스처 품질 │
└──────────────┘ └──────────────┘
총 파라미터: ~27B
추론 시 활성 파라미터: ~14B (step당 하나의 expert만 활성)
**핵심 설계:**
1. **Two-Expert Design:** Diffusion 모델의 denoising 과정에 특화된 2개의 전문가 모델을 사용한다.
- **High-Noise Expert:** 초기 denoising 단계에서 활성화되어 전체 레이아웃과 구조를 결정
- **Low-Noise Expert:** 후기 denoising 단계에서 활성화되어 비디오 디테일을 개선
2. **SNR 기반 전환:** 두 expert 간 전환점은 Signal-to-Noise Ratio(SNR)에 의해 결정된다. SNR은 denoising step이 증가함에 따라 단조 감소하며, 이 값을 기준으로 적절한 expert를 선택한다.
3. **효율적 추론:** 총 27B 파라미터이지만, 각 추론 step에서 14B만 활성화되므로 GPU 메모리와 연산 비용은 단일 14B 모델 수준으로 유지된다.
4.4 Wan 2.2: TI2V-5B (Dense Model)
MoE 모델 외에 5B Dense 모델도 함께 공개되었다.
**주요 특성:**
- **파라미터:** 5B (약 50억)
- **아키텍처:** Dense (MoE가 아닌 단일 모델)
- **VAE:** 새로운 Wan2.2-VAE (압축비 16x16x4)
- **해상도:** 720P (1280x720)
- **FPS:** 24fps
- **생성 속도:** 소비자급 GPU에서 5초 720P 비디오 9분 이내
Wan2.2-VAE는 기존 Wan-VAE 대비 크게 향상된 압축비(16x16x4)를 달성하여, 더 적은 latent 토큰으로 동일 품질의 비디오를 표현할 수 있다.
4.5 Text-to-Video vs Image-to-Video 차이점
| 특성 | Text-to-Video (T2V) | Image-to-Video (I2V) |
| ----------- | -------------------------- | ----------------------------- |
| 입력 | 텍스트 프롬프트 | 이미지 + 텍스트 프롬프트 |
| 첫 프레임 | 모델이 자유롭게 생성 | 입력 이미지와 일치 필수 |
| 조건부 정보 | T5 텍스트 임베딩 | T5 임베딩 + VAE 이미지 latent |
| 창작 자유도 | 높음 | 이미지에 의해 제약 |
| 주요 활용 | 순수 창작, 시나리오 시각화 | 사진 애니메이션, 제품 데모 |
| 1.3B 지원 | O | X |
| 14B 지원 | O | O |
5. 학습 데이터 및 방법론
5.1 학습 데이터셋
Wan 2.1은 대규모 이미지-텍스트, 비디오-텍스트 페어 데이터셋으로 학습되었다. Wan 2.2는 Wan 2.1 대비 이미지 데이터 65.6% 증가, 비디오 데이터 83.2% 증가라는 대폭적인 데이터 확장을 달성했다.
**데이터 품질 관리 4단계 파이프라인:**
[Wan 데이터 정제 파이프라인]
원본 데이터 (웹 크롤링)
|
v
┌──────────────────────┐
│ Stage 1: Visual Fidelity │
│ - 해상도/화질 필터링 │
│ - 워터마크/텍스트 오버레이 제거 │
│ - 압축 아티팩트 검출 │
└──────────────────────┘
|
v
┌──────────────────────┐
│ Stage 2: Motion Smoothness │
│ - 프레임 간 일관성 검사 │
│ - 불안정한 카메라 워크 필터링 │
│ - 급격한 장면 전환 감지 │
└──────────────────────┘
|
v
┌──────────────────────┐
│ Stage 3: Diversity │
│ - 의미적 중복 제거 │
│ - 카테고리별 균형 조정 │
│ - 다양한 동작/장면 확보 │
└──────────────────────┘
|
v
┌──────────────────────┐
│ Stage 4: Frame Integrity │
│ - 프레임 드롭 검출 │
│ - 시간적 일관성 최종 검증 │
│ - 캡션-비디오 정합성 확인 │
└──────────────────────┘
|
v
최종 학습 데이터셋
5.2 Progressive Training Strategy
Wan은 점진적 학습 전략(Progressive Training)을 채택하여 효율적이고 안정적인 학습을 달성한다.
**3단계 Progressive Training:**
1. **Stage 1 - Image Pre-training:**
- 대규모 이미지-텍스트 데이터로 공간적 생성 능력 학습
- 텍스트-이미지 정렬(alignment) 확보
- 해상도: 256x256에서 시작하여 점진적으로 증가
2. **Stage 2 - Low-Resolution Video Training:**
- 저해상도(256x256~480P) 비디오로 시간적 동작 학습
- 짧은 클립(16~33 프레임)으로 기본 동작 패턴 학습
- 이미지 생성 능력을 보존하면서 temporal modeling 추가
3. **Stage 3 - High-Resolution Fine-tuning:**
- 고해상도(720P) 비디오로 최종 fine-tuning
- 긴 시퀀스(81~97 프레임)로 확장
- 고품질 큐레이션 데이터 위주로 품질 극대화
[Progressive Training 흐름]
Stage 1 Stage 2 Stage 3
Image 256x256 -> Video 480P 16fps -> Video 720P 24fps
텍스트-이미지 시간적 동작 학습 고품질 Fine-tuning
정렬 학습 짧은 클립 긴 시퀀스
5.3 Quality Filtering Pipeline
학습 데이터의 품질은 생성 모델의 성능을 결정짓는 핵심 요소다. Wan은 자동화된 품질 평가 메트릭을 개발하여 데이터 필터링에 적용했다.
**자동화된 평가 메트릭:**
- **Visual Quality Score:** 해상도, 선명도, 색감 균형 평가
- **Motion Quality Score:** 동작의 자연스러움, 물리적 타당성 평가
- **Text-Video Alignment Score:** 캡션과 비디오 내용의 일치도 평가
- **Aesthetic Score:** 구도, 조명, 예술적 품질 평가
5.4 Classifier-Free Guidance
Wan은 **Classifier-Free Guidance(CFG)**를 사용하여 텍스트 프롬프트 충실도를 제어한다.
CFG 수식:
output = uncond_output + guidance_scale * (cond_output - uncond_output)
여기서:
cond_output: 텍스트 조건부 출력
uncond_output: 무조건부 출력 (빈 프롬프트)
guidance_scale: CFG 스케일 (높을수록 프롬프트에 충실)
학습 시 일정 확률로 텍스트 조건을 드롭(drop)하여 무조건부 생성과 조건부 생성을 모두 학습한다. 추론 시에는 guidance_scale 파라미터로 프롬프트 충실도와 생성 다양성 사이의 균형을 조절할 수 있다.
6. Wan 실전 활용 가이드
6.1 설치 방법
pip 설치
Python 3.10+ 및 PyTorch 2.4.0+ 필요
pip install torch torchvision torchaudio
Wan 2.1 레포지토리 클론
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
의존성 설치
pip install -r requirements.txt
모델 다운로드 (Hugging Face)
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Wan 2.2 설치
Wan 2.2 레포지토리 클론
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
의존성 설치
pip install -r requirements.txt
Wan 2.2 MoE 모델 다운로드
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
6.2 기본 추론 코드
Text-to-Video (1.3B - 경량)
python generate.py \
--task t2v-1.3B \
--size 832*480 \
--ckpt_dir ./Wan2.1-T2V-1.3B \
--prompt "A futuristic city with flying cars and neon lights at dusk."
Text-to-Video (14B - 고품질)
python generate.py \
--task t2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-T2V-14B \
--prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves \
fight intensely on a spotlighted stage."
Image-to-Video (14B)
python generate.py \
--task i2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-I2V-14B-720P \
--image input_image.jpg \
--prompt "The camera slowly zooms in as the subject begins to smile."
메모리 최적화 옵션
모델 오프로딩 (VRAM 절약)
python generate.py \
--task t2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-T2V-14B \
--offload_model True \
--t5_cpu \
--prompt "A serene lake surrounded by mountains at sunrise."
Multi-GPU 가속
8-GPU 병렬 추론
torchrun --nproc_per_node=8 generate.py \
--task t2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-T2V-14B \
--dit_fsdp \
--t5_fsdp \
--ulysses_size 8 \
--prompt "A timelapse of a flower blooming in a garden."
6.3 ComfyUI 연동
ComfyUI는 Wan의 가장 인기 있는 프론트엔드 인터페이스다.
**Wan 2.2 ComfyUI 설정:**
1. ComfyUI를 최신 버전으로 업데이트
2. Workflow -> Browse Templates -> Video에서 "Wan2.2 5B video generation" 템플릿 로드
3. 또는 공식 JSON 워크플로우 파일을 캔버스에 드래그 앤 드롭
**GGUF 양자화 모델 (저사양 GPU):**
GGUF 포맷의 양자화 모델을 사용하면 12GB 이하의 VRAM에서도 Wan 2.2를 실행할 수 있다:
- VRAM 사용량 50-70% 절감
- 추론 속도 최대 2배 향상
- 품질 저하 최소화
**추가 가속 기법:**
- **TeaCache:** 생성 속도 2-3배 향상
- **Sage Attention:** attention 연산 최적화
- **Wan2GP:** GPU Poor를 위한 최적화 래퍼 (Wan 2.1/2.2, HunyuanVideo, LTX Video 지원)
6.4 프롬프트 작성 가이드
Wan에서 최상의 결과를 얻기 위한 프롬프트 작성 전략:
**기본 구조:**
[주제/액션] + [스타일/분위기] + [카메라 워크] + [조명/환경]
**효과적인 프롬프트 예시:**
"A young woman walks through a bustling Tokyo street at night.
Neon signs reflect on wet pavement. Cinematic lighting.
The camera follows her from behind in a smooth tracking shot.
High detail, photorealistic, 4K quality."
**프롬프트 강화(Enhancement):**
Wan 2.1은 프롬프트 자동 강화 기능을 제공한다:
- **Dashscope API 활용:** Alibaba Cloud API를 통한 프롬프트 자동 개선
- **로컬 모델 활용:** 로컬 LLM으로 프롬프트를 상세화
**팁:**
- 구체적인 동작을 명시하라 (예: "walks slowly" vs "walks")
- 카메라 앵글/움직임을 지정하라 (예: "tracking shot", "dolly zoom")
- 환경과 조명 조건을 상세히 기술하라
- 부정적 요소는 피하라 (모델이 "~하지 않는" 구문을 잘 처리하지 못함)
6.5 GPU 요구사항 및 메모리 최적화
| 모델 | 최소 VRAM | 권장 VRAM | 생성 시간 (5초 비디오) |
| ----------------------- | --------- | --------- | ---------------------- |
| Wan 2.1 T2V-1.3B (480P) | 8GB | 12GB | ~4분 (RTX 4090) |
| Wan 2.1 T2V-14B (720P) | 24GB | 32GB+ | ~8분 (RTX 4090) |
| Wan 2.2 TI2V-5B (720P) | 12GB | 16GB | ~9분 (소비자급 GPU) |
| Wan 2.2 A14B MoE (720P) | 24GB | 32GB+ | ~10분 (RTX 4090) |
| Wan 2.2 14B GGUF (480P) | 6GB | 12GB | ~15분 (RTX 4050) |
**메모리 최적화 전략:**
1. **Model Offloading:** `--offload_model True`로 사용하지 않는 모델 컴포넌트를 CPU 메모리로 이동
2. **T5 CPU Inference:** `--t5_cpu`로 T5 인코더를 CPU에서 실행하여 GPU 메모리 절약
3. **GGUF 양자화:** FP16/BF16 대비 메모리 사용량 대폭 절감
4. **FSDP (Fully Sharded Data Parallel):** Multi-GPU 환경에서 모델 파라미터 분산
5. **Flash Attention:** attention 연산의 메모리 효율성 향상
7. 경쟁 모델 비교
7.1 Wan vs Sora (OpenAI)
**Sora 2**는 물리 시뮬레이션과 객체 영속성(object persistence)에서 현존 최고 수준을 달성했다. 최대 1분 길이의 포토리얼리스틱 비디오를 생성할 수 있으며, 물체의 낙하, 충돌, 반사 등 물리 현상을 자연스럽게 구현한다.
| 항목 | Wan 2.2/2.6 | Sora 2 |
| --------------- | ------------------------ | --------- |
| 오픈소스 | Apache-2.0 | 비공개 |
| 최대 해상도 | 720P (1280x720) | 1080P |
| 최대 길이 | ~5초 (로컬), API 더 길게 | ~60초 |
| 물리 시뮬레이션 | 우수 | 최상 |
| 로컬 실행 | 가능 | 불가 |
| 가격 | 무료 (로컬) | 유료 구독 |
| 커스터마이징 | 가능 (fine-tuning) | 불가 |
7.2 Wan vs Kling (Kuaishou)
**Kling**은 ByteDance/Kuaishou가 개발한 모델로, 캐릭터 동작과 립싱크에서 특히 강점을 보인다.
| 항목 | Wan 2.2/2.6 | Kling 2.6 |
| ----------- | ----------- | ---------------- |
| 오픈소스 | Apache-2.0 | 비공개 |
| 모션 품질 | 우수 | 최상 (특히 인물) |
| 최대 길이 | ~5초 (로컬) | ~120초 |
| 립싱크 | 제한적 | 우수 |
| 카메라 모션 | 우수 | 우수 |
| 접근성 | 로컬/API | API만 |
7.3 Wan vs Runway Gen-3
**Runway Gen-3 Turbo**는 영화적 품질과 카메라 워크에서 강점을 가진 상용 서비스다.
| 항목 | Wan 2.2/2.6 | Runway Gen-3 |
| ---------------- | ----------- | ------------------ |
| 오픈소스 | Apache-2.0 | 비공개 |
| 영화적 품질 | 우수 | 최상 |
| Motion Synthesis | 우수 | 우수 |
| 해상도 | 720P | 1080P |
| 가격 | 무료 (로컬) | 유료 (크레딧 기반) |
7.4 Wan vs Pika
**Pika**는 사용 편의성과 빠른 생성에 초점을 맞춘 서비스다.
| 항목 | Wan 2.2/2.6 | Pika |
| ------------- | --------------------- | ---------------- |
| 오픈소스 | Apache-2.0 | 비공개 |
| 사용 편의성 | 중간 (기술 지식 필요) | 최상 (웹 UI) |
| 생성 속도 | 수 분 (로컬) | 수 초 (클라우드) |
| 커스터마이징 | 가능 | 제한적 |
| 스타일 다양성 | 우수 | 우수 |
7.5 Wan vs CogVideoX (Tsinghua/ZhipuAI)
**CogVideoX**는 Tsinghua 대학과 ZhipuAI가 개발한 오픈소스 비디오 생성 모델이다.
| 항목 | Wan 2.2 | CogVideoX-5B |
| --------- | --------------- | --------------- |
| 오픈소스 | Apache-2.0 | Apache-2.0 |
| 파라미터 | 27B (MoE) | 5B |
| 해상도 | 720P (1280x720) | 480P (720x480) |
| 최대 길이 | ~5초 | ~6초 |
| FPS | 24 | 8 |
| I2V 품질 | 우수 | 최상 (I2V 특화) |
| VRAM | 24GB+ | 8-12GB |
7.6 Wan vs HunyuanVideo (Tencent)
**HunyuanVideo**는 Tencent가 개발한 13B 파라미터의 비디오 생성 모델이다.
| 항목 | Wan 2.2 | HunyuanVideo |
| ----------- | -------------- | -------------------- |
| 오픈소스 | Apache-2.0 | 오픈소스 |
| 파라미터 | 27B (MoE) / 5B | 13B |
| 해상도 | 720P | 720P (1280x720) |
| 최대 길이 | ~5초 | ~15초 |
| FPS | 24 | 24 |
| 영화적 품질 | 우수 | 최상 (시네마틱 특화) |
| GPU 요구 | 24GB+ | A100/H100 권장 |
7.7 종합 비교 표
| 모델 | 해상도 | 최대 길이 | 품질 | 오픈소스 | 접근성 | 특장점 |
| ------------ | ------ | --------- | ---- | -------------- | -------- | -------------------- |
| Wan 2.6 | 720P | ~5초+ | 상 | O (Apache-2.0) | 로컬/API | 멀티샷 내러티브, R2V |
| Sora 2 | 1080P | ~60초 | 최상 | X | API | 물리 시뮬레이션 |
| Kling 2.6 | 1080P | ~120초 | 최상 | X | API | 모션/립싱크 |
| Runway Gen-3 | 1080P | ~10초 | 최상 | X | API | 영화적 품질 |
| Pika | 1080P | ~4초 | 상 | X | 웹 | 사용 편의성 |
| CogVideoX | 480P | ~6초 | 중상 | O (Apache-2.0) | 로컬 | 저사양 I2V |
| HunyuanVideo | 720P | ~15초 | 최상 | O | 로컬 | 시네마틱 품질 |
| Veo 3.1 | 1080P | ~25초 | 최상 | X | API | 오디오 통합 |
| Seedance 1.5 | 1080P | ~10초 | 상 | X | API | 다국어/빠른 반복 |
**핵심 시사점:** Wan은 "오픈소스 + 상업적 자유 + 로컬 실행 가능"이라는 조합에서 독보적이다. 상용 모델 대비 해상도나 길이에서는 뒤처지지만, 커스터마이징 가능성과 비용 효율성에서 압도적 우위를 가진다.
8. Z-Image Turbo 소개
8.1 초고속 이미지 생성 모델
**Z-Image Turbo**는 Alibaba의 Tongyi-MAI(Machine AI) 연구소가 개발한 초고속 텍스트-이미지 생성 모델이다. 2025년 11월 26일 공개되었으며, 6B 파라미터로 20B~80B급 경쟁 모델의 품질에 필적하면서 추론 속도는 수 배 빠르다.
**핵심 성과:**
- **Artificial Analysis Text-to-Image Leaderboard:** 2025년 12월 기준 전체 8위, **오픈소스 1위**
- **추론 속도:** H800 GPU에서 512x512 이미지 sub-second(약 0.8초) 생성
- **메모리:** 16GB VRAM 이하의 소비자급 디바이스에서 실행 가능
- **학습 비용:** 314K H800 GPU hours (약 \$630K) -- 기존 대형 모델 대비 10배 이상 효율적
[Z-Image Turbo 포지셔닝]
품질
^
| * Flux Pro (12B)
| * DALL-E 3
| * Z-Image Turbo (6B) <-- 여기!
| * SDXL (2.6B)
|
| * SD 1.5 (0.9B)
|
+────────────────────> 속도
느림 빠름
Z-Image Turbo: 작은 파라미터로 높은 품질 + 빠른 속도
8.2 Turbo/Distillation 기술의 의미
"Turbo"라는 명칭은 **지식 증류(Knowledge Distillation)**를 통해 원본 모델의 품질을 유지하면서 추론 단계를 대폭 줄인 모델을 의미한다.
[Teacher-Student Distillation 개념]
Teacher Model (Z-Image): 100 step denoising
|
| 지식 증류 (Distillation)
v
Student Model (Z-Image Turbo): 8 step denoising
결과: 100 step의 품질을 8 step으로 달성
-> 약 12.5배 속도 향상
전통적 diffusion 모델이 50~100 step의 denoising이 필요한 반면, Z-Image Turbo는 단 **8 NFE(Number of Function Evaluations)**로 동등한 품질을 달성한다.
9. Z-Image 아키텍처 및 기술 분석
9.1 S3-DiT (Scalable Single-Stream Multi-Modal Diffusion Transformer)
Z-Image의 핵심 아키텍처는 **S3-DiT**로, "규모 확장에 따른 비용 증가" 패러다임에 도전하는 효율적 설계다.
[S3-DiT 아키텍처 상세]
입력 스트림:
Qwen3-4B 텍스트 토큰 ──┐
FLUX VAE 이미지 토큰 ──┤──> Single-Stream Fusion ──> Unified Sequence
SigLIP 2 시맨틱 토큰 ──┘
Unified Sequence
|
v
┌──────────────────────────────────────────┐
│ S3-DiT Transformer Layer │
│ │
│ ┌────────────────────────────────────┐ │
│ │ Modality-Specific Pre-Processing │ │
│ │ (경량 모달리티별 프로세서) │ │
│ └────────────────────────────────────┘ │
│ | │
│ ┌────────────────────────────────────┐ │
│ │ Single-Stream Self-Attention │ │
│ │ (QK-Norm + Sandwich-Norm) │ │
│ │ - 32 attention heads │ │
│ │ - hidden dim: 3840 │ │
│ └────────────────────────────────────┘ │
│ | │
│ ┌────────────────────────────────────┐ │
│ │ Conditional Injection │ │
│ │ (Scale + Gate parameters) │ │
│ │ - Shared low-rank down-projection│ │
│ │ - Layer-specific up-projection │ │
│ └────────────────────────────────────┘ │
│ | │
│ ┌────────────────────────────────────┐ │
│ │ Feed-Forward Network │ │
│ │ (FFN dim: 10,240) │ │
│ └────────────────────────────────────┘ │
│ │
└──────────────────────────────────────────┘
| (x 30 layers)
v
출력 이미지 Latent
**S3-DiT 핵심 사양:**
| 컴포넌트 | 사양 |
| ------------------ | -------------------------------- |
| Transformer Layers | 30 |
| Hidden Dimension | 3,840 |
| Attention Heads | 32 |
| FFN Dimension | 10,240 |
| 총 파라미터 | 6.15B |
| Text Encoder | Qwen3-4B (Frozen) |
| Image VAE | FLUX VAE (Frozen) |
| Semantic Encoder | SigLIP 2 (Frozen, 편집 태스크용) |
9.2 Single-Stream vs Dual-Stream 설계
Z-Image의 S3-DiT는 **Single-Stream** 아키텍처를 채택하여, 기존 Dual-Stream 모델(예: FLUX의 초기 블록) 대비 크로스-모달 상호작용을 극대화한다.
[Dual-Stream vs Single-Stream 비교]
Dual-Stream (예: FLUX 초기 블록):
텍스트 토큰 ──> [Text Stream Blocks] ──┐
├──> 후반부 합류
이미지 토큰 ──> [Image Stream Blocks] ──┘
-> 모달리티 간 상호작용이 후반부에 집중
Single-Stream (Z-Image S3-DiT):
텍스트 + 이미지 + 시맨틱 ──> [Unified Blocks] ──> 출력
-> 모든 레이어에서 밀도 높은 크로스-모달 상호작용
-> 파라미터 공유로 효율성 극대화
**Single-Stream의 장점:**
1. **매 레이어마다 크로스-모달 정보 교환** -- 텍스트와 이미지 표현이 초기부터 상호 영향
2. **파라미터 효율성** -- 별도의 모달리티별 deep block 불필요
3. **학습 효율성** -- 동일 파라미터 대비 더 높은 표현력
9.3 QK-Norm과 Sandwich-Norm
대규모 Transformer 학습의 안정성을 위해 Z-Image는 두 가지 정규화 기법을 도입한다:
**QK-Norm:** Attention 레이어에서 Query와 Key 벡터를 정규화하여 attention score의 폭발적 증가를 방지한다. 이는 학습 초기 단계에서 특히 중요하며, gradient vanishing/exploding 문제를 완화한다.
**Sandwich-Norm:** Transformer 블록의 경계(입력/출력)에서 정규화를 적용하여 신호 진폭을 제어한다. Pre-Norm과 Post-Norm을 모두 적용하는 형태로, 깊은 네트워크에서의 안정적 학습을 보장한다.
[Sandwich-Norm 구조]
입력 -> [Pre-Norm] -> Attention/FFN -> [Post-Norm] -> 출력
^ ^
| |
Sandwich-Norm: 양쪽 모두 정규화
9.4 Conditional Information Injection
조건부 정보(timestep, 텍스트 등)의 주입은 **scale-gate 메커니즘**을 통해 이루어진다:
1. **Shared Low-Rank Down-Projection:** 모든 레이어에서 공유되는 저차원 프로젝션으로 조건부 정보를 압축
2. **Layer-Specific Up-Projection:** 각 레이어별 고유한 업-프로젝션으로 Attention과 FFN 경로를 독립적으로 조절
3. **Learnable Scale-Gate:** 학습 가능한 스케일/게이트 파라미터로 정규화된 입출력을 조절
이 설계는 파라미터 효율적이면서도 각 레이어가 조건부 정보에 대해 독립적으로 반응할 수 있게 한다.
9.5 Decoupled-DMD (Distribution-Matching Distillation)
Z-Image Turbo의 핵심 증류 알고리즘은 **Decoupled-DMD**다. 기존 DMD를 두 가지 독립적 메커니즘으로 분해하여 최적화한다.
[Decoupled-DMD 구조]
Teacher Model (100 steps)
|
v
┌──────────────────────────────────┐
│ Decoupled-DMD Loss │
│ │
│ ┌────────────────────────────┐ │
│ │ Term 1: CFG Augmentation │ │
│ │ - Classifier-Free Guidance │ │
│ │ - 맞춤형 renoising schedule│ │
│ └────────────────────────────┘ │
│ + │
│ ┌────────────────────────────┐ │
│ │ Term 2: Distribution │ │
│ │ Matching │ │
│ │ - 분포 일치 최적화 │ │
│ │ - 맞춤형 renoising schedule│ │
│ └────────────────────────────┘ │
│ │
│ 각 항의 renoising schedule을 │
│ 독립적으로 최적화 │
└──────────────────────────────────┘
|
v
Student Model (8 steps)
**핵심 인사이트:** CFG augmentation과 distribution matching은 서로 다른 최적 renoising schedule을 가진다. 이 두 메커니즘을 분리(decouple)하여 독립적으로 최적화함으로써, few-step 생성 성능을 크게 향상시킨다.
9.6 DMDR (Distribution Matching Distillation with Reinforcement)
증류 후에는 **강화학습(RL)** 기반 post-training을 통해 품질을 추가 개선한다.
**2단계 Post-Training:**
1. **Offline DPO (Direct Preference Optimization):**
- Vision-LLM이 생성한 preference pair를 활용
- 텍스트 렌더링, 객체 카운팅 등의 측면에서 품질 개선
- 오프라인 데이터로 효율적 학습
2. **Online GRPO (Group Relative Policy Optimization):**
- Multi-axis reward design 적용
- 실시간 피드백 기반 정책 최적화
- 다양한 품질 축(미적 품질, 텍스트 정합성, 구조적 정확성)에 대한 보상 설계
9.7 Few-Step Generation 성능
Z-Image Turbo의 few-step 생성 성능은 다음과 같다:
| Step 수 | 품질 (상대적) | 속도 (H800 기준) | 비고 |
| ------------------- | ------------- | ---------------- | --------------------- |
| 4 steps | 중상 | ~0.4초 | 초고속 프리뷰 용도 |
| 8 steps (권장) | 최상 | ~0.8초 | 최적 품질/속도 밸런스 |
| 16 steps | 최상+ | ~1.5초 | 미세한 품질 개선 |
| 100 steps (Teacher) | 기준 | ~8초 | Z-Image 원본 |
8 step이 권장 설정이며, 이 설정에서 100 step teacher 모델에 근접한 품질을 달성한다.
9.8 Data Infrastructure
Z-Image의 또 다른 혁신은 데이터 인프라에 있다. "단순히 데이터를 더 모으는 것"이 아닌, 정보 밀도를 극대화하는 체계적 접근을 취한다.
[Z-Image Data Infrastructure]
┌─────────────────────────────────────────────┐
│ 4대 핵심 모듈 │
│ │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ Data Profiling │ │ World Knowledge │ │
│ │ Engine │ │ Topological Graph│ │
│ │ │ │ │ │
│ │ 데이터 품질 정량 │ │ 시맨틱 관계 구조 │ │
│ │ 평가 기반 │ │ 구축 │ │
│ └──────────────────┘ └──────────────────┘ │
│ │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ Curriculum │ │ Quality │ │
│ │ Learning Manager │ │ Caption Engine │ │
│ │ │ │ │ │
│ │ 학습 단계별 │ │ 초상세 캡션 │ │
│ │ 데이터 조합 최적화│ │ 자동 생성 │ │
│ └──────────────────┘ └──────────────────┘ │
│ │
└─────────────────────────────────────────────┘
**핵심 원칙:**
- 데이터셋 크기보다 **개념적 다양성 + 비중복성**을 우선시
- 강건한 **다국어 텍스트-이미지 정렬** 확보
- **동적 커리큘럼 학습**: 학습 단계에 맞춰 데이터 구성을 진화시킴
- pre-training에서는 다양성 극대화, fine-tuning에서는 품질 극대화
10. Z-Image Turbo 실전 활용 가이드
10.1 Python Diffusers 사용법
diffusers 최신 버전 설치 필요
pip install git+https://github.com/huggingface/diffusers
from diffusers import ZImagePipeline
파이프라인 로드
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False
)
pipe.to("cuda")
이미지 생성
prompt = "A photorealistic portrait of a young woman with flowing red hair, \
golden hour lighting, shallow depth of field, 8K quality"
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=8, # Turbo: 8 steps 권장
guidance_scale=0.0, # Turbo 모델은 CFG 불필요
generator=torch.Generator("cuda").manual_seed(42)
).images[0]
image.save("output.png")
**최적화 옵션:**
Flash Attention 활성화 (속도 향상)
pipe.transformer.set_attention_backend("flash") # Flash-Attention-2
또는
pipe.transformer.set_attention_backend("_flash_3") # Flash-Attention-3
torch.compile로 추가 속도 향상
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead")
10.2 ComfyUI 연동
**모델 파일 배치:**
ComfyUI/
models/
vae/
ae.safetensors # Z-Image VAE
text_encoders/
qwen_3_4b.safetensors # Qwen3-4B 텍스트 인코더
diffusion_models/
z_image_turbo_bf16.safetensors # Z-Image Turbo 모델
**설정 절차:**
1. ComfyUI를 최신 버전으로 업데이트
2. 위 3개 모델 파일 다운로드 후 지정 폴더에 배치
3. ComfyUI 실행 후 공식 워크플로우 JSON을 캔버스에 드래그 앤 드롭
4. `num_inference_steps`를 8로 설정
**FP8 양자화 버전:** VRAM이 제한된 환경에서는 FP8 양자화 모델을 사용할 수 있으며, 6-12GB VRAM에서 원활한 실행이 가능하다.
10.3 최적 설정 가이드
| 설정 항목 | 권장 값 | 설명 |
| --------------------- | ---------------- | ----------------------- |
| `num_inference_steps` | 8 | 품질/속도 최적 밸런스 |
| `guidance_scale` | 0.0 | Turbo 모델은 CFG 불필요 |
| `height` / `width` | 1024x1024 | 기본 정사각형 |
| `torch_dtype` | `torch.bfloat16` | BF16이 최적 |
| Flash Attention | 활성화 권장 | 속도 20-30% 향상 |
**해상도별 성능:**
| 해상도 | 생성 시간 (H800) | VRAM 사용량 | 비고 |
| --------- | ---------------- | ----------- | ------------- |
| 512x512 | ~0.4초 | ~8GB | 프리뷰/테스트 |
| 768x768 | ~0.6초 | ~12GB | 중간 품질 |
| 1024x1024 | ~0.8초 | ~16GB | 권장 설정 |
| 1024x1536 | ~1.2초 | ~20GB | 세로 포맷 |
10.4 LoRA Fine-tuning
Z-Image Turbo는 LoRA(Low-Rank Adaptation)를 통한 fine-tuning을 지원한다. 특정 스타일이나 개념을 학습시킬 수 있으며, 기존 Stable Diffusion LoRA 학습 파이프라인과 유사한 방식으로 진행할 수 있다.
LoRA 학습 예시 (개념적)
실제 구현은 diffusers train_text_to_image_lora.py 참조
from diffusers import ZImagePipeline
from peft import LoraConfig
lora_config = LoraConfig(
r=16,
lora_alpha=16,
target_modules=["to_q", "to_k", "to_v", "to_out.0"],
lora_dropout=0.0,
)
학습 후 LoRA 적용
pipe.load_lora_weights("path/to/lora/weights")
11. 비디오/이미지 생성 AI 생태계 전망
11.1 2025-2026 트렌드
**1. 오픈소스의 부상:**
Wan, CogVideoX, HunyuanVideo 등 오픈소스 모델이 상용 모델과 경쟁 가능한 수준에 도달했다. 특히 Wan 2.6는 Apache-2.0 라이선스로 기업 배포와 커스터마이징이 자유로워, 장기적 비용 관리에서 상용 모델 대비 우위를 점한다.
**2. MoE의 비디오 생성 도입:**
LLM에서 검증된 Mixture-of-Experts가 비디오 생성으로 확산되었다. Wan 2.2가 이 트렌드의 선두주자로, 총 파라미터를 늘리면서도 추론 비용을 유지하는 효율적 확장을 실현했다.
**3. 초고속 이미지 생성:**
Z-Image Turbo로 대표되는 few-step 생성 기술이 성숙기에 접어들었다. Decoupled-DMD 같은 고도화된 증류 기법과 RL 기반 post-training이 결합되어, 8 step으로 100 step 품질을 달성한다.
**4. Multimodal 통합:**
비디오+오디오+텍스트를 동시에 생성하는 native multimodality가 현실화되고 있다. Wan 2.5-Preview가 텍스트/이미지/비디오/오디오의 동기화된 생성을 시연했으며, Google Veo 3.1은 오디오 통합에서 선두를 달리고 있다.
**5. 물리 기반 시뮬레이션 향상:**
낙하, 충돌, 유체 역학, 직물 거동 등 물리 현상의 시뮬레이션 정확도가 크게 향상되었다. Sora 2가 이 분야에서 최전선에 있으며, 유리 파편의 물리적으로 정확한 궤적과 빛 굴절까지 구현한다.
11.2 비디오 생성의 도전과제
**Temporal Consistency (시간적 일관성):**
가장 근본적이고 지속적인 과제다. 프레임이 길어질수록 다음과 같은 문제가 심화된다:
- **Identity Drift:** 캐릭터의 얼굴, 의상이 시간이 지남에 따라 변형
- **Temporal Wobble:** 배경이나 정적 객체가 미세하게 흔들림
- **Compounding Errors:** 오류가 누적되어 후반 프레임에서 급격히 품질 저하
현재 단일 생성으로 30-60초의 포토리얼리스틱 비디오가 가능하지만, 복잡한 다중 캐릭터 인터랙션에서는 여전히 한계가 있다.
**Long-Form Generation (장편 생성):**
현존 대부분 모델의 최대 생성 길이는 5-60초 수준이다. 수 분 이상의 장편 콘텐츠를 일관성 있게 생성하는 것은 여전히 미해결 과제다. Wan 2.6의 멀티샷 내러티브 기능은 이 방향의 초기 시도로 볼 수 있다.
**Physics Simulation (물리 시뮬레이션):**
접촉(contact), 변형체(deformables), 다중 에이전트 역학(multi-agent dynamics)은 여전히 어렵다. 단일 캐릭터의 자연스러운 동작은 달성되었으나, 대화하는 두 인물이나 복잡한 물리 상호작용은 일관성을 유지하기 어렵다.
**Evaluation (평가 체계):**
비디오 생성 품질을 객관적으로 평가하는 표준 메트릭이 부족하다. FVD, FID 같은 기존 메트릭은 인간의 지각적 평가와 괴리가 있으며, 시나리오 기반 시간적 테스트(scenario-based temporal testing)가 더 의미 있는 것으로 평가받고 있다.
11.3 향후 발전 방향
**1. World Foundation Models:**
비디오 생성 모델이 단순 콘텐츠 생성을 넘어 **세계 시뮬레이션(world simulation)** 방향으로 진화하고 있다. 로보틱스, 자율주행, embodied AI에서 action-conditioned 비디오 생성이 핵심 기술로 부상한다.
**2. Hybrid Architecture:**
순수 diffusion에서 벗어나 다양한 아키텍처를 결합하는 하이브리드 시스템이 등장하고 있다. Diffusion Transformer + Auto-Regressive + Flow Matching의 결합, 또는 GAN 기반 초고속 refinement를 diffusion 위에 얹는 등의 시도가 진행 중이다.
**3. 효율성 혁명:**
Z-Image Turbo가 보여준 것처럼, 모델 크기를 줄이면서 품질을 유지하는 "효율성 우선" 패러다임이 확산될 것이다. 이는 on-device 생성, 실시간 비디오 생성 등 새로운 응용을 가능하게 한다.
**4. 개인화와 제어 가능성:**
Wan 2.6의 Reference-to-Video처럼 사용자가 자신의 얼굴, 목소리로 비디오를 생성하거나, ControlNet/IP-Adapter 같은 세밀한 제어 메커니즘이 비디오 생성에도 광범위하게 적용될 것이다.
12. 주요 논문 레퍼런스
Wan 관련 논문
1. **Wan: Open and Advanced Large-Scale Video Generative Models**
- Authors: Wan-AI Team (Alibaba)
- ArXiv: [2503.20314](https://arxiv.org/abs/2503.20314)
- 핵심: Wan 2.1의 전체 아키텍처, Wan-VAE, Flow Matching 학습, 데이터 파이프라인
2. **Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance**
- Authors: Ali-vilab (NeurIPS 2025)
- GitHub: [ali-vilab/Wan-Move](https://github.com/ali-vilab/Wan-Move)
- 핵심: Wan 기반 모션 제어 비디오 생성
Z-Image 관련 논문
3. **Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer**
- Authors: Tongyi-MAI (Alibaba)
- ArXiv: [2511.22699](https://arxiv.org/abs/2511.22699)
- 핵심: S3-DiT 아키텍처, 데이터 인프라, 효율적 학습 전략
관련 기반 논문
4. **Scalable Diffusion Models with Transformers (DiT)**
- Authors: Peebles & Xie
- ArXiv: [2212.09748](https://arxiv.org/abs/2212.09748)
- 핵심: Diffusion Transformer 아키텍처의 원형
5. **Flow Matching for Generative Modeling**
- Authors: Lipman et al.
- ArXiv: [2210.02747](https://arxiv.org/abs/2210.02747)
- 핵심: Flow Matching 프레임워크의 이론적 기초
6. **Classifier-Free Diffusion Guidance**
- Authors: Ho & Salimans
- ArXiv: [2207.12598](https://arxiv.org/abs/2207.12598)
- 핵심: Classifier-Free Guidance 기법
7. **Distribution Matching Distillation (DMD)**
- Authors: Yin et al.
- ArXiv: [2311.18828](https://arxiv.org/abs/2311.18828)
- 핵심: Few-step 증류 기법의 기반
8. **VideoGPT: Video Generation using VQ-VAE and Transformers**
- Authors: Yan et al.
- ArXiv: [2104.10157](https://arxiv.org/abs/2104.10157)
- 핵심: 비디오 생성을 위한 VQ-VAE + Transformer 접근
9. **CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer**
- Authors: ZhipuAI/Tsinghua
- ArXiv: [2408.06072](https://arxiv.org/abs/2408.06072)
- 핵심: Expert Transformer 기반 비디오 생성
10. **HunyuanVideo: A Systematic Framework For Large Video Generative Model**
- Authors: Tencent
- ArXiv: [2412.03603](https://arxiv.org/abs/2412.03603)
- 핵심: 13B 대규모 비디오 생성 프레임워크
13. 참고 자료
공식 리소스
- **Wan 2.1 GitHub:** [https://github.com/Wan-Video/Wan2.1](https://github.com/Wan-Video/Wan2.1)
- **Wan 2.2 GitHub:** [https://github.com/Wan-Video/Wan2.2](https://github.com/Wan-Video/Wan2.2)
- **Wan 공식 사이트:** [https://wan.video](https://wan.video)
- **Z-Image GitHub:** [https://github.com/Tongyi-MAI/Z-Image](https://github.com/Tongyi-MAI/Z-Image)
- **Z-Image Turbo HuggingFace:** [https://huggingface.co/Tongyi-MAI/Z-Image-Turbo](https://huggingface.co/Tongyi-MAI/Z-Image-Turbo)
- **Z-Image Paper:** [https://arxiv.org/abs/2511.22699](https://arxiv.org/abs/2511.22699)
튜토리얼 및 가이드
- **ComfyUI Wan 2.2 공식 가이드:** [https://docs.comfy.org/tutorials/video/wan/wan2_2](https://docs.comfy.org/tutorials/video/wan/wan2_2)
- **ComfyUI Z-Image Turbo 가이드:** [https://docs.comfy.org/tutorials/image/z-image/z-image-turbo](https://docs.comfy.org/tutorials/image/z-image/z-image-turbo)
- **Wan2GP (GPU Poor 최적화):** [https://github.com/deepbeepmeep/Wan2GP](https://github.com/deepbeepmeep/Wan2GP)
- **Alibaba Cloud 비디오 생성 문서:** [https://www.alibabacloud.com/help/en/model-studio/use-video-generation](https://www.alibabacloud.com/help/en/model-studio/use-video-generation)
모델 비교 및 벤치마크
- **Artificial Analysis Text-to-Image Leaderboard:** [https://artificialanalysis.ai/text-to-image](https://artificialanalysis.ai/text-to-image)
- **AI Video Generator 비교 2025:** [https://apatero.com/blog/ai-video-generator-comparison-wan-kling-runway-luma-apatero-2025](https://apatero.com/blog/ai-video-generator-comparison-wan-kling-runway-luma-apatero-2025)
- **Dreamega AI 비디오 모델 비교:** [https://www.dreamega.ai/blog/ai-video-model-comparison-2025](https://www.dreamega.ai/blog/ai-video-model-comparison-2025)
Hugging Face 모델 페이지
- **Wan2.1-T2V-14B:** [https://huggingface.co/Wan-AI/Wan2.1-T2V-14B](https://huggingface.co/Wan-AI/Wan2.1-T2V-14B)
- **Wan2.1-T2V-1.3B:** [https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B](https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B)
- **Wan2.2-T2V-A14B:** [https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B](https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B)
- **Wan2.2-I2V-A14B:** [https://huggingface.co/Wan-AI/Wan2.2-I2V-A14B](https://huggingface.co/Wan-AI/Wan2.2-I2V-A14B)
- **Wan2.2-TI2V-5B:** [https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B](https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B)
14. 결론
Wan과 Z-Image Turbo는 Alibaba가 생성 AI 분야에서 보여주는 두 가지 방향성을 대표한다.
**Wan**은 "오픈소스 비디오 생성의 민주화"를 추구한다. Apache-2.0 라이선스의 완전한 오픈소스로, 1.3B 경량 모델부터 27B MoE 대형 모델까지 다양한 스케일을 제공한다. 3D Causal VAE, DiT backbone, Flow Matching, MoE 아키텍처 등 최신 기술을 집대성했으며, 소비자급 GPU에서도 실행 가능한 접근성을 확보했다. Sora, Kling 같은 상용 모델의 해상도나 길이에는 미치지 못하지만, 커스터마이징 자유도와 비용 효율성에서 독보적 위치를 점한다.
**Z-Image Turbo**는 "효율성 혁명"의 선봉이다. 6B 파라미터로 20B~80B급 모델에 필적하는 품질을 8 step 만에 달성하며, S3-DiT의 single-stream 설계, Decoupled-DMD 증류, DMDR 강화학습 post-training이라는 3중 혁신을 통해 이를 실현했다. 314K GPU hours라는 학습 비용은 기존 대형 모델 대비 10배 이상 효율적이며, sub-second 추론 속도는 실시간 응용의 가능성을 열었다.
두 모델 모두 "더 크고 더 비싼 것이 항상 더 좋은 것은 아니다"라는 메시지를 전달한다. 효율적 아키텍처 설계, 데이터 품질 관리, 고도화된 학습 전략이 brute-force 스케일링보다 중요할 수 있음을 실증적으로 보여주었다. 이는 앞으로 비디오/이미지 생성 AI가 on-device, 실시간, 개인화 방향으로 발전하는 데 중요한 기반이 될 것이다.
현재 단락 (1/763)
2025년은 비디오 생성 AI가 폭발적으로 성장한 해다. OpenAI Sora, Google Veo, Runway Gen-3, Kling 등 상용 서비스가 쏟아지는 가운데, Ali...