- Published on
Wan Text-to-Video/Image-to-Video와 Z Image Turbo 완벽 분석: 차세대 비디오·이미지 생성 모델의 아키텍처와 활용
- Authors
- Name
- 1. 서론: 비디오/이미지 생성 AI의 새로운 지평
- 2. Wan 모델 소개
- 3. Wan 아키텍처 분석
- 4. Wan 모델 변형
- 5. 학습 데이터 및 방법론
- 6. Wan 실전 활용 가이드
- 7. 경쟁 모델 비교
- 8. Z-Image Turbo 소개
- 9. Z-Image 아키텍처 및 기술 분석
- 9.1 S3-DiT (Scalable Single-Stream Multi-Modal Diffusion Transformer)
- 9.2 Single-Stream vs Dual-Stream 설계
- 9.3 QK-Norm과 Sandwich-Norm
- 9.4 Conditional Information Injection
- 9.5 Decoupled-DMD (Distribution-Matching Distillation)
- 9.6 DMDR (Distribution Matching Distillation with Reinforcement)
- 9.7 Few-Step Generation 성능
- 9.8 Data Infrastructure
- 10. Z-Image Turbo 실전 활용 가이드
- 11. 비디오/이미지 생성 AI 생태계 전망
- 12. 주요 논문 레퍼런스
- 13. 참고 자료
- 14. 결론
1. 서론: 비디오/이미지 생성 AI의 새로운 지평
2025년은 비디오 생성 AI가 폭발적으로 성장한 해다. OpenAI Sora, Google Veo, Runway Gen-3, Kling 등 상용 서비스가 쏟아지는 가운데, Alibaba가 오픈소스로 공개한 Wan 시리즈는 "오픈소스도 상용 모델과 경쟁할 수 있다"는 사실을 증명했다. 동시에 이미지 생성 분야에서는 Z-Image Turbo가 6B 파라미터로 20B~80B급 모델에 맞먹는 품질을 8 step 만에 달성하며 효율성의 새 기준을 세웠다.
[비디오/이미지 생성 AI 타임라인 2024-2026]
2024 Q1-Q2 2024 Q3-Q4 2025 Q1-Q2 2025 Q3-Q4 2026 Q1
| | | | |
v v v v v
Sora Preview HunyuanVideo Wan 2.1 Wan 2.2 (MoE) Wan 2.6
Runway Gen-3 CogVideoX Z-Image Wan 2.5-Preview Veo 3.1
Pika 1.0 Kling 1.0 Z-Image Turbo Kling 2.6 Seedance 1.5
Sora 2
이 글에서는 Wan 시리즈의 전체 아키텍처와 학습 방법론을 심층 분석하고, Z-Image Turbo의 초고속 이미지 생성 기술을 해부한 뒤, 경쟁 모델과의 비교 및 실전 활용 가이드까지 포괄적으로 다룬다.
2. Wan 모델 소개
2.1 Alibaba/Wan Team 배경
Wan은 Alibaba Cloud의 Wan-AI 팀이 개발한 대규모 비디오 생성 모델 시리즈다. "Wan"이라는 이름은 중국어로 "만(萬)"을 의미하며, 만 가지 가능성을 열겠다는 비전을 담고 있다. Alibaba의 Tongyi(통의) 연구소와 긴밀히 협력하며 개발되었으며, 오픈소스 생태계에 대한 Alibaba의 전략적 투자 일환이기도 하다.
핵심 마일스톤:
| 버전 | 출시일 | 주요 특징 |
|---|---|---|
| Wan 2.1 | 2025년 2월 | 최초 오픈소스 공개, T2V/I2V 지원 |
| Wan 2.2 | 2025년 7월 | MoE 아키텍처 도입, 27B 파라미터 |
| Wan 2.5-Preview | 2025년 9월 | Native Multimodality (텍스트+이미지+비디오+오디오) |
| Wan 2.6 | 2025년 12월 | Reference-to-Video, 멀티샷 내러티브 |
2.2 Text-to-Video와 Image-to-Video 기능
Wan은 두 가지 핵심 모달리티를 지원한다:
Text-to-Video (T2V): 텍스트 프롬프트만으로 고품질 비디오를 생성한다. 다국어 T5 인코더를 통해 영어, 중국어 등 복수 언어 프롬프트를 처리할 수 있으며, Classifier-Free Guidance를 통해 프롬프트 충실도를 제어한다.
Image-to-Video (I2V): 단일 이미지를 입력으로 받아 해당 이미지를 첫 프레임으로 하는 자연스러운 비디오를 생성한다. 이미지의 시각적 특성(구도, 색감, 객체)을 보존하면서 시간적 동작을 추가하는 것이 핵심이다.
[Wan 모델 파이프라인 개요]
Text-to-Video:
텍스트 프롬프트 ──> T5 Encoder ──> Cross-Attention ──> DiT Backbone ──> 3D VAE Decoder ──> 비디오
Image-to-Video:
입력 이미지 ──> VAE Encoder ──┐
├──> DiT Backbone ──> 3D VAE Decoder ──> 비디오
텍스트 프롬프트 ──> T5 Encoder ──┘
2.3 오픈소스 공개 현황
Wan의 가장 큰 차별점은 완전한 오픈소스라는 점이다. Apache-2.0 라이선스로 공개되어 상업적 사용이 자유롭다.
공개 리소스:
- GitHub 레포지토리:
Wan-Video/Wan2.1,Wan-Video/Wan2.2 - Hugging Face 모델:
Wan-AI/Wan2.1-T2V-14B,Wan-AI/Wan2.1-T2V-1.3B,Wan-AI/Wan2.2-T2V-A14B,Wan-AI/Wan2.2-I2V-A14B - 추론 코드: 완전한 Python 추론 파이프라인 제공
- 모델 가중치: Hugging Face 및 ModelScope에서 다운로드 가능
- 라이선스: Apache-2.0 (상업적 사용 가능)
3. Wan 아키텍처 분석
Wan의 아키텍처는 Diffusion Transformer(DiT) 패러다임을 기반으로 하며, 비디오 생성에 최적화된 여러 혁신적 컴포넌트를 포함한다.
3.1 3D Causal VAE (Wan-VAE)
Wan-VAE는 비디오 데이터를 효율적으로 압축하는 핵심 컴포넌트로, 공간(Spatial)과 시간(Temporal) 차원을 동시에 압축한다.
[Wan-VAE 압축 구조]
입력 비디오: [T, H, W, 3] (예: 81프레임, 720, 1280, RGB)
|
v
3D Causal VAE Encoder
|
v
Latent Space: [T/4, H/8, W/8, 16] (압축비: 4x8x8, latent dim=16)
|
v
3D Causal VAE Decoder
|
v
복원 비디오: [T, H, W, 3]
핵심 설계 원칙:
Causal Convolution: 시간 축에서 인과적(causal) 컨볼루션을 사용하여, 미래 프레임 정보가 과거 프레임 인코딩에 영향을 미치지 않도록 한다. 이를 통해 무한 길이 비디오의 스트리밍 인코딩이 가능하다.
압축비 4x8x8: 시간 축 4배, 공간 축 8x8 압축을 적용한다. Latent dimension은 16으로, 이는 Open-Sora Plan(latent dim=4)이나 SVD(압축비 1x8x8, latent dim=4)와 차별화되는 설계다.
3단계 학습 전략:
- Stage 1: 동일 구조의 2D Image VAE를 이미지 데이터로 학습하여 공간적 압축 능력을 확보
- Stage 2: 학습된 2D VAE를 3D Causal VAE로 inflate하여 시간적 압축 prior를 제공
- Stage 3: 저해상도(128x128), 소규모 프레임(5프레임) 비디오로 초기 학습 후 점진적으로 해상도 및 프레임 수 확장
Temporal Chunk Processing: 시간 축 압축비에 따라 각 처리 청크의 프레임 수를 최대 4로 제한하여 메모리 오버플로를 방지한다.
성능 특성:
- 1080P 해상도의 무한 길이 비디오를 과거 시간 정보 손실 없이 인코딩/디코딩 가능
- 높은 시간적 일관성(temporal consistency) 유지
- 다른 VAE 대비 우수한 복원 품질
3.2 Diffusion Transformer (DiT) Backbone
Wan의 핵심 생성 모델은 Diffusion Transformer(DiT) 아키텍처를 채택한다. U-Net 기반 전통적 diffusion 모델과 달리, Transformer의 확장성(scalability)을 활용한다.
[Wan DiT Backbone 구조]
Time Embedding
|
MLP (Linear + SiLU)
|
6개 Modulation Parameters
|
┌────────────┼────────────┐
v v v
┌──────────────────────────────────────┐
│ Transformer Block │
│ │
│ ┌─────────────────────────────────┐ │
│ │ Spatio-Temporal Self-Attention │ │
│ │ (Multi-Head) │ │
│ └─────────────────────────────────┘ │
│ | │
│ ┌─────────────────────────────────┐ │
│ │ Cross-Attention │ │
│ │ (Text Conditioning) │ │
│ └─────────────────────────────────┘ │
│ | │
│ ┌─────────────────────────────────┐ │
│ │ Feed-Forward Network │ │
│ └─────────────────────────────────┘ │
└──────────────────────────────────────┘
|
(x N blocks)
|
Output Prediction
주요 특징:
Spatio-Temporal Self-Attention: Patchified 비디오 latent 표현에 대해 공간과 시간을 동시에 처리하는 multi-head self-attention을 적용한다. 이를 통해 프레임 간 시간적 일관성과 프레임 내 공간적 일관성을 동시에 학습한다.
Modulation 메커니즘: 시간 임베딩(timestep embedding)을 MLP(Linear + SiLU)로 처리하여 6개의 modulation 파라미터를 예측한다. 이 MLP는 모든 transformer 블록에서 공유되며, 각 블록은 고유한 bias 세트를 학습한다.
Cross-Attention for Text Conditioning: T5 인코더의 텍스트 임베딩을 cross-attention을 통해 각 transformer 블록에 주입한다. 이를 통해 텍스트 프롬프트의 의미적 정보가 생성 과정 전반에 걸쳐 영향을 미친다.
3.3 Text Encoder (T5/CLIP Integration)
Wan은 다국어 T5 인코더를 텍스트 인코더로 사용한다. 이는 CLIP만 사용하는 모델 대비 몇 가지 장점을 제공한다:
| 특성 | T5 (Wan) | CLIP (기존 모델) |
|---|---|---|
| 텍스트 이해력 | 심층적 의미 이해 | 이미지-텍스트 정렬 중심 |
| 다국어 지원 | 우수 (다국어 학습) | 영어 중심 |
| 긴 프롬프트 처리 | 우수 | 제한적 (77 토큰) |
| 복잡한 관계 추론 | 가능 | 제한적 |
| 파라미터 동결 | Frozen | Frozen |
T5 인코더는 학습 과정에서 파라미터가 동결(frozen)되며, cross-attention을 통해 DiT backbone에 프롬프트 임베딩을 제공한다. 다국어 T5의 채택으로 영어뿐 아니라 중국어, 한국어 등 다양한 언어의 프롬프트를 자연스럽게 처리할 수 있다.
3.4 Flow Matching Training
Wan 2.1은 Flow Matching 프레임워크를 채택하여 전통적 DDPM 대비 학습 효율성을 크게 개선했다.
[Flow Matching vs DDPM 비교]
DDPM (Denoising Diffusion Probabilistic Models):
x_0 ──(많은 discrete steps)──> x_T (Gaussian noise)
학습: 각 step에서 noise 예측
문제: 수백~수천 step 필요, 복잡한 noise schedule
Flow Matching:
x_0 ──(직선 경로)──> x_1 (Gaussian noise)
학습: velocity field v(x_t, t) 예측
장점: 직선 경로로 더 적은 step에서 고품질 생성
Flow Matching의 핵심 원리:
Flow Matching은 데이터 분포와 노이즈 분포 사이의 **직선 경로(straight path)**를 학습한다. DDPM이 복잡한 noise schedule을 통해 점진적으로 노이즈를 제거하는 반면, Flow Matching은 ODE(Ordinary Differential Equation) 기반으로 더 효율적인 경로를 학습한다.
핵심 학습 목적함수:
L_FM = E_{t, x_0, x_1} [ || v_theta(x_t, t) - (x_1 - x_0) ||^2 ]
여기서:
x_t = (1-t) * x_0 + t * x_1 (직선 보간)
v_theta: 학습 가능한 velocity field
t ~ U(0, 1): 시간 파라미터
이 접근법을 통해 Wan은 전통적 diffusion 모델 대비 더 적은 추론 step으로 고품질 비디오를 생성할 수 있다.
3.5 Motion Module / Temporal Attention
비디오 생성에서 가장 중요한 요소 중 하나는 **시간적 일관성(temporal consistency)**이다. Wan은 이를 위해 spatio-temporal self-attention을 핵심으로 활용한다.
[Spatio-Temporal Attention 동작 방식]
Frame 1 Frame 2 Frame 3 Frame 4
| | | |
v v v v
[패치화] --> [패치화] --> [패치화] --> [패치화]
| | | |
└───────────┴───────────┴───────────┘
|
Spatio-Temporal Self-Attention
(모든 프레임의 모든 패치 간 attention)
|
┌───────────┬───────────┬───────────┐
| | | |
Frame 1 Frame 2 Frame 3 Frame 4
이 방식에서 모든 프레임의 모든 패치가 서로 attention을 수행하므로, 한 프레임의 객체 움직임이 다른 프레임과 자연스럽게 연결된다. 이는 프레임별 독립적 생성 후 시간적 일관성을 맞추는 방식보다 훨씬 자연스러운 모션을 만들어낸다.
3.6 Resolution and Duration Capabilities
Wan의 해상도 및 길이 지원 현황:
| 모델 | 해상도 | 프레임 수 | FPS | 비디오 길이 |
|---|---|---|---|---|
| Wan 2.1 T2V-1.3B | 832x480 (480P) | ~81 | 16 | ~5초 |
| Wan 2.1 T2V-14B | 1280x720 (720P) | ~81 | 16 | ~5초 |
| Wan 2.1 I2V-14B | 1280x720 (720P) | ~81 | 16 | ~5초 |
| Wan 2.2 TI2V-5B | 1280x720 (720P) | ~97 | 24 | ~4초 |
| Wan 2.2 A14B (MoE) | 1280x720 (720P) | ~97 | 24 | ~4초 |
Wan 2.2에서는 FPS가 16에서 24로 향상되어 기존 버전의 약간의 끊김 현상이 개선되었다.
4. Wan 모델 변형
4.1 Wan 2.1: 1.3B (경량 모델)
Wan 2.1의 1.3B 모델은 소비자급 GPU에서 실행 가능한 경량 모델이다.
주요 특성:
파라미터: 1.3B (약 13억)
지원 태스크: Text-to-Video만 지원 (Image-to-Video 미지원)
최적 해상도: 480P (832x480)
VRAM 요구량: 약 8.2GB
생성 속도: RTX 4090 기준 5초 480P 비디오 약 4분
1.3B 모델은 720P 해상도도 기술적으로 지원하지만, 해당 해상도에서의 학습이 제한적이어서 480P 사용이 권장된다. 개인 개발자나 리소스가 제한된 환경에서 프로토타이핑 용도로 적합하다.
4.2 Wan 2.1: 14B (대형 모델)
14B 모델은 Wan 2.1의 풀 스케일 모델로, 720P 해상도를 안정적으로 지원한다.
주요 특성:
- 파라미터: 14B (약 140억)
- 지원 태스크: Text-to-Video, Image-to-Video 모두 지원
- 최적 해상도: 720P (1280x720)
- VRAM 요구량: 24GB 이상 (32GB+ 권장)
- 다국어: T5 인코더를 통한 다국어 프롬프트 지원
4.3 Wan 2.2: MoE 아키텍처 (A14B)
Wan 2.2는 대규모 언어 모델(LLM)에서 검증된 Mixture-of-Experts(MoE) 아키텍처를 비디오 생성 diffusion 모델에 도입한 획기적 버전이다.
[Wan 2.2 MoE 아키텍처 구조]
Denoising Process Timeline:
t=T (pure noise) ─────────────────────────────> t=0 (clean video)
High-Noise Phase Low-Noise Phase
┌──────────────┐ ┌──────────────┐
│ Expert 1 │ │ Expert 2 │
│ (14B) │ │ (14B) │
│ │ │ │
│ 전체 레이아웃 │ SNR │ 디테일 개선 │
│ 구조 결정 │ 전환점 │ 텍스처 품질 │
└──────────────┘ └──────────────┘
총 파라미터: ~27B
추론 시 활성 파라미터: ~14B (step당 하나의 expert만 활성)
핵심 설계:
Two-Expert Design: Diffusion 모델의 denoising 과정에 특화된 2개의 전문가 모델을 사용한다.
- High-Noise Expert: 초기 denoising 단계에서 활성화되어 전체 레이아웃과 구조를 결정
- Low-Noise Expert: 후기 denoising 단계에서 활성화되어 비디오 디테일을 개선
SNR 기반 전환: 두 expert 간 전환점은 Signal-to-Noise Ratio(SNR)에 의해 결정된다. SNR은 denoising step이 증가함에 따라 단조 감소하며, 이 값을 기준으로 적절한 expert를 선택한다.
효율적 추론: 총 27B 파라미터이지만, 각 추론 step에서 14B만 활성화되므로 GPU 메모리와 연산 비용은 단일 14B 모델 수준으로 유지된다.
4.4 Wan 2.2: TI2V-5B (Dense Model)
MoE 모델 외에 5B Dense 모델도 함께 공개되었다.
주요 특성:
- 파라미터: 5B (약 50억)
- 아키텍처: Dense (MoE가 아닌 단일 모델)
- VAE: 새로운 Wan2.2-VAE (압축비 16x16x4)
- 해상도: 720P (1280x720)
- FPS: 24fps
- 생성 속도: 소비자급 GPU에서 5초 720P 비디오 9분 이내
Wan2.2-VAE는 기존 Wan-VAE 대비 크게 향상된 압축비(16x16x4)를 달성하여, 더 적은 latent 토큰으로 동일 품질의 비디오를 표현할 수 있다.
4.5 Text-to-Video vs Image-to-Video 차이점
| 특성 | Text-to-Video (T2V) | Image-to-Video (I2V) |
|---|---|---|
| 입력 | 텍스트 프롬프트 | 이미지 + 텍스트 프롬프트 |
| 첫 프레임 | 모델이 자유롭게 생성 | 입력 이미지와 일치 필수 |
| 조건부 정보 | T5 텍스트 임베딩 | T5 임베딩 + VAE 이미지 latent |
| 창작 자유도 | 높음 | 이미지에 의해 제약 |
| 주요 활용 | 순수 창작, 시나리오 시각화 | 사진 애니메이션, 제품 데모 |
| 1.3B 지원 | O | X |
| 14B 지원 | O | O |
5. 학습 데이터 및 방법론
5.1 학습 데이터셋
Wan 2.1은 대규모 이미지-텍스트, 비디오-텍스트 페어 데이터셋으로 학습되었다. Wan 2.2는 Wan 2.1 대비 이미지 데이터 65.6% 증가, 비디오 데이터 83.2% 증가라는 대폭적인 데이터 확장을 달성했다.
데이터 품질 관리 4단계 파이프라인:
[Wan 데이터 정제 파이프라인]
원본 데이터 (웹 크롤링)
|
v
┌──────────────────────┐
│ Stage 1: Visual Fidelity │
│ - 해상도/화질 필터링 │
│ - 워터마크/텍스트 오버레이 제거 │
│ - 압축 아티팩트 검출 │
└──────────────────────┘
|
v
┌──────────────────────┐
│ Stage 2: Motion Smoothness │
│ - 프레임 간 일관성 검사 │
│ - 불안정한 카메라 워크 필터링 │
│ - 급격한 장면 전환 감지 │
└──────────────────────┘
|
v
┌──────────────────────┐
│ Stage 3: Diversity │
│ - 의미적 중복 제거 │
│ - 카테고리별 균형 조정 │
│ - 다양한 동작/장면 확보 │
└──────────────────────┘
|
v
┌──────────────────────┐
│ Stage 4: Frame Integrity │
│ - 프레임 드롭 검출 │
│ - 시간적 일관성 최종 검증 │
│ - 캡션-비디오 정합성 확인 │
└──────────────────────┘
|
v
최종 학습 데이터셋
5.2 Progressive Training Strategy
Wan은 점진적 학습 전략(Progressive Training)을 채택하여 효율적이고 안정적인 학습을 달성한다.
3단계 Progressive Training:
Stage 1 - Image Pre-training:
- 대규모 이미지-텍스트 데이터로 공간적 생성 능력 학습
- 텍스트-이미지 정렬(alignment) 확보
- 해상도: 256x256에서 시작하여 점진적으로 증가
Stage 2 - Low-Resolution Video Training:
- 저해상도(256x256~480P) 비디오로 시간적 동작 학습
- 짧은 클립(16~33 프레임)으로 기본 동작 패턴 학습
- 이미지 생성 능력을 보존하면서 temporal modeling 추가
Stage 3 - High-Resolution Fine-tuning:
- 고해상도(720P) 비디오로 최종 fine-tuning
- 긴 시퀀스(81~97 프레임)로 확장
- 고품질 큐레이션 데이터 위주로 품질 극대화
[Progressive Training 흐름]
Stage 1 Stage 2 Stage 3
Image 256x256 -> Video 480P 16fps -> Video 720P 24fps
텍스트-이미지 시간적 동작 학습 고품질 Fine-tuning
정렬 학습 짧은 클립 긴 시퀀스
5.3 Quality Filtering Pipeline
학습 데이터의 품질은 생성 모델의 성능을 결정짓는 핵심 요소다. Wan은 자동화된 품질 평가 메트릭을 개발하여 데이터 필터링에 적용했다.
자동화된 평가 메트릭:
- Visual Quality Score: 해상도, 선명도, 색감 균형 평가
- Motion Quality Score: 동작의 자연스러움, 물리적 타당성 평가
- Text-Video Alignment Score: 캡션과 비디오 내용의 일치도 평가
- Aesthetic Score: 구도, 조명, 예술적 품질 평가
5.4 Classifier-Free Guidance
Wan은 **Classifier-Free Guidance(CFG)**를 사용하여 텍스트 프롬프트 충실도를 제어한다.
CFG 수식:
output = uncond_output + guidance_scale * (cond_output - uncond_output)
여기서:
cond_output: 텍스트 조건부 출력
uncond_output: 무조건부 출력 (빈 프롬프트)
guidance_scale: CFG 스케일 (높을수록 프롬프트에 충실)
학습 시 일정 확률로 텍스트 조건을 드롭(drop)하여 무조건부 생성과 조건부 생성을 모두 학습한다. 추론 시에는 guidance_scale 파라미터로 프롬프트 충실도와 생성 다양성 사이의 균형을 조절할 수 있다.
6. Wan 실전 활용 가이드
6.1 설치 방법
pip 설치
# Python 3.10+ 및 PyTorch 2.4.0+ 필요
pip install torch torchvision torchaudio
# Wan 2.1 레포지토리 클론
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
# 의존성 설치
pip install -r requirements.txt
# 모델 다운로드 (Hugging Face)
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Wan 2.2 설치
# Wan 2.2 레포지토리 클론
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
# 의존성 설치
pip install -r requirements.txt
# Wan 2.2 MoE 모델 다운로드
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
6.2 기본 추론 코드
Text-to-Video (1.3B - 경량)
python generate.py \
--task t2v-1.3B \
--size 832*480 \
--ckpt_dir ./Wan2.1-T2V-1.3B \
--prompt "A futuristic city with flying cars and neon lights at dusk."
Text-to-Video (14B - 고품질)
python generate.py \
--task t2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-T2V-14B \
--prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves \
fight intensely on a spotlighted stage."
Image-to-Video (14B)
python generate.py \
--task i2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-I2V-14B-720P \
--image input_image.jpg \
--prompt "The camera slowly zooms in as the subject begins to smile."
메모리 최적화 옵션
# 모델 오프로딩 (VRAM 절약)
python generate.py \
--task t2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-T2V-14B \
--offload_model True \
--t5_cpu \
--prompt "A serene lake surrounded by mountains at sunrise."
Multi-GPU 가속
# 8-GPU 병렬 추론
torchrun --nproc_per_node=8 generate.py \
--task t2v-14B \
--size 1280*720 \
--ckpt_dir ./Wan2.1-T2V-14B \
--dit_fsdp \
--t5_fsdp \
--ulysses_size 8 \
--prompt "A timelapse of a flower blooming in a garden."
6.3 ComfyUI 연동
ComfyUI는 Wan의 가장 인기 있는 프론트엔드 인터페이스다.
Wan 2.2 ComfyUI 설정:
- ComfyUI를 최신 버전으로 업데이트
- Workflow -> Browse Templates -> Video에서 "Wan2.2 5B video generation" 템플릿 로드
- 또는 공식 JSON 워크플로우 파일을 캔버스에 드래그 앤 드롭
GGUF 양자화 모델 (저사양 GPU):
GGUF 포맷의 양자화 모델을 사용하면 12GB 이하의 VRAM에서도 Wan 2.2를 실행할 수 있다:
- VRAM 사용량 50-70% 절감
- 추론 속도 최대 2배 향상
- 품질 저하 최소화
추가 가속 기법:
- TeaCache: 생성 속도 2-3배 향상
- Sage Attention: attention 연산 최적화
- Wan2GP: GPU Poor를 위한 최적화 래퍼 (Wan 2.1/2.2, HunyuanVideo, LTX Video 지원)
6.4 프롬프트 작성 가이드
Wan에서 최상의 결과를 얻기 위한 프롬프트 작성 전략:
기본 구조:
[주제/액션] + [스타일/분위기] + [카메라 워크] + [조명/환경]
효과적인 프롬프트 예시:
"A young woman walks through a bustling Tokyo street at night.
Neon signs reflect on wet pavement. Cinematic lighting.
The camera follows her from behind in a smooth tracking shot.
High detail, photorealistic, 4K quality."
프롬프트 강화(Enhancement):
Wan 2.1은 프롬프트 자동 강화 기능을 제공한다:
- Dashscope API 활용: Alibaba Cloud API를 통한 프롬프트 자동 개선
- 로컬 모델 활용: 로컬 LLM으로 프롬프트를 상세화
팁:
- 구체적인 동작을 명시하라 (예: "walks slowly" vs "walks")
- 카메라 앵글/움직임을 지정하라 (예: "tracking shot", "dolly zoom")
- 환경과 조명 조건을 상세히 기술하라
- 부정적 요소는 피하라 (모델이 "~하지 않는" 구문을 잘 처리하지 못함)
6.5 GPU 요구사항 및 메모리 최적화
| 모델 | 최소 VRAM | 권장 VRAM | 생성 시간 (5초 비디오) |
|---|---|---|---|
| Wan 2.1 T2V-1.3B (480P) | 8GB | 12GB | ~4분 (RTX 4090) |
| Wan 2.1 T2V-14B (720P) | 24GB | 32GB+ | ~8분 (RTX 4090) |
| Wan 2.2 TI2V-5B (720P) | 12GB | 16GB | ~9분 (소비자급 GPU) |
| Wan 2.2 A14B MoE (720P) | 24GB | 32GB+ | ~10분 (RTX 4090) |
| Wan 2.2 14B GGUF (480P) | 6GB | 12GB | ~15분 (RTX 4050) |
메모리 최적화 전략:
- Model Offloading:
--offload_model True로 사용하지 않는 모델 컴포넌트를 CPU 메모리로 이동 - T5 CPU Inference:
--t5_cpu로 T5 인코더를 CPU에서 실행하여 GPU 메모리 절약 - GGUF 양자화: FP16/BF16 대비 메모리 사용량 대폭 절감
- FSDP (Fully Sharded Data Parallel): Multi-GPU 환경에서 모델 파라미터 분산
- Flash Attention: attention 연산의 메모리 효율성 향상
7. 경쟁 모델 비교
7.1 Wan vs Sora (OpenAI)
Sora 2는 물리 시뮬레이션과 객체 영속성(object persistence)에서 현존 최고 수준을 달성했다. 최대 1분 길이의 포토리얼리스틱 비디오를 생성할 수 있으며, 물체의 낙하, 충돌, 반사 등 물리 현상을 자연스럽게 구현한다.
| 항목 | Wan 2.2/2.6 | Sora 2 |
|---|---|---|
| 오픈소스 | Apache-2.0 | 비공개 |
| 최대 해상도 | 720P (1280x720) | 1080P |
| 최대 길이 | ~5초 (로컬), API 더 길게 | ~60초 |
| 물리 시뮬레이션 | 우수 | 최상 |
| 로컬 실행 | 가능 | 불가 |
| 가격 | 무료 (로컬) | 유료 구독 |
| 커스터마이징 | 가능 (fine-tuning) | 불가 |
7.2 Wan vs Kling (Kuaishou)
Kling은 ByteDance/Kuaishou가 개발한 모델로, 캐릭터 동작과 립싱크에서 특히 강점을 보인다.
| 항목 | Wan 2.2/2.6 | Kling 2.6 |
|---|---|---|
| 오픈소스 | Apache-2.0 | 비공개 |
| 모션 품질 | 우수 | 최상 (특히 인물) |
| 최대 길이 | ~5초 (로컬) | ~120초 |
| 립싱크 | 제한적 | 우수 |
| 카메라 모션 | 우수 | 우수 |
| 접근성 | 로컬/API | API만 |
7.3 Wan vs Runway Gen-3
Runway Gen-3 Turbo는 영화적 품질과 카메라 워크에서 강점을 가진 상용 서비스다.
| 항목 | Wan 2.2/2.6 | Runway Gen-3 |
|---|---|---|
| 오픈소스 | Apache-2.0 | 비공개 |
| 영화적 품질 | 우수 | 최상 |
| Motion Synthesis | 우수 | 우수 |
| 해상도 | 720P | 1080P |
| 가격 | 무료 (로컬) | 유료 (크레딧 기반) |
7.4 Wan vs Pika
Pika는 사용 편의성과 빠른 생성에 초점을 맞춘 서비스다.
| 항목 | Wan 2.2/2.6 | Pika |
|---|---|---|
| 오픈소스 | Apache-2.0 | 비공개 |
| 사용 편의성 | 중간 (기술 지식 필요) | 최상 (웹 UI) |
| 생성 속도 | 수 분 (로컬) | 수 초 (클라우드) |
| 커스터마이징 | 가능 | 제한적 |
| 스타일 다양성 | 우수 | 우수 |
7.5 Wan vs CogVideoX (Tsinghua/ZhipuAI)
CogVideoX는 Tsinghua 대학과 ZhipuAI가 개발한 오픈소스 비디오 생성 모델이다.
| 항목 | Wan 2.2 | CogVideoX-5B |
|---|---|---|
| 오픈소스 | Apache-2.0 | Apache-2.0 |
| 파라미터 | 27B (MoE) | 5B |
| 해상도 | 720P (1280x720) | 480P (720x480) |
| 최대 길이 | ~5초 | ~6초 |
| FPS | 24 | 8 |
| I2V 품질 | 우수 | 최상 (I2V 특화) |
| VRAM | 24GB+ | 8-12GB |
7.6 Wan vs HunyuanVideo (Tencent)
HunyuanVideo는 Tencent가 개발한 13B 파라미터의 비디오 생성 모델이다.
| 항목 | Wan 2.2 | HunyuanVideo |
|---|---|---|
| 오픈소스 | Apache-2.0 | 오픈소스 |
| 파라미터 | 27B (MoE) / 5B | 13B |
| 해상도 | 720P | 720P (1280x720) |
| 최대 길이 | ~5초 | ~15초 |
| FPS | 24 | 24 |
| 영화적 품질 | 우수 | 최상 (시네마틱 특화) |
| GPU 요구 | 24GB+ | A100/H100 권장 |
7.7 종합 비교 표
| 모델 | 해상도 | 최대 길이 | 품질 | 오픈소스 | 접근성 | 특장점 |
|---|---|---|---|---|---|---|
| Wan 2.6 | 720P | ~5초+ | 상 | O (Apache-2.0) | 로컬/API | 멀티샷 내러티브, R2V |
| Sora 2 | 1080P | ~60초 | 최상 | X | API | 물리 시뮬레이션 |
| Kling 2.6 | 1080P | ~120초 | 최상 | X | API | 모션/립싱크 |
| Runway Gen-3 | 1080P | ~10초 | 최상 | X | API | 영화적 품질 |
| Pika | 1080P | ~4초 | 상 | X | 웹 | 사용 편의성 |
| CogVideoX | 480P | ~6초 | 중상 | O (Apache-2.0) | 로컬 | 저사양 I2V |
| HunyuanVideo | 720P | ~15초 | 최상 | O | 로컬 | 시네마틱 품질 |
| Veo 3.1 | 1080P | ~25초 | 최상 | X | API | 오디오 통합 |
| Seedance 1.5 | 1080P | ~10초 | 상 | X | API | 다국어/빠른 반복 |
핵심 시사점: Wan은 "오픈소스 + 상업적 자유 + 로컬 실행 가능"이라는 조합에서 독보적이다. 상용 모델 대비 해상도나 길이에서는 뒤처지지만, 커스터마이징 가능성과 비용 효율성에서 압도적 우위를 가진다.
8. Z-Image Turbo 소개
8.1 초고속 이미지 생성 모델
Z-Image Turbo는 Alibaba의 Tongyi-MAI(Machine AI) 연구소가 개발한 초고속 텍스트-이미지 생성 모델이다. 2025년 11월 26일 공개되었으며, 6B 파라미터로 20B~80B급 경쟁 모델의 품질에 필적하면서 추론 속도는 수 배 빠르다.
핵심 성과:
- Artificial Analysis Text-to-Image Leaderboard: 2025년 12월 기준 전체 8위, 오픈소스 1위
- 추론 속도: H800 GPU에서 512x512 이미지 sub-second(약 0.8초) 생성
- 메모리: 16GB VRAM 이하의 소비자급 디바이스에서 실행 가능
- 학습 비용: 314K H800 GPU hours (약 $630K) -- 기존 대형 모델 대비 10배 이상 효율적
[Z-Image Turbo 포지셔닝]
품질
^
| * Flux Pro (12B)
| * DALL-E 3
| * Z-Image Turbo (6B) <-- 여기!
| * SDXL (2.6B)
|
| * SD 1.5 (0.9B)
|
+────────────────────> 속도
느림 빠름
Z-Image Turbo: 작은 파라미터로 높은 품질 + 빠른 속도
8.2 Turbo/Distillation 기술의 의미
"Turbo"라는 명칭은 **지식 증류(Knowledge Distillation)**를 통해 원본 모델의 품질을 유지하면서 추론 단계를 대폭 줄인 모델을 의미한다.
[Teacher-Student Distillation 개념]
Teacher Model (Z-Image): 100 step denoising
|
| 지식 증류 (Distillation)
v
Student Model (Z-Image Turbo): 8 step denoising
결과: 100 step의 품질을 8 step으로 달성
-> 약 12.5배 속도 향상
전통적 diffusion 모델이 50~100 step의 denoising이 필요한 반면, Z-Image Turbo는 단 **8 NFE(Number of Function Evaluations)**로 동등한 품질을 달성한다.
9. Z-Image 아키텍처 및 기술 분석
9.1 S3-DiT (Scalable Single-Stream Multi-Modal Diffusion Transformer)
Z-Image의 핵심 아키텍처는 S3-DiT로, "규모 확장에 따른 비용 증가" 패러다임에 도전하는 효율적 설계다.
[S3-DiT 아키텍처 상세]
입력 스트림:
Qwen3-4B 텍스트 토큰 ──┐
FLUX VAE 이미지 토큰 ──┤──> Single-Stream Fusion ──> Unified Sequence
SigLIP 2 시맨틱 토큰 ──┘
Unified Sequence
|
v
┌──────────────────────────────────────────┐
│ S3-DiT Transformer Layer │
│ │
│ ┌────────────────────────────────────┐ │
│ │ Modality-Specific Pre-Processing │ │
│ │ (경량 모달리티별 프로세서) │ │
│ └────────────────────────────────────┘ │
│ | │
│ ┌────────────────────────────────────┐ │
│ │ Single-Stream Self-Attention │ │
│ │ (QK-Norm + Sandwich-Norm) │ │
│ │ - 32 attention heads │ │
│ │ - hidden dim: 3840 │ │
│ └────────────────────────────────────┘ │
│ | │
│ ┌────────────────────────────────────┐ │
│ │ Conditional Injection │ │
│ │ (Scale + Gate parameters) │ │
│ │ - Shared low-rank down-projection│ │
│ │ - Layer-specific up-projection │ │
│ └────────────────────────────────────┘ │
│ | │
│ ┌────────────────────────────────────┐ │
│ │ Feed-Forward Network │ │
│ │ (FFN dim: 10,240) │ │
│ └────────────────────────────────────┘ │
│ │
└──────────────────────────────────────────┘
| (x 30 layers)
v
출력 이미지 Latent
S3-DiT 핵심 사양:
| 컴포넌트 | 사양 |
|---|---|
| Transformer Layers | 30 |
| Hidden Dimension | 3,840 |
| Attention Heads | 32 |
| FFN Dimension | 10,240 |
| 총 파라미터 | 6.15B |
| Text Encoder | Qwen3-4B (Frozen) |
| Image VAE | FLUX VAE (Frozen) |
| Semantic Encoder | SigLIP 2 (Frozen, 편집 태스크용) |
9.2 Single-Stream vs Dual-Stream 설계
Z-Image의 S3-DiT는 Single-Stream 아키텍처를 채택하여, 기존 Dual-Stream 모델(예: FLUX의 초기 블록) 대비 크로스-모달 상호작용을 극대화한다.
[Dual-Stream vs Single-Stream 비교]
Dual-Stream (예: FLUX 초기 블록):
텍스트 토큰 ──> [Text Stream Blocks] ──┐
├──> 후반부 합류
이미지 토큰 ──> [Image Stream Blocks] ──┘
-> 모달리티 간 상호작용이 후반부에 집중
Single-Stream (Z-Image S3-DiT):
텍스트 + 이미지 + 시맨틱 ──> [Unified Blocks] ──> 출력
-> 모든 레이어에서 밀도 높은 크로스-모달 상호작용
-> 파라미터 공유로 효율성 극대화
Single-Stream의 장점:
- 매 레이어마다 크로스-모달 정보 교환 -- 텍스트와 이미지 표현이 초기부터 상호 영향
- 파라미터 효율성 -- 별도의 모달리티별 deep block 불필요
- 학습 효율성 -- 동일 파라미터 대비 더 높은 표현력
9.3 QK-Norm과 Sandwich-Norm
대규모 Transformer 학습의 안정성을 위해 Z-Image는 두 가지 정규화 기법을 도입한다:
QK-Norm: Attention 레이어에서 Query와 Key 벡터를 정규화하여 attention score의 폭발적 증가를 방지한다. 이는 학습 초기 단계에서 특히 중요하며, gradient vanishing/exploding 문제를 완화한다.
Sandwich-Norm: Transformer 블록의 경계(입력/출력)에서 정규화를 적용하여 신호 진폭을 제어한다. Pre-Norm과 Post-Norm을 모두 적용하는 형태로, 깊은 네트워크에서의 안정적 학습을 보장한다.
[Sandwich-Norm 구조]
입력 -> [Pre-Norm] -> Attention/FFN -> [Post-Norm] -> 출력
^ ^
| |
Sandwich-Norm: 양쪽 모두 정규화
9.4 Conditional Information Injection
조건부 정보(timestep, 텍스트 등)의 주입은 scale-gate 메커니즘을 통해 이루어진다:
- Shared Low-Rank Down-Projection: 모든 레이어에서 공유되는 저차원 프로젝션으로 조건부 정보를 압축
- Layer-Specific Up-Projection: 각 레이어별 고유한 업-프로젝션으로 Attention과 FFN 경로를 독립적으로 조절
- Learnable Scale-Gate: 학습 가능한 스케일/게이트 파라미터로 정규화된 입출력을 조절
이 설계는 파라미터 효율적이면서도 각 레이어가 조건부 정보에 대해 독립적으로 반응할 수 있게 한다.
9.5 Decoupled-DMD (Distribution-Matching Distillation)
Z-Image Turbo의 핵심 증류 알고리즘은 Decoupled-DMD다. 기존 DMD를 두 가지 독립적 메커니즘으로 분해하여 최적화한다.
[Decoupled-DMD 구조]
Teacher Model (100 steps)
|
v
┌──────────────────────────────────┐
│ Decoupled-DMD Loss │
│ │
│ ┌────────────────────────────┐ │
│ │ Term 1: CFG Augmentation │ │
│ │ - Classifier-Free Guidance │ │
│ │ - 맞춤형 renoising schedule│ │
│ └────────────────────────────┘ │
│ + │
│ ┌────────────────────────────┐ │
│ │ Term 2: Distribution │ │
│ │ Matching │ │
│ │ - 분포 일치 최적화 │ │
│ │ - 맞춤형 renoising schedule│ │
│ └────────────────────────────┘ │
│ │
│ 각 항의 renoising schedule을 │
│ 독립적으로 최적화 │
└──────────────────────────────────┘
|
v
Student Model (8 steps)
핵심 인사이트: CFG augmentation과 distribution matching은 서로 다른 최적 renoising schedule을 가진다. 이 두 메커니즘을 분리(decouple)하여 독립적으로 최적화함으로써, few-step 생성 성능을 크게 향상시킨다.
9.6 DMDR (Distribution Matching Distillation with Reinforcement)
증류 후에는 강화학습(RL) 기반 post-training을 통해 품질을 추가 개선한다.
2단계 Post-Training:
Offline DPO (Direct Preference Optimization):
- Vision-LLM이 생성한 preference pair를 활용
- 텍스트 렌더링, 객체 카운팅 등의 측면에서 품질 개선
- 오프라인 데이터로 효율적 학습
Online GRPO (Group Relative Policy Optimization):
- Multi-axis reward design 적용
- 실시간 피드백 기반 정책 최적화
- 다양한 품질 축(미적 품질, 텍스트 정합성, 구조적 정확성)에 대한 보상 설계
9.7 Few-Step Generation 성능
Z-Image Turbo의 few-step 생성 성능은 다음과 같다:
| Step 수 | 품질 (상대적) | 속도 (H800 기준) | 비고 |
|---|---|---|---|
| 4 steps | 중상 | ~0.4초 | 초고속 프리뷰 용도 |
| 8 steps (권장) | 최상 | ~0.8초 | 최적 품질/속도 밸런스 |
| 16 steps | 최상+ | ~1.5초 | 미세한 품질 개선 |
| 100 steps (Teacher) | 기준 | ~8초 | Z-Image 원본 |
8 step이 권장 설정이며, 이 설정에서 100 step teacher 모델에 근접한 품질을 달성한다.
9.8 Data Infrastructure
Z-Image의 또 다른 혁신은 데이터 인프라에 있다. "단순히 데이터를 더 모으는 것"이 아닌, 정보 밀도를 극대화하는 체계적 접근을 취한다.
[Z-Image Data Infrastructure]
┌─────────────────────────────────────────────┐
│ 4대 핵심 모듈 │
│ │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ Data Profiling │ │ World Knowledge │ │
│ │ Engine │ │ Topological Graph│ │
│ │ │ │ │ │
│ │ 데이터 품질 정량 │ │ 시맨틱 관계 구조 │ │
│ │ 평가 기반 │ │ 구축 │ │
│ └──────────────────┘ └──────────────────┘ │
│ │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ Curriculum │ │ Quality │ │
│ │ Learning Manager │ │ Caption Engine │ │
│ │ │ │ │ │
│ │ 학습 단계별 │ │ 초상세 캡션 │ │
│ │ 데이터 조합 최적화│ │ 자동 생성 │ │
│ └──────────────────┘ └──────────────────┘ │
│ │
└─────────────────────────────────────────────┘
핵심 원칙:
- 데이터셋 크기보다 개념적 다양성 + 비중복성을 우선시
- 강건한 다국어 텍스트-이미지 정렬 확보
- 동적 커리큘럼 학습: 학습 단계에 맞춰 데이터 구성을 진화시킴
- pre-training에서는 다양성 극대화, fine-tuning에서는 품질 극대화
10. Z-Image Turbo 실전 활용 가이드
10.1 Python Diffusers 사용법
# diffusers 최신 버전 설치 필요
# pip install git+https://github.com/huggingface/diffusers
import torch
from diffusers import ZImagePipeline
# 파이프라인 로드
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False
)
pipe.to("cuda")
# 이미지 생성
prompt = "A photorealistic portrait of a young woman with flowing red hair, \
golden hour lighting, shallow depth of field, 8K quality"
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=8, # Turbo: 8 steps 권장
guidance_scale=0.0, # Turbo 모델은 CFG 불필요
generator=torch.Generator("cuda").manual_seed(42)
).images[0]
image.save("output.png")
최적화 옵션:
# Flash Attention 활성화 (속도 향상)
pipe.transformer.set_attention_backend("flash") # Flash-Attention-2
# 또는
pipe.transformer.set_attention_backend("_flash_3") # Flash-Attention-3
# torch.compile로 추가 속도 향상
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead")
10.2 ComfyUI 연동
모델 파일 배치:
ComfyUI/
models/
vae/
ae.safetensors # Z-Image VAE
text_encoders/
qwen_3_4b.safetensors # Qwen3-4B 텍스트 인코더
diffusion_models/
z_image_turbo_bf16.safetensors # Z-Image Turbo 모델
설정 절차:
- ComfyUI를 최신 버전으로 업데이트
- 위 3개 모델 파일 다운로드 후 지정 폴더에 배치
- ComfyUI 실행 후 공식 워크플로우 JSON을 캔버스에 드래그 앤 드롭
num_inference_steps를 8로 설정
FP8 양자화 버전: VRAM이 제한된 환경에서는 FP8 양자화 모델을 사용할 수 있으며, 6-12GB VRAM에서 원활한 실행이 가능하다.
10.3 최적 설정 가이드
| 설정 항목 | 권장 값 | 설명 |
|---|---|---|
num_inference_steps | 8 | 품질/속도 최적 밸런스 |
guidance_scale | 0.0 | Turbo 모델은 CFG 불필요 |
height / width | 1024x1024 | 기본 정사각형 |
torch_dtype | torch.bfloat16 | BF16이 최적 |
| Flash Attention | 활성화 권장 | 속도 20-30% 향상 |
해상도별 성능:
| 해상도 | 생성 시간 (H800) | VRAM 사용량 | 비고 |
|---|---|---|---|
| 512x512 | ~0.4초 | ~8GB | 프리뷰/테스트 |
| 768x768 | ~0.6초 | ~12GB | 중간 품질 |
| 1024x1024 | ~0.8초 | ~16GB | 권장 설정 |
| 1024x1536 | ~1.2초 | ~20GB | 세로 포맷 |
10.4 LoRA Fine-tuning
Z-Image Turbo는 LoRA(Low-Rank Adaptation)를 통한 fine-tuning을 지원한다. 특정 스타일이나 개념을 학습시킬 수 있으며, 기존 Stable Diffusion LoRA 학습 파이프라인과 유사한 방식으로 진행할 수 있다.
# LoRA 학습 예시 (개념적)
# 실제 구현은 diffusers train_text_to_image_lora.py 참조
from diffusers import ZImagePipeline
from peft import LoraConfig
lora_config = LoraConfig(
r=16,
lora_alpha=16,
target_modules=["to_q", "to_k", "to_v", "to_out.0"],
lora_dropout=0.0,
)
# 학습 후 LoRA 적용
pipe.load_lora_weights("path/to/lora/weights")
11. 비디오/이미지 생성 AI 생태계 전망
11.1 2025-2026 트렌드
1. 오픈소스의 부상: Wan, CogVideoX, HunyuanVideo 등 오픈소스 모델이 상용 모델과 경쟁 가능한 수준에 도달했다. 특히 Wan 2.6는 Apache-2.0 라이선스로 기업 배포와 커스터마이징이 자유로워, 장기적 비용 관리에서 상용 모델 대비 우위를 점한다.
2. MoE의 비디오 생성 도입: LLM에서 검증된 Mixture-of-Experts가 비디오 생성으로 확산되었다. Wan 2.2가 이 트렌드의 선두주자로, 총 파라미터를 늘리면서도 추론 비용을 유지하는 효율적 확장을 실현했다.
3. 초고속 이미지 생성: Z-Image Turbo로 대표되는 few-step 생성 기술이 성숙기에 접어들었다. Decoupled-DMD 같은 고도화된 증류 기법과 RL 기반 post-training이 결합되어, 8 step으로 100 step 품질을 달성한다.
4. Multimodal 통합: 비디오+오디오+텍스트를 동시에 생성하는 native multimodality가 현실화되고 있다. Wan 2.5-Preview가 텍스트/이미지/비디오/오디오의 동기화된 생성을 시연했으며, Google Veo 3.1은 오디오 통합에서 선두를 달리고 있다.
5. 물리 기반 시뮬레이션 향상: 낙하, 충돌, 유체 역학, 직물 거동 등 물리 현상의 시뮬레이션 정확도가 크게 향상되었다. Sora 2가 이 분야에서 최전선에 있으며, 유리 파편의 물리적으로 정확한 궤적과 빛 굴절까지 구현한다.
11.2 비디오 생성의 도전과제
Temporal Consistency (시간적 일관성):
가장 근본적이고 지속적인 과제다. 프레임이 길어질수록 다음과 같은 문제가 심화된다:
- Identity Drift: 캐릭터의 얼굴, 의상이 시간이 지남에 따라 변형
- Temporal Wobble: 배경이나 정적 객체가 미세하게 흔들림
- Compounding Errors: 오류가 누적되어 후반 프레임에서 급격히 품질 저하
현재 단일 생성으로 30-60초의 포토리얼리스틱 비디오가 가능하지만, 복잡한 다중 캐릭터 인터랙션에서는 여전히 한계가 있다.
Long-Form Generation (장편 생성):
현존 대부분 모델의 최대 생성 길이는 5-60초 수준이다. 수 분 이상의 장편 콘텐츠를 일관성 있게 생성하는 것은 여전히 미해결 과제다. Wan 2.6의 멀티샷 내러티브 기능은 이 방향의 초기 시도로 볼 수 있다.
Physics Simulation (물리 시뮬레이션):
접촉(contact), 변형체(deformables), 다중 에이전트 역학(multi-agent dynamics)은 여전히 어렵다. 단일 캐릭터의 자연스러운 동작은 달성되었으나, 대화하는 두 인물이나 복잡한 물리 상호작용은 일관성을 유지하기 어렵다.
Evaluation (평가 체계):
비디오 생성 품질을 객관적으로 평가하는 표준 메트릭이 부족하다. FVD, FID 같은 기존 메트릭은 인간의 지각적 평가와 괴리가 있으며, 시나리오 기반 시간적 테스트(scenario-based temporal testing)가 더 의미 있는 것으로 평가받고 있다.
11.3 향후 발전 방향
1. World Foundation Models:
비디오 생성 모델이 단순 콘텐츠 생성을 넘어 세계 시뮬레이션(world simulation) 방향으로 진화하고 있다. 로보틱스, 자율주행, embodied AI에서 action-conditioned 비디오 생성이 핵심 기술로 부상한다.
2. Hybrid Architecture:
순수 diffusion에서 벗어나 다양한 아키텍처를 결합하는 하이브리드 시스템이 등장하고 있다. Diffusion Transformer + Auto-Regressive + Flow Matching의 결합, 또는 GAN 기반 초고속 refinement를 diffusion 위에 얹는 등의 시도가 진행 중이다.
3. 효율성 혁명:
Z-Image Turbo가 보여준 것처럼, 모델 크기를 줄이면서 품질을 유지하는 "효율성 우선" 패러다임이 확산될 것이다. 이는 on-device 생성, 실시간 비디오 생성 등 새로운 응용을 가능하게 한다.
4. 개인화와 제어 가능성:
Wan 2.6의 Reference-to-Video처럼 사용자가 자신의 얼굴, 목소리로 비디오를 생성하거나, ControlNet/IP-Adapter 같은 세밀한 제어 메커니즘이 비디오 생성에도 광범위하게 적용될 것이다.
12. 주요 논문 레퍼런스
Wan 관련 논문
Wan: Open and Advanced Large-Scale Video Generative Models
- Authors: Wan-AI Team (Alibaba)
- ArXiv: 2503.20314
- 핵심: Wan 2.1의 전체 아키텍처, Wan-VAE, Flow Matching 학습, 데이터 파이프라인
Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
- Authors: Ali-vilab (NeurIPS 2025)
- GitHub: ali-vilab/Wan-Move
- 핵심: Wan 기반 모션 제어 비디오 생성
Z-Image 관련 논문
- Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
- Authors: Tongyi-MAI (Alibaba)
- ArXiv: 2511.22699
- 핵심: S3-DiT 아키텍처, 데이터 인프라, 효율적 학습 전략
관련 기반 논문
Scalable Diffusion Models with Transformers (DiT)
- Authors: Peebles & Xie
- ArXiv: 2212.09748
- 핵심: Diffusion Transformer 아키텍처의 원형
Flow Matching for Generative Modeling
- Authors: Lipman et al.
- ArXiv: 2210.02747
- 핵심: Flow Matching 프레임워크의 이론적 기초
Classifier-Free Diffusion Guidance
- Authors: Ho & Salimans
- ArXiv: 2207.12598
- 핵심: Classifier-Free Guidance 기법
Distribution Matching Distillation (DMD)
- Authors: Yin et al.
- ArXiv: 2311.18828
- 핵심: Few-step 증류 기법의 기반
VideoGPT: Video Generation using VQ-VAE and Transformers
- Authors: Yan et al.
- ArXiv: 2104.10157
- 핵심: 비디오 생성을 위한 VQ-VAE + Transformer 접근
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
- Authors: ZhipuAI/Tsinghua
- ArXiv: 2408.06072
- 핵심: Expert Transformer 기반 비디오 생성
HunyuanVideo: A Systematic Framework For Large Video Generative Model
- Authors: Tencent
- ArXiv: 2412.03603
- 핵심: 13B 대규모 비디오 생성 프레임워크
13. 참고 자료
공식 리소스
- Wan 2.1 GitHub: https://github.com/Wan-Video/Wan2.1
- Wan 2.2 GitHub: https://github.com/Wan-Video/Wan2.2
- Wan 공식 사이트: https://wan.video
- Z-Image GitHub: https://github.com/Tongyi-MAI/Z-Image
- Z-Image Turbo HuggingFace: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
- Z-Image Paper: https://arxiv.org/abs/2511.22699
튜토리얼 및 가이드
- ComfyUI Wan 2.2 공식 가이드: https://docs.comfy.org/tutorials/video/wan/wan2_2
- ComfyUI Z-Image Turbo 가이드: https://docs.comfy.org/tutorials/image/z-image/z-image-turbo
- Wan2GP (GPU Poor 최적화): https://github.com/deepbeepmeep/Wan2GP
- Alibaba Cloud 비디오 생성 문서: https://www.alibabacloud.com/help/en/model-studio/use-video-generation
모델 비교 및 벤치마크
- Artificial Analysis Text-to-Image Leaderboard: https://artificialanalysis.ai/text-to-image
- AI Video Generator 비교 2025: https://apatero.com/blog/ai-video-generator-comparison-wan-kling-runway-luma-apatero-2025
- Dreamega AI 비디오 모델 비교: https://www.dreamega.ai/blog/ai-video-model-comparison-2025
Hugging Face 모델 페이지
- Wan2.1-T2V-14B: https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
- Wan2.1-T2V-1.3B: https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B
- Wan2.2-T2V-A14B: https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B
- Wan2.2-I2V-A14B: https://huggingface.co/Wan-AI/Wan2.2-I2V-A14B
- Wan2.2-TI2V-5B: https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B
14. 결론
Wan과 Z-Image Turbo는 Alibaba가 생성 AI 분야에서 보여주는 두 가지 방향성을 대표한다.
Wan은 "오픈소스 비디오 생성의 민주화"를 추구한다. Apache-2.0 라이선스의 완전한 오픈소스로, 1.3B 경량 모델부터 27B MoE 대형 모델까지 다양한 스케일을 제공한다. 3D Causal VAE, DiT backbone, Flow Matching, MoE 아키텍처 등 최신 기술을 집대성했으며, 소비자급 GPU에서도 실행 가능한 접근성을 확보했다. Sora, Kling 같은 상용 모델의 해상도나 길이에는 미치지 못하지만, 커스터마이징 자유도와 비용 효율성에서 독보적 위치를 점한다.
Z-Image Turbo는 "효율성 혁명"의 선봉이다. 6B 파라미터로 20B~80B급 모델에 필적하는 품질을 8 step 만에 달성하며, S3-DiT의 single-stream 설계, Decoupled-DMD 증류, DMDR 강화학습 post-training이라는 3중 혁신을 통해 이를 실현했다. 314K GPU hours라는 학습 비용은 기존 대형 모델 대비 10배 이상 효율적이며, sub-second 추론 속도는 실시간 응용의 가능성을 열었다.
두 모델 모두 "더 크고 더 비싼 것이 항상 더 좋은 것은 아니다"라는 메시지를 전달한다. 효율적 아키텍처 설계, 데이터 품질 관리, 고도화된 학습 전략이 brute-force 스케일링보다 중요할 수 있음을 실증적으로 보여주었다. 이는 앞으로 비디오/이미지 생성 AI가 on-device, 실시간, 개인화 방향으로 발전하는 데 중요한 기반이 될 것이다.