Skip to content

필사 모드: Wan Text-to-Video/Image-to-Video와 Z Image Turbo 완벽 분석: 차세대 비디오·이미지 생성 모델의 아키텍처와 활용

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

1. 서론: 비디오/이미지 생성 AI의 새로운 지평

2025년은 비디오 생성 AI가 폭발적으로 성장한 해다. OpenAI Sora, Google Veo, Runway Gen-3, Kling 등 상용 서비스가 쏟아지는 가운데, Alibaba가 오픈소스로 공개한 **Wan** 시리즈는 "오픈소스도 상용 모델과 경쟁할 수 있다"는 사실을 증명했다. 동시에 이미지 생성 분야에서는 **Z-Image Turbo**가 6B 파라미터로 20B~80B급 모델에 맞먹는 품질을 8 step 만에 달성하며 효율성의 새 기준을 세웠다.

[비디오/이미지 생성 AI 타임라인 2024-2026]

2024 Q1-Q2 2024 Q3-Q4 2025 Q1-Q2 2025 Q3-Q4 2026 Q1

| | | | |

v v v v v

Sora Preview HunyuanVideo Wan 2.1 Wan 2.2 (MoE) Wan 2.6

Runway Gen-3 CogVideoX Z-Image Wan 2.5-Preview Veo 3.1

Pika 1.0 Kling 1.0 Z-Image Turbo Kling 2.6 Seedance 1.5

Sora 2

이 글에서는 Wan 시리즈의 전체 아키텍처와 학습 방법론을 심층 분석하고, Z-Image Turbo의 초고속 이미지 생성 기술을 해부한 뒤, 경쟁 모델과의 비교 및 실전 활용 가이드까지 포괄적으로 다룬다.

2. Wan 모델 소개

2.1 Alibaba/Wan Team 배경

Wan은 Alibaba Cloud의 Wan-AI 팀이 개발한 대규모 비디오 생성 모델 시리즈다. "Wan"이라는 이름은 중국어로 "만(萬)"을 의미하며, 만 가지 가능성을 열겠다는 비전을 담고 있다. Alibaba의 Tongyi(통의) 연구소와 긴밀히 협력하며 개발되었으며, 오픈소스 생태계에 대한 Alibaba의 전략적 투자 일환이기도 하다.

**핵심 마일스톤:**

| 버전 | 출시일 | 주요 특징 |

| --------------- | ----------- | -------------------------------------------------- |

| Wan 2.1 | 2025년 2월 | 최초 오픈소스 공개, T2V/I2V 지원 |

| Wan 2.2 | 2025년 7월 | MoE 아키텍처 도입, 27B 파라미터 |

| Wan 2.5-Preview | 2025년 9월 | Native Multimodality (텍스트+이미지+비디오+오디오) |

| Wan 2.6 | 2025년 12월 | Reference-to-Video, 멀티샷 내러티브 |

2.2 Text-to-Video와 Image-to-Video 기능

Wan은 두 가지 핵심 모달리티를 지원한다:

**Text-to-Video (T2V):** 텍스트 프롬프트만으로 고품질 비디오를 생성한다. 다국어 T5 인코더를 통해 영어, 중국어 등 복수 언어 프롬프트를 처리할 수 있으며, Classifier-Free Guidance를 통해 프롬프트 충실도를 제어한다.

**Image-to-Video (I2V):** 단일 이미지를 입력으로 받아 해당 이미지를 첫 프레임으로 하는 자연스러운 비디오를 생성한다. 이미지의 시각적 특성(구도, 색감, 객체)을 보존하면서 시간적 동작을 추가하는 것이 핵심이다.

[Wan 모델 파이프라인 개요]

Text-to-Video:

텍스트 프롬프트 ──> T5 Encoder ──> Cross-Attention ──> DiT Backbone ──> 3D VAE Decoder ──> 비디오

Image-to-Video:

입력 이미지 ──> VAE Encoder ──┐

├──> DiT Backbone ──> 3D VAE Decoder ──> 비디오

텍스트 프롬프트 ──> T5 Encoder ──┘

2.3 오픈소스 공개 현황

Wan의 가장 큰 차별점은 **완전한 오픈소스**라는 점이다. Apache-2.0 라이선스로 공개되어 상업적 사용이 자유롭다.

**공개 리소스:**

- **GitHub 레포지토리:** `Wan-Video/Wan2.1`, `Wan-Video/Wan2.2`

- **Hugging Face 모델:** `Wan-AI/Wan2.1-T2V-14B`, `Wan-AI/Wan2.1-T2V-1.3B`, `Wan-AI/Wan2.2-T2V-A14B`, `Wan-AI/Wan2.2-I2V-A14B`

- **추론 코드:** 완전한 Python 추론 파이프라인 제공

- **모델 가중치:** Hugging Face 및 ModelScope에서 다운로드 가능

- **라이선스:** Apache-2.0 (상업적 사용 가능)

3. Wan 아키텍처 분석

Wan의 아키텍처는 Diffusion Transformer(DiT) 패러다임을 기반으로 하며, 비디오 생성에 최적화된 여러 혁신적 컴포넌트를 포함한다.

3.1 3D Causal VAE (Wan-VAE)

Wan-VAE는 비디오 데이터를 효율적으로 압축하는 핵심 컴포넌트로, 공간(Spatial)과 시간(Temporal) 차원을 동시에 압축한다.

[Wan-VAE 압축 구조]

입력 비디오: [T, H, W, 3] (예: 81프레임, 720, 1280, RGB)

|

v

3D Causal VAE Encoder

|

v

Latent Space: [T/4, H/8, W/8, 16] (압축비: 4x8x8, latent dim=16)

|

v

3D Causal VAE Decoder

|

v

복원 비디오: [T, H, W, 3]

**핵심 설계 원칙:**

1. **Causal Convolution:** 시간 축에서 인과적(causal) 컨볼루션을 사용하여, 미래 프레임 정보가 과거 프레임 인코딩에 영향을 미치지 않도록 한다. 이를 통해 무한 길이 비디오의 스트리밍 인코딩이 가능하다.

2. **압축비 4x8x8:** 시간 축 4배, 공간 축 8x8 압축을 적용한다. Latent dimension은 16으로, 이는 Open-Sora Plan(latent dim=4)이나 SVD(압축비 1x8x8, latent dim=4)와 차별화되는 설계다.

3. **3단계 학습 전략:**

- **Stage 1:** 동일 구조의 2D Image VAE를 이미지 데이터로 학습하여 공간적 압축 능력을 확보

- **Stage 2:** 학습된 2D VAE를 3D Causal VAE로 inflate하여 시간적 압축 prior를 제공

- **Stage 3:** 저해상도(128x128), 소규모 프레임(5프레임) 비디오로 초기 학습 후 점진적으로 해상도 및 프레임 수 확장

4. **Temporal Chunk Processing:** 시간 축 압축비에 따라 각 처리 청크의 프레임 수를 최대 4로 제한하여 메모리 오버플로를 방지한다.

**성능 특성:**

- 1080P 해상도의 무한 길이 비디오를 과거 시간 정보 손실 없이 인코딩/디코딩 가능

- 높은 시간적 일관성(temporal consistency) 유지

- 다른 VAE 대비 우수한 복원 품질

3.2 Diffusion Transformer (DiT) Backbone

Wan의 핵심 생성 모델은 Diffusion Transformer(DiT) 아키텍처를 채택한다. U-Net 기반 전통적 diffusion 모델과 달리, Transformer의 확장성(scalability)을 활용한다.

[Wan DiT Backbone 구조]

Time Embedding

|

MLP (Linear + SiLU)

|

6개 Modulation Parameters

|

┌────────────┼────────────┐

v v v

┌──────────────────────────────────────┐

│ Transformer Block │

│ │

│ ┌─────────────────────────────────┐ │

│ │ Spatio-Temporal Self-Attention │ │

│ │ (Multi-Head) │ │

│ └─────────────────────────────────┘ │

│ | │

│ ┌─────────────────────────────────┐ │

│ │ Cross-Attention │ │

│ │ (Text Conditioning) │ │

│ └─────────────────────────────────┘ │

│ | │

│ ┌─────────────────────────────────┐ │

│ │ Feed-Forward Network │ │

│ └─────────────────────────────────┘ │

└──────────────────────────────────────┘

|

(x N blocks)

|

Output Prediction

**주요 특징:**

1. **Spatio-Temporal Self-Attention:** Patchified 비디오 latent 표현에 대해 공간과 시간을 동시에 처리하는 multi-head self-attention을 적용한다. 이를 통해 프레임 간 시간적 일관성과 프레임 내 공간적 일관성을 동시에 학습한다.

2. **Modulation 메커니즘:** 시간 임베딩(timestep embedding)을 MLP(Linear + SiLU)로 처리하여 6개의 modulation 파라미터를 예측한다. 이 MLP는 모든 transformer 블록에서 공유되며, 각 블록은 고유한 bias 세트를 학습한다.

3. **Cross-Attention for Text Conditioning:** T5 인코더의 텍스트 임베딩을 cross-attention을 통해 각 transformer 블록에 주입한다. 이를 통해 텍스트 프롬프트의 의미적 정보가 생성 과정 전반에 걸쳐 영향을 미친다.

3.3 Text Encoder (T5/CLIP Integration)

Wan은 다국어 T5 인코더를 텍스트 인코더로 사용한다. 이는 CLIP만 사용하는 모델 대비 몇 가지 장점을 제공한다:

| 특성 | T5 (Wan) | CLIP (기존 모델) |

| ---------------- | ------------------ | ----------------------- |

| 텍스트 이해력 | 심층적 의미 이해 | 이미지-텍스트 정렬 중심 |

| 다국어 지원 | 우수 (다국어 학습) | 영어 중심 |

| 긴 프롬프트 처리 | 우수 | 제한적 (77 토큰) |

| 복잡한 관계 추론 | 가능 | 제한적 |

| 파라미터 동결 | Frozen | Frozen |

T5 인코더는 학습 과정에서 파라미터가 동결(frozen)되며, cross-attention을 통해 DiT backbone에 프롬프트 임베딩을 제공한다. 다국어 T5의 채택으로 영어뿐 아니라 중국어, 한국어 등 다양한 언어의 프롬프트를 자연스럽게 처리할 수 있다.

3.4 Flow Matching Training

Wan 2.1은 **Flow Matching** 프레임워크를 채택하여 전통적 DDPM 대비 학습 효율성을 크게 개선했다.

[Flow Matching vs DDPM 비교]

DDPM (Denoising Diffusion Probabilistic Models):

x_0 ──(많은 discrete steps)──> x_T (Gaussian noise)

학습: 각 step에서 noise 예측

문제: 수백~수천 step 필요, 복잡한 noise schedule

Flow Matching:

x_0 ──(직선 경로)──> x_1 (Gaussian noise)

학습: velocity field v(x_t, t) 예측

장점: 직선 경로로 더 적은 step에서 고품질 생성

**Flow Matching의 핵심 원리:**

Flow Matching은 데이터 분포와 노이즈 분포 사이의 **직선 경로(straight path)**를 학습한다. DDPM이 복잡한 noise schedule을 통해 점진적으로 노이즈를 제거하는 반면, Flow Matching은 ODE(Ordinary Differential Equation) 기반으로 더 효율적인 경로를 학습한다.

핵심 학습 목적함수:

L_FM = E_{t, x_0, x_1} [ || v_theta(x_t, t) - (x_1 - x_0) ||^2 ]

여기서:

x_t = (1-t) * x_0 + t * x_1 (직선 보간)

v_theta: 학습 가능한 velocity field

t ~ U(0, 1): 시간 파라미터

이 접근법을 통해 Wan은 전통적 diffusion 모델 대비 더 적은 추론 step으로 고품질 비디오를 생성할 수 있다.

3.5 Motion Module / Temporal Attention

비디오 생성에서 가장 중요한 요소 중 하나는 **시간적 일관성(temporal consistency)**이다. Wan은 이를 위해 spatio-temporal self-attention을 핵심으로 활용한다.

[Spatio-Temporal Attention 동작 방식]

Frame 1 Frame 2 Frame 3 Frame 4

| | | |

v v v v

[패치화] --> [패치화] --> [패치화] --> [패치화]

| | | |

└───────────┴───────────┴───────────┘

|

Spatio-Temporal Self-Attention

(모든 프레임의 모든 패치 간 attention)

|

┌───────────┬───────────┬───────────┐

| | | |

Frame 1 Frame 2 Frame 3 Frame 4

이 방식에서 모든 프레임의 모든 패치가 서로 attention을 수행하므로, 한 프레임의 객체 움직임이 다른 프레임과 자연스럽게 연결된다. 이는 프레임별 독립적 생성 후 시간적 일관성을 맞추는 방식보다 훨씬 자연스러운 모션을 만들어낸다.

3.6 Resolution and Duration Capabilities

Wan의 해상도 및 길이 지원 현황:

| 모델 | 해상도 | 프레임 수 | FPS | 비디오 길이 |

| ------------------ | --------------- | --------- | --- | ----------- |

| Wan 2.1 T2V-1.3B | 832x480 (480P) | ~81 | 16 | ~5초 |

| Wan 2.1 T2V-14B | 1280x720 (720P) | ~81 | 16 | ~5초 |

| Wan 2.1 I2V-14B | 1280x720 (720P) | ~81 | 16 | ~5초 |

| Wan 2.2 TI2V-5B | 1280x720 (720P) | ~97 | 24 | ~4초 |

| Wan 2.2 A14B (MoE) | 1280x720 (720P) | ~97 | 24 | ~4초 |

Wan 2.2에서는 FPS가 16에서 24로 향상되어 기존 버전의 약간의 끊김 현상이 개선되었다.

4. Wan 모델 변형

4.1 Wan 2.1: 1.3B (경량 모델)

Wan 2.1의 1.3B 모델은 소비자급 GPU에서 실행 가능한 경량 모델이다.

**주요 특성:**

- **파라미터:** 1.3B (약 13억)

- **지원 태스크:** Text-to-Video만 지원 (Image-to-Video 미지원)

- **최적 해상도:** 480P (832x480)

- **VRAM 요구량:** 약 8.2GB

- **생성 속도:** RTX 4090 기준 5초 480P 비디오 약 4분

1.3B 모델은 720P 해상도도 기술적으로 지원하지만, 해당 해상도에서의 학습이 제한적이어서 480P 사용이 권장된다. 개인 개발자나 리소스가 제한된 환경에서 프로토타이핑 용도로 적합하다.

4.2 Wan 2.1: 14B (대형 모델)

14B 모델은 Wan 2.1의 풀 스케일 모델로, 720P 해상도를 안정적으로 지원한다.

**주요 특성:**

- **파라미터:** 14B (약 140억)

- **지원 태스크:** Text-to-Video, Image-to-Video 모두 지원

- **최적 해상도:** 720P (1280x720)

- **VRAM 요구량:** 24GB 이상 (32GB+ 권장)

- **다국어:** T5 인코더를 통한 다국어 프롬프트 지원

4.3 Wan 2.2: MoE 아키텍처 (A14B)

Wan 2.2는 대규모 언어 모델(LLM)에서 검증된 **Mixture-of-Experts(MoE)** 아키텍처를 비디오 생성 diffusion 모델에 도입한 획기적 버전이다.

[Wan 2.2 MoE 아키텍처 구조]

Denoising Process Timeline:

t=T (pure noise) ─────────────────────────────> t=0 (clean video)

High-Noise Phase Low-Noise Phase

┌──────────────┐ ┌──────────────┐

│ Expert 1 │ │ Expert 2 │

│ (14B) │ │ (14B) │

│ │ │ │

│ 전체 레이아웃 │ SNR │ 디테일 개선 │

│ 구조 결정 │ 전환점 │ 텍스처 품질 │

└──────────────┘ └──────────────┘

총 파라미터: ~27B

추론 시 활성 파라미터: ~14B (step당 하나의 expert만 활성)

**핵심 설계:**

1. **Two-Expert Design:** Diffusion 모델의 denoising 과정에 특화된 2개의 전문가 모델을 사용한다.

- **High-Noise Expert:** 초기 denoising 단계에서 활성화되어 전체 레이아웃과 구조를 결정

- **Low-Noise Expert:** 후기 denoising 단계에서 활성화되어 비디오 디테일을 개선

2. **SNR 기반 전환:** 두 expert 간 전환점은 Signal-to-Noise Ratio(SNR)에 의해 결정된다. SNR은 denoising step이 증가함에 따라 단조 감소하며, 이 값을 기준으로 적절한 expert를 선택한다.

3. **효율적 추론:** 총 27B 파라미터이지만, 각 추론 step에서 14B만 활성화되므로 GPU 메모리와 연산 비용은 단일 14B 모델 수준으로 유지된다.

4.4 Wan 2.2: TI2V-5B (Dense Model)

MoE 모델 외에 5B Dense 모델도 함께 공개되었다.

**주요 특성:**

- **파라미터:** 5B (약 50억)

- **아키텍처:** Dense (MoE가 아닌 단일 모델)

- **VAE:** 새로운 Wan2.2-VAE (압축비 16x16x4)

- **해상도:** 720P (1280x720)

- **FPS:** 24fps

- **생성 속도:** 소비자급 GPU에서 5초 720P 비디오 9분 이내

Wan2.2-VAE는 기존 Wan-VAE 대비 크게 향상된 압축비(16x16x4)를 달성하여, 더 적은 latent 토큰으로 동일 품질의 비디오를 표현할 수 있다.

4.5 Text-to-Video vs Image-to-Video 차이점

| 특성 | Text-to-Video (T2V) | Image-to-Video (I2V) |

| ----------- | -------------------------- | ----------------------------- |

| 입력 | 텍스트 프롬프트 | 이미지 + 텍스트 프롬프트 |

| 첫 프레임 | 모델이 자유롭게 생성 | 입력 이미지와 일치 필수 |

| 조건부 정보 | T5 텍스트 임베딩 | T5 임베딩 + VAE 이미지 latent |

| 창작 자유도 | 높음 | 이미지에 의해 제약 |

| 주요 활용 | 순수 창작, 시나리오 시각화 | 사진 애니메이션, 제품 데모 |

| 1.3B 지원 | O | X |

| 14B 지원 | O | O |

5. 학습 데이터 및 방법론

5.1 학습 데이터셋

Wan 2.1은 대규모 이미지-텍스트, 비디오-텍스트 페어 데이터셋으로 학습되었다. Wan 2.2는 Wan 2.1 대비 이미지 데이터 65.6% 증가, 비디오 데이터 83.2% 증가라는 대폭적인 데이터 확장을 달성했다.

**데이터 품질 관리 4단계 파이프라인:**

[Wan 데이터 정제 파이프라인]

원본 데이터 (웹 크롤링)

|

v

┌──────────────────────┐

│ Stage 1: Visual Fidelity │

│ - 해상도/화질 필터링 │

│ - 워터마크/텍스트 오버레이 제거 │

│ - 압축 아티팩트 검출 │

└──────────────────────┘

|

v

┌──────────────────────┐

│ Stage 2: Motion Smoothness │

│ - 프레임 간 일관성 검사 │

│ - 불안정한 카메라 워크 필터링 │

│ - 급격한 장면 전환 감지 │

└──────────────────────┘

|

v

┌──────────────────────┐

│ Stage 3: Diversity │

│ - 의미적 중복 제거 │

│ - 카테고리별 균형 조정 │

│ - 다양한 동작/장면 확보 │

└──────────────────────┘

|

v

┌──────────────────────┐

│ Stage 4: Frame Integrity │

│ - 프레임 드롭 검출 │

│ - 시간적 일관성 최종 검증 │

│ - 캡션-비디오 정합성 확인 │

└──────────────────────┘

|

v

최종 학습 데이터셋

5.2 Progressive Training Strategy

Wan은 점진적 학습 전략(Progressive Training)을 채택하여 효율적이고 안정적인 학습을 달성한다.

**3단계 Progressive Training:**

1. **Stage 1 - Image Pre-training:**

- 대규모 이미지-텍스트 데이터로 공간적 생성 능력 학습

- 텍스트-이미지 정렬(alignment) 확보

- 해상도: 256x256에서 시작하여 점진적으로 증가

2. **Stage 2 - Low-Resolution Video Training:**

- 저해상도(256x256~480P) 비디오로 시간적 동작 학습

- 짧은 클립(16~33 프레임)으로 기본 동작 패턴 학습

- 이미지 생성 능력을 보존하면서 temporal modeling 추가

3. **Stage 3 - High-Resolution Fine-tuning:**

- 고해상도(720P) 비디오로 최종 fine-tuning

- 긴 시퀀스(81~97 프레임)로 확장

- 고품질 큐레이션 데이터 위주로 품질 극대화

[Progressive Training 흐름]

Stage 1 Stage 2 Stage 3

Image 256x256 -> Video 480P 16fps -> Video 720P 24fps

텍스트-이미지 시간적 동작 학습 고품질 Fine-tuning

정렬 학습 짧은 클립 긴 시퀀스

5.3 Quality Filtering Pipeline

학습 데이터의 품질은 생성 모델의 성능을 결정짓는 핵심 요소다. Wan은 자동화된 품질 평가 메트릭을 개발하여 데이터 필터링에 적용했다.

**자동화된 평가 메트릭:**

- **Visual Quality Score:** 해상도, 선명도, 색감 균형 평가

- **Motion Quality Score:** 동작의 자연스러움, 물리적 타당성 평가

- **Text-Video Alignment Score:** 캡션과 비디오 내용의 일치도 평가

- **Aesthetic Score:** 구도, 조명, 예술적 품질 평가

5.4 Classifier-Free Guidance

Wan은 **Classifier-Free Guidance(CFG)**를 사용하여 텍스트 프롬프트 충실도를 제어한다.

CFG 수식:

output = uncond_output + guidance_scale * (cond_output - uncond_output)

여기서:

cond_output: 텍스트 조건부 출력

uncond_output: 무조건부 출력 (빈 프롬프트)

guidance_scale: CFG 스케일 (높을수록 프롬프트에 충실)

학습 시 일정 확률로 텍스트 조건을 드롭(drop)하여 무조건부 생성과 조건부 생성을 모두 학습한다. 추론 시에는 guidance_scale 파라미터로 프롬프트 충실도와 생성 다양성 사이의 균형을 조절할 수 있다.

6. Wan 실전 활용 가이드

6.1 설치 방법

pip 설치

Python 3.10+ 및 PyTorch 2.4.0+ 필요

pip install torch torchvision torchaudio

Wan 2.1 레포지토리 클론

git clone https://github.com/Wan-Video/Wan2.1.git

cd Wan2.1

의존성 설치

pip install -r requirements.txt

모델 다운로드 (Hugging Face)

pip install "huggingface_hub[cli]"

huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Wan 2.2 설치

Wan 2.2 레포지토리 클론

git clone https://github.com/Wan-Video/Wan2.2.git

cd Wan2.2

의존성 설치

pip install -r requirements.txt

Wan 2.2 MoE 모델 다운로드

huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

6.2 기본 추론 코드

Text-to-Video (1.3B - 경량)

python generate.py \

--task t2v-1.3B \

--size 832*480 \

--ckpt_dir ./Wan2.1-T2V-1.3B \

--prompt "A futuristic city with flying cars and neon lights at dusk."

Text-to-Video (14B - 고품질)

python generate.py \

--task t2v-14B \

--size 1280*720 \

--ckpt_dir ./Wan2.1-T2V-14B \

--prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves \

fight intensely on a spotlighted stage."

Image-to-Video (14B)

python generate.py \

--task i2v-14B \

--size 1280*720 \

--ckpt_dir ./Wan2.1-I2V-14B-720P \

--image input_image.jpg \

--prompt "The camera slowly zooms in as the subject begins to smile."

메모리 최적화 옵션

모델 오프로딩 (VRAM 절약)

python generate.py \

--task t2v-14B \

--size 1280*720 \

--ckpt_dir ./Wan2.1-T2V-14B \

--offload_model True \

--t5_cpu \

--prompt "A serene lake surrounded by mountains at sunrise."

Multi-GPU 가속

8-GPU 병렬 추론

torchrun --nproc_per_node=8 generate.py \

--task t2v-14B \

--size 1280*720 \

--ckpt_dir ./Wan2.1-T2V-14B \

--dit_fsdp \

--t5_fsdp \

--ulysses_size 8 \

--prompt "A timelapse of a flower blooming in a garden."

6.3 ComfyUI 연동

ComfyUI는 Wan의 가장 인기 있는 프론트엔드 인터페이스다.

**Wan 2.2 ComfyUI 설정:**

1. ComfyUI를 최신 버전으로 업데이트

2. Workflow -> Browse Templates -> Video에서 "Wan2.2 5B video generation" 템플릿 로드

3. 또는 공식 JSON 워크플로우 파일을 캔버스에 드래그 앤 드롭

**GGUF 양자화 모델 (저사양 GPU):**

GGUF 포맷의 양자화 모델을 사용하면 12GB 이하의 VRAM에서도 Wan 2.2를 실행할 수 있다:

- VRAM 사용량 50-70% 절감

- 추론 속도 최대 2배 향상

- 품질 저하 최소화

**추가 가속 기법:**

- **TeaCache:** 생성 속도 2-3배 향상

- **Sage Attention:** attention 연산 최적화

- **Wan2GP:** GPU Poor를 위한 최적화 래퍼 (Wan 2.1/2.2, HunyuanVideo, LTX Video 지원)

6.4 프롬프트 작성 가이드

Wan에서 최상의 결과를 얻기 위한 프롬프트 작성 전략:

**기본 구조:**

[주제/액션] + [스타일/분위기] + [카메라 워크] + [조명/환경]

**효과적인 프롬프트 예시:**

"A young woman walks through a bustling Tokyo street at night.

Neon signs reflect on wet pavement. Cinematic lighting.

The camera follows her from behind in a smooth tracking shot.

High detail, photorealistic, 4K quality."

**프롬프트 강화(Enhancement):**

Wan 2.1은 프롬프트 자동 강화 기능을 제공한다:

- **Dashscope API 활용:** Alibaba Cloud API를 통한 프롬프트 자동 개선

- **로컬 모델 활용:** 로컬 LLM으로 프롬프트를 상세화

**팁:**

- 구체적인 동작을 명시하라 (예: "walks slowly" vs "walks")

- 카메라 앵글/움직임을 지정하라 (예: "tracking shot", "dolly zoom")

- 환경과 조명 조건을 상세히 기술하라

- 부정적 요소는 피하라 (모델이 "~하지 않는" 구문을 잘 처리하지 못함)

6.5 GPU 요구사항 및 메모리 최적화

| 모델 | 최소 VRAM | 권장 VRAM | 생성 시간 (5초 비디오) |

| ----------------------- | --------- | --------- | ---------------------- |

| Wan 2.1 T2V-1.3B (480P) | 8GB | 12GB | ~4분 (RTX 4090) |

| Wan 2.1 T2V-14B (720P) | 24GB | 32GB+ | ~8분 (RTX 4090) |

| Wan 2.2 TI2V-5B (720P) | 12GB | 16GB | ~9분 (소비자급 GPU) |

| Wan 2.2 A14B MoE (720P) | 24GB | 32GB+ | ~10분 (RTX 4090) |

| Wan 2.2 14B GGUF (480P) | 6GB | 12GB | ~15분 (RTX 4050) |

**메모리 최적화 전략:**

1. **Model Offloading:** `--offload_model True`로 사용하지 않는 모델 컴포넌트를 CPU 메모리로 이동

2. **T5 CPU Inference:** `--t5_cpu`로 T5 인코더를 CPU에서 실행하여 GPU 메모리 절약

3. **GGUF 양자화:** FP16/BF16 대비 메모리 사용량 대폭 절감

4. **FSDP (Fully Sharded Data Parallel):** Multi-GPU 환경에서 모델 파라미터 분산

5. **Flash Attention:** attention 연산의 메모리 효율성 향상

7. 경쟁 모델 비교

7.1 Wan vs Sora (OpenAI)

**Sora 2**는 물리 시뮬레이션과 객체 영속성(object persistence)에서 현존 최고 수준을 달성했다. 최대 1분 길이의 포토리얼리스틱 비디오를 생성할 수 있으며, 물체의 낙하, 충돌, 반사 등 물리 현상을 자연스럽게 구현한다.

| 항목 | Wan 2.2/2.6 | Sora 2 |

| --------------- | ------------------------ | --------- |

| 오픈소스 | Apache-2.0 | 비공개 |

| 최대 해상도 | 720P (1280x720) | 1080P |

| 최대 길이 | ~5초 (로컬), API 더 길게 | ~60초 |

| 물리 시뮬레이션 | 우수 | 최상 |

| 로컬 실행 | 가능 | 불가 |

| 가격 | 무료 (로컬) | 유료 구독 |

| 커스터마이징 | 가능 (fine-tuning) | 불가 |

7.2 Wan vs Kling (Kuaishou)

**Kling**은 ByteDance/Kuaishou가 개발한 모델로, 캐릭터 동작과 립싱크에서 특히 강점을 보인다.

| 항목 | Wan 2.2/2.6 | Kling 2.6 |

| ----------- | ----------- | ---------------- |

| 오픈소스 | Apache-2.0 | 비공개 |

| 모션 품질 | 우수 | 최상 (특히 인물) |

| 최대 길이 | ~5초 (로컬) | ~120초 |

| 립싱크 | 제한적 | 우수 |

| 카메라 모션 | 우수 | 우수 |

| 접근성 | 로컬/API | API만 |

7.3 Wan vs Runway Gen-3

**Runway Gen-3 Turbo**는 영화적 품질과 카메라 워크에서 강점을 가진 상용 서비스다.

| 항목 | Wan 2.2/2.6 | Runway Gen-3 |

| ---------------- | ----------- | ------------------ |

| 오픈소스 | Apache-2.0 | 비공개 |

| 영화적 품질 | 우수 | 최상 |

| Motion Synthesis | 우수 | 우수 |

| 해상도 | 720P | 1080P |

| 가격 | 무료 (로컬) | 유료 (크레딧 기반) |

7.4 Wan vs Pika

**Pika**는 사용 편의성과 빠른 생성에 초점을 맞춘 서비스다.

| 항목 | Wan 2.2/2.6 | Pika |

| ------------- | --------------------- | ---------------- |

| 오픈소스 | Apache-2.0 | 비공개 |

| 사용 편의성 | 중간 (기술 지식 필요) | 최상 (웹 UI) |

| 생성 속도 | 수 분 (로컬) | 수 초 (클라우드) |

| 커스터마이징 | 가능 | 제한적 |

| 스타일 다양성 | 우수 | 우수 |

7.5 Wan vs CogVideoX (Tsinghua/ZhipuAI)

**CogVideoX**는 Tsinghua 대학과 ZhipuAI가 개발한 오픈소스 비디오 생성 모델이다.

| 항목 | Wan 2.2 | CogVideoX-5B |

| --------- | --------------- | --------------- |

| 오픈소스 | Apache-2.0 | Apache-2.0 |

| 파라미터 | 27B (MoE) | 5B |

| 해상도 | 720P (1280x720) | 480P (720x480) |

| 최대 길이 | ~5초 | ~6초 |

| FPS | 24 | 8 |

| I2V 품질 | 우수 | 최상 (I2V 특화) |

| VRAM | 24GB+ | 8-12GB |

7.6 Wan vs HunyuanVideo (Tencent)

**HunyuanVideo**는 Tencent가 개발한 13B 파라미터의 비디오 생성 모델이다.

| 항목 | Wan 2.2 | HunyuanVideo |

| ----------- | -------------- | -------------------- |

| 오픈소스 | Apache-2.0 | 오픈소스 |

| 파라미터 | 27B (MoE) / 5B | 13B |

| 해상도 | 720P | 720P (1280x720) |

| 최대 길이 | ~5초 | ~15초 |

| FPS | 24 | 24 |

| 영화적 품질 | 우수 | 최상 (시네마틱 특화) |

| GPU 요구 | 24GB+ | A100/H100 권장 |

7.7 종합 비교 표

| 모델 | 해상도 | 최대 길이 | 품질 | 오픈소스 | 접근성 | 특장점 |

| ------------ | ------ | --------- | ---- | -------------- | -------- | -------------------- |

| Wan 2.6 | 720P | ~5초+ | 상 | O (Apache-2.0) | 로컬/API | 멀티샷 내러티브, R2V |

| Sora 2 | 1080P | ~60초 | 최상 | X | API | 물리 시뮬레이션 |

| Kling 2.6 | 1080P | ~120초 | 최상 | X | API | 모션/립싱크 |

| Runway Gen-3 | 1080P | ~10초 | 최상 | X | API | 영화적 품질 |

| Pika | 1080P | ~4초 | 상 | X | 웹 | 사용 편의성 |

| CogVideoX | 480P | ~6초 | 중상 | O (Apache-2.0) | 로컬 | 저사양 I2V |

| HunyuanVideo | 720P | ~15초 | 최상 | O | 로컬 | 시네마틱 품질 |

| Veo 3.1 | 1080P | ~25초 | 최상 | X | API | 오디오 통합 |

| Seedance 1.5 | 1080P | ~10초 | 상 | X | API | 다국어/빠른 반복 |

**핵심 시사점:** Wan은 "오픈소스 + 상업적 자유 + 로컬 실행 가능"이라는 조합에서 독보적이다. 상용 모델 대비 해상도나 길이에서는 뒤처지지만, 커스터마이징 가능성과 비용 효율성에서 압도적 우위를 가진다.

8. Z-Image Turbo 소개

8.1 초고속 이미지 생성 모델

**Z-Image Turbo**는 Alibaba의 Tongyi-MAI(Machine AI) 연구소가 개발한 초고속 텍스트-이미지 생성 모델이다. 2025년 11월 26일 공개되었으며, 6B 파라미터로 20B~80B급 경쟁 모델의 품질에 필적하면서 추론 속도는 수 배 빠르다.

**핵심 성과:**

- **Artificial Analysis Text-to-Image Leaderboard:** 2025년 12월 기준 전체 8위, **오픈소스 1위**

- **추론 속도:** H800 GPU에서 512x512 이미지 sub-second(약 0.8초) 생성

- **메모리:** 16GB VRAM 이하의 소비자급 디바이스에서 실행 가능

- **학습 비용:** 314K H800 GPU hours (약 \$630K) -- 기존 대형 모델 대비 10배 이상 효율적

[Z-Image Turbo 포지셔닝]

품질

^

| * Flux Pro (12B)

| * DALL-E 3

| * Z-Image Turbo (6B) <-- 여기!

| * SDXL (2.6B)

|

| * SD 1.5 (0.9B)

|

+────────────────────> 속도

느림 빠름

Z-Image Turbo: 작은 파라미터로 높은 품질 + 빠른 속도

8.2 Turbo/Distillation 기술의 의미

"Turbo"라는 명칭은 **지식 증류(Knowledge Distillation)**를 통해 원본 모델의 품질을 유지하면서 추론 단계를 대폭 줄인 모델을 의미한다.

[Teacher-Student Distillation 개념]

Teacher Model (Z-Image): 100 step denoising

|

| 지식 증류 (Distillation)

v

Student Model (Z-Image Turbo): 8 step denoising

결과: 100 step의 품질을 8 step으로 달성

-> 약 12.5배 속도 향상

전통적 diffusion 모델이 50~100 step의 denoising이 필요한 반면, Z-Image Turbo는 단 **8 NFE(Number of Function Evaluations)**로 동등한 품질을 달성한다.

9. Z-Image 아키텍처 및 기술 분석

9.1 S3-DiT (Scalable Single-Stream Multi-Modal Diffusion Transformer)

Z-Image의 핵심 아키텍처는 **S3-DiT**로, "규모 확장에 따른 비용 증가" 패러다임에 도전하는 효율적 설계다.

[S3-DiT 아키텍처 상세]

입력 스트림:

Qwen3-4B 텍스트 토큰 ──┐

FLUX VAE 이미지 토큰 ──┤──> Single-Stream Fusion ──> Unified Sequence

SigLIP 2 시맨틱 토큰 ──┘

Unified Sequence

|

v

┌──────────────────────────────────────────┐

│ S3-DiT Transformer Layer │

│ │

│ ┌────────────────────────────────────┐ │

│ │ Modality-Specific Pre-Processing │ │

│ │ (경량 모달리티별 프로세서) │ │

│ └────────────────────────────────────┘ │

│ | │

│ ┌────────────────────────────────────┐ │

│ │ Single-Stream Self-Attention │ │

│ │ (QK-Norm + Sandwich-Norm) │ │

│ │ - 32 attention heads │ │

│ │ - hidden dim: 3840 │ │

│ └────────────────────────────────────┘ │

│ | │

│ ┌────────────────────────────────────┐ │

│ │ Conditional Injection │ │

│ │ (Scale + Gate parameters) │ │

│ │ - Shared low-rank down-projection│ │

│ │ - Layer-specific up-projection │ │

│ └────────────────────────────────────┘ │

│ | │

│ ┌────────────────────────────────────┐ │

│ │ Feed-Forward Network │ │

│ │ (FFN dim: 10,240) │ │

│ └────────────────────────────────────┘ │

│ │

└──────────────────────────────────────────┘

| (x 30 layers)

v

출력 이미지 Latent

**S3-DiT 핵심 사양:**

| 컴포넌트 | 사양 |

| ------------------ | -------------------------------- |

| Transformer Layers | 30 |

| Hidden Dimension | 3,840 |

| Attention Heads | 32 |

| FFN Dimension | 10,240 |

| 총 파라미터 | 6.15B |

| Text Encoder | Qwen3-4B (Frozen) |

| Image VAE | FLUX VAE (Frozen) |

| Semantic Encoder | SigLIP 2 (Frozen, 편집 태스크용) |

9.2 Single-Stream vs Dual-Stream 설계

Z-Image의 S3-DiT는 **Single-Stream** 아키텍처를 채택하여, 기존 Dual-Stream 모델(예: FLUX의 초기 블록) 대비 크로스-모달 상호작용을 극대화한다.

[Dual-Stream vs Single-Stream 비교]

Dual-Stream (예: FLUX 초기 블록):

텍스트 토큰 ──> [Text Stream Blocks] ──┐

├──> 후반부 합류

이미지 토큰 ──> [Image Stream Blocks] ──┘

-> 모달리티 간 상호작용이 후반부에 집중

Single-Stream (Z-Image S3-DiT):

텍스트 + 이미지 + 시맨틱 ──> [Unified Blocks] ──> 출력

-> 모든 레이어에서 밀도 높은 크로스-모달 상호작용

-> 파라미터 공유로 효율성 극대화

**Single-Stream의 장점:**

1. **매 레이어마다 크로스-모달 정보 교환** -- 텍스트와 이미지 표현이 초기부터 상호 영향

2. **파라미터 효율성** -- 별도의 모달리티별 deep block 불필요

3. **학습 효율성** -- 동일 파라미터 대비 더 높은 표현력

9.3 QK-Norm과 Sandwich-Norm

대규모 Transformer 학습의 안정성을 위해 Z-Image는 두 가지 정규화 기법을 도입한다:

**QK-Norm:** Attention 레이어에서 Query와 Key 벡터를 정규화하여 attention score의 폭발적 증가를 방지한다. 이는 학습 초기 단계에서 특히 중요하며, gradient vanishing/exploding 문제를 완화한다.

**Sandwich-Norm:** Transformer 블록의 경계(입력/출력)에서 정규화를 적용하여 신호 진폭을 제어한다. Pre-Norm과 Post-Norm을 모두 적용하는 형태로, 깊은 네트워크에서의 안정적 학습을 보장한다.

[Sandwich-Norm 구조]

입력 -> [Pre-Norm] -> Attention/FFN -> [Post-Norm] -> 출력

^ ^

| |

Sandwich-Norm: 양쪽 모두 정규화

9.4 Conditional Information Injection

조건부 정보(timestep, 텍스트 등)의 주입은 **scale-gate 메커니즘**을 통해 이루어진다:

1. **Shared Low-Rank Down-Projection:** 모든 레이어에서 공유되는 저차원 프로젝션으로 조건부 정보를 압축

2. **Layer-Specific Up-Projection:** 각 레이어별 고유한 업-프로젝션으로 Attention과 FFN 경로를 독립적으로 조절

3. **Learnable Scale-Gate:** 학습 가능한 스케일/게이트 파라미터로 정규화된 입출력을 조절

이 설계는 파라미터 효율적이면서도 각 레이어가 조건부 정보에 대해 독립적으로 반응할 수 있게 한다.

9.5 Decoupled-DMD (Distribution-Matching Distillation)

Z-Image Turbo의 핵심 증류 알고리즘은 **Decoupled-DMD**다. 기존 DMD를 두 가지 독립적 메커니즘으로 분해하여 최적화한다.

[Decoupled-DMD 구조]

Teacher Model (100 steps)

|

v

┌──────────────────────────────────┐

│ Decoupled-DMD Loss │

│ │

│ ┌────────────────────────────┐ │

│ │ Term 1: CFG Augmentation │ │

│ │ - Classifier-Free Guidance │ │

│ │ - 맞춤형 renoising schedule│ │

│ └────────────────────────────┘ │

│ + │

│ ┌────────────────────────────┐ │

│ │ Term 2: Distribution │ │

│ │ Matching │ │

│ │ - 분포 일치 최적화 │ │

│ │ - 맞춤형 renoising schedule│ │

│ └────────────────────────────┘ │

│ │

│ 각 항의 renoising schedule을 │

│ 독립적으로 최적화 │

└──────────────────────────────────┘

|

v

Student Model (8 steps)

**핵심 인사이트:** CFG augmentation과 distribution matching은 서로 다른 최적 renoising schedule을 가진다. 이 두 메커니즘을 분리(decouple)하여 독립적으로 최적화함으로써, few-step 생성 성능을 크게 향상시킨다.

9.6 DMDR (Distribution Matching Distillation with Reinforcement)

증류 후에는 **강화학습(RL)** 기반 post-training을 통해 품질을 추가 개선한다.

**2단계 Post-Training:**

1. **Offline DPO (Direct Preference Optimization):**

- Vision-LLM이 생성한 preference pair를 활용

- 텍스트 렌더링, 객체 카운팅 등의 측면에서 품질 개선

- 오프라인 데이터로 효율적 학습

2. **Online GRPO (Group Relative Policy Optimization):**

- Multi-axis reward design 적용

- 실시간 피드백 기반 정책 최적화

- 다양한 품질 축(미적 품질, 텍스트 정합성, 구조적 정확성)에 대한 보상 설계

9.7 Few-Step Generation 성능

Z-Image Turbo의 few-step 생성 성능은 다음과 같다:

| Step 수 | 품질 (상대적) | 속도 (H800 기준) | 비고 |

| ------------------- | ------------- | ---------------- | --------------------- |

| 4 steps | 중상 | ~0.4초 | 초고속 프리뷰 용도 |

| 8 steps (권장) | 최상 | ~0.8초 | 최적 품질/속도 밸런스 |

| 16 steps | 최상+ | ~1.5초 | 미세한 품질 개선 |

| 100 steps (Teacher) | 기준 | ~8초 | Z-Image 원본 |

8 step이 권장 설정이며, 이 설정에서 100 step teacher 모델에 근접한 품질을 달성한다.

9.8 Data Infrastructure

Z-Image의 또 다른 혁신은 데이터 인프라에 있다. "단순히 데이터를 더 모으는 것"이 아닌, 정보 밀도를 극대화하는 체계적 접근을 취한다.

[Z-Image Data Infrastructure]

┌─────────────────────────────────────────────┐

│ 4대 핵심 모듈 │

│ │

│ ┌──────────────────┐ ┌──────────────────┐ │

│ │ Data Profiling │ │ World Knowledge │ │

│ │ Engine │ │ Topological Graph│ │

│ │ │ │ │ │

│ │ 데이터 품질 정량 │ │ 시맨틱 관계 구조 │ │

│ │ 평가 기반 │ │ 구축 │ │

│ └──────────────────┘ └──────────────────┘ │

│ │

│ ┌──────────────────┐ ┌──────────────────┐ │

│ │ Curriculum │ │ Quality │ │

│ │ Learning Manager │ │ Caption Engine │ │

│ │ │ │ │ │

│ │ 학습 단계별 │ │ 초상세 캡션 │ │

│ │ 데이터 조합 최적화│ │ 자동 생성 │ │

│ └──────────────────┘ └──────────────────┘ │

│ │

└─────────────────────────────────────────────┘

**핵심 원칙:**

- 데이터셋 크기보다 **개념적 다양성 + 비중복성**을 우선시

- 강건한 **다국어 텍스트-이미지 정렬** 확보

- **동적 커리큘럼 학습**: 학습 단계에 맞춰 데이터 구성을 진화시킴

- pre-training에서는 다양성 극대화, fine-tuning에서는 품질 극대화

10. Z-Image Turbo 실전 활용 가이드

10.1 Python Diffusers 사용법

diffusers 최신 버전 설치 필요

pip install git+https://github.com/huggingface/diffusers

from diffusers import ZImagePipeline

파이프라인 로드

pipe = ZImagePipeline.from_pretrained(

"Tongyi-MAI/Z-Image-Turbo",

torch_dtype=torch.bfloat16,

low_cpu_mem_usage=False

)

pipe.to("cuda")

이미지 생성

prompt = "A photorealistic portrait of a young woman with flowing red hair, \

golden hour lighting, shallow depth of field, 8K quality"

image = pipe(

prompt=prompt,

height=1024,

width=1024,

num_inference_steps=8, # Turbo: 8 steps 권장

guidance_scale=0.0, # Turbo 모델은 CFG 불필요

generator=torch.Generator("cuda").manual_seed(42)

).images[0]

image.save("output.png")

**최적화 옵션:**

Flash Attention 활성화 (속도 향상)

pipe.transformer.set_attention_backend("flash") # Flash-Attention-2

또는

pipe.transformer.set_attention_backend("_flash_3") # Flash-Attention-3

torch.compile로 추가 속도 향상

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead")

10.2 ComfyUI 연동

**모델 파일 배치:**

ComfyUI/

models/

vae/

ae.safetensors # Z-Image VAE

text_encoders/

qwen_3_4b.safetensors # Qwen3-4B 텍스트 인코더

diffusion_models/

z_image_turbo_bf16.safetensors # Z-Image Turbo 모델

**설정 절차:**

1. ComfyUI를 최신 버전으로 업데이트

2. 위 3개 모델 파일 다운로드 후 지정 폴더에 배치

3. ComfyUI 실행 후 공식 워크플로우 JSON을 캔버스에 드래그 앤 드롭

4. `num_inference_steps`를 8로 설정

**FP8 양자화 버전:** VRAM이 제한된 환경에서는 FP8 양자화 모델을 사용할 수 있으며, 6-12GB VRAM에서 원활한 실행이 가능하다.

10.3 최적 설정 가이드

| 설정 항목 | 권장 값 | 설명 |

| --------------------- | ---------------- | ----------------------- |

| `num_inference_steps` | 8 | 품질/속도 최적 밸런스 |

| `guidance_scale` | 0.0 | Turbo 모델은 CFG 불필요 |

| `height` / `width` | 1024x1024 | 기본 정사각형 |

| `torch_dtype` | `torch.bfloat16` | BF16이 최적 |

| Flash Attention | 활성화 권장 | 속도 20-30% 향상 |

**해상도별 성능:**

| 해상도 | 생성 시간 (H800) | VRAM 사용량 | 비고 |

| --------- | ---------------- | ----------- | ------------- |

| 512x512 | ~0.4초 | ~8GB | 프리뷰/테스트 |

| 768x768 | ~0.6초 | ~12GB | 중간 품질 |

| 1024x1024 | ~0.8초 | ~16GB | 권장 설정 |

| 1024x1536 | ~1.2초 | ~20GB | 세로 포맷 |

10.4 LoRA Fine-tuning

Z-Image Turbo는 LoRA(Low-Rank Adaptation)를 통한 fine-tuning을 지원한다. 특정 스타일이나 개념을 학습시킬 수 있으며, 기존 Stable Diffusion LoRA 학습 파이프라인과 유사한 방식으로 진행할 수 있다.

LoRA 학습 예시 (개념적)

실제 구현은 diffusers train_text_to_image_lora.py 참조

from diffusers import ZImagePipeline

from peft import LoraConfig

lora_config = LoraConfig(

r=16,

lora_alpha=16,

target_modules=["to_q", "to_k", "to_v", "to_out.0"],

lora_dropout=0.0,

)

학습 후 LoRA 적용

pipe.load_lora_weights("path/to/lora/weights")

11. 비디오/이미지 생성 AI 생태계 전망

11.1 2025-2026 트렌드

**1. 오픈소스의 부상:**

Wan, CogVideoX, HunyuanVideo 등 오픈소스 모델이 상용 모델과 경쟁 가능한 수준에 도달했다. 특히 Wan 2.6는 Apache-2.0 라이선스로 기업 배포와 커스터마이징이 자유로워, 장기적 비용 관리에서 상용 모델 대비 우위를 점한다.

**2. MoE의 비디오 생성 도입:**

LLM에서 검증된 Mixture-of-Experts가 비디오 생성으로 확산되었다. Wan 2.2가 이 트렌드의 선두주자로, 총 파라미터를 늘리면서도 추론 비용을 유지하는 효율적 확장을 실현했다.

**3. 초고속 이미지 생성:**

Z-Image Turbo로 대표되는 few-step 생성 기술이 성숙기에 접어들었다. Decoupled-DMD 같은 고도화된 증류 기법과 RL 기반 post-training이 결합되어, 8 step으로 100 step 품질을 달성한다.

**4. Multimodal 통합:**

비디오+오디오+텍스트를 동시에 생성하는 native multimodality가 현실화되고 있다. Wan 2.5-Preview가 텍스트/이미지/비디오/오디오의 동기화된 생성을 시연했으며, Google Veo 3.1은 오디오 통합에서 선두를 달리고 있다.

**5. 물리 기반 시뮬레이션 향상:**

낙하, 충돌, 유체 역학, 직물 거동 등 물리 현상의 시뮬레이션 정확도가 크게 향상되었다. Sora 2가 이 분야에서 최전선에 있으며, 유리 파편의 물리적으로 정확한 궤적과 빛 굴절까지 구현한다.

11.2 비디오 생성의 도전과제

**Temporal Consistency (시간적 일관성):**

가장 근본적이고 지속적인 과제다. 프레임이 길어질수록 다음과 같은 문제가 심화된다:

- **Identity Drift:** 캐릭터의 얼굴, 의상이 시간이 지남에 따라 변형

- **Temporal Wobble:** 배경이나 정적 객체가 미세하게 흔들림

- **Compounding Errors:** 오류가 누적되어 후반 프레임에서 급격히 품질 저하

현재 단일 생성으로 30-60초의 포토리얼리스틱 비디오가 가능하지만, 복잡한 다중 캐릭터 인터랙션에서는 여전히 한계가 있다.

**Long-Form Generation (장편 생성):**

현존 대부분 모델의 최대 생성 길이는 5-60초 수준이다. 수 분 이상의 장편 콘텐츠를 일관성 있게 생성하는 것은 여전히 미해결 과제다. Wan 2.6의 멀티샷 내러티브 기능은 이 방향의 초기 시도로 볼 수 있다.

**Physics Simulation (물리 시뮬레이션):**

접촉(contact), 변형체(deformables), 다중 에이전트 역학(multi-agent dynamics)은 여전히 어렵다. 단일 캐릭터의 자연스러운 동작은 달성되었으나, 대화하는 두 인물이나 복잡한 물리 상호작용은 일관성을 유지하기 어렵다.

**Evaluation (평가 체계):**

비디오 생성 품질을 객관적으로 평가하는 표준 메트릭이 부족하다. FVD, FID 같은 기존 메트릭은 인간의 지각적 평가와 괴리가 있으며, 시나리오 기반 시간적 테스트(scenario-based temporal testing)가 더 의미 있는 것으로 평가받고 있다.

11.3 향후 발전 방향

**1. World Foundation Models:**

비디오 생성 모델이 단순 콘텐츠 생성을 넘어 **세계 시뮬레이션(world simulation)** 방향으로 진화하고 있다. 로보틱스, 자율주행, embodied AI에서 action-conditioned 비디오 생성이 핵심 기술로 부상한다.

**2. Hybrid Architecture:**

순수 diffusion에서 벗어나 다양한 아키텍처를 결합하는 하이브리드 시스템이 등장하고 있다. Diffusion Transformer + Auto-Regressive + Flow Matching의 결합, 또는 GAN 기반 초고속 refinement를 diffusion 위에 얹는 등의 시도가 진행 중이다.

**3. 효율성 혁명:**

Z-Image Turbo가 보여준 것처럼, 모델 크기를 줄이면서 품질을 유지하는 "효율성 우선" 패러다임이 확산될 것이다. 이는 on-device 생성, 실시간 비디오 생성 등 새로운 응용을 가능하게 한다.

**4. 개인화와 제어 가능성:**

Wan 2.6의 Reference-to-Video처럼 사용자가 자신의 얼굴, 목소리로 비디오를 생성하거나, ControlNet/IP-Adapter 같은 세밀한 제어 메커니즘이 비디오 생성에도 광범위하게 적용될 것이다.

12. 주요 논문 레퍼런스

Wan 관련 논문

1. **Wan: Open and Advanced Large-Scale Video Generative Models**

- Authors: Wan-AI Team (Alibaba)

- ArXiv: [2503.20314](https://arxiv.org/abs/2503.20314)

- 핵심: Wan 2.1의 전체 아키텍처, Wan-VAE, Flow Matching 학습, 데이터 파이프라인

2. **Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance**

- Authors: Ali-vilab (NeurIPS 2025)

- GitHub: [ali-vilab/Wan-Move](https://github.com/ali-vilab/Wan-Move)

- 핵심: Wan 기반 모션 제어 비디오 생성

Z-Image 관련 논문

3. **Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer**

- Authors: Tongyi-MAI (Alibaba)

- ArXiv: [2511.22699](https://arxiv.org/abs/2511.22699)

- 핵심: S3-DiT 아키텍처, 데이터 인프라, 효율적 학습 전략

관련 기반 논문

4. **Scalable Diffusion Models with Transformers (DiT)**

- Authors: Peebles & Xie

- ArXiv: [2212.09748](https://arxiv.org/abs/2212.09748)

- 핵심: Diffusion Transformer 아키텍처의 원형

5. **Flow Matching for Generative Modeling**

- Authors: Lipman et al.

- ArXiv: [2210.02747](https://arxiv.org/abs/2210.02747)

- 핵심: Flow Matching 프레임워크의 이론적 기초

6. **Classifier-Free Diffusion Guidance**

- Authors: Ho & Salimans

- ArXiv: [2207.12598](https://arxiv.org/abs/2207.12598)

- 핵심: Classifier-Free Guidance 기법

7. **Distribution Matching Distillation (DMD)**

- Authors: Yin et al.

- ArXiv: [2311.18828](https://arxiv.org/abs/2311.18828)

- 핵심: Few-step 증류 기법의 기반

8. **VideoGPT: Video Generation using VQ-VAE and Transformers**

- Authors: Yan et al.

- ArXiv: [2104.10157](https://arxiv.org/abs/2104.10157)

- 핵심: 비디오 생성을 위한 VQ-VAE + Transformer 접근

9. **CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer**

- Authors: ZhipuAI/Tsinghua

- ArXiv: [2408.06072](https://arxiv.org/abs/2408.06072)

- 핵심: Expert Transformer 기반 비디오 생성

10. **HunyuanVideo: A Systematic Framework For Large Video Generative Model**

- Authors: Tencent

- ArXiv: [2412.03603](https://arxiv.org/abs/2412.03603)

- 핵심: 13B 대규모 비디오 생성 프레임워크

13. 참고 자료

공식 리소스

- **Wan 2.1 GitHub:** [https://github.com/Wan-Video/Wan2.1](https://github.com/Wan-Video/Wan2.1)

- **Wan 2.2 GitHub:** [https://github.com/Wan-Video/Wan2.2](https://github.com/Wan-Video/Wan2.2)

- **Wan 공식 사이트:** [https://wan.video](https://wan.video)

- **Z-Image GitHub:** [https://github.com/Tongyi-MAI/Z-Image](https://github.com/Tongyi-MAI/Z-Image)

- **Z-Image Turbo HuggingFace:** [https://huggingface.co/Tongyi-MAI/Z-Image-Turbo](https://huggingface.co/Tongyi-MAI/Z-Image-Turbo)

- **Z-Image Paper:** [https://arxiv.org/abs/2511.22699](https://arxiv.org/abs/2511.22699)

튜토리얼 및 가이드

- **ComfyUI Wan 2.2 공식 가이드:** [https://docs.comfy.org/tutorials/video/wan/wan2_2](https://docs.comfy.org/tutorials/video/wan/wan2_2)

- **ComfyUI Z-Image Turbo 가이드:** [https://docs.comfy.org/tutorials/image/z-image/z-image-turbo](https://docs.comfy.org/tutorials/image/z-image/z-image-turbo)

- **Wan2GP (GPU Poor 최적화):** [https://github.com/deepbeepmeep/Wan2GP](https://github.com/deepbeepmeep/Wan2GP)

- **Alibaba Cloud 비디오 생성 문서:** [https://www.alibabacloud.com/help/en/model-studio/use-video-generation](https://www.alibabacloud.com/help/en/model-studio/use-video-generation)

모델 비교 및 벤치마크

- **Artificial Analysis Text-to-Image Leaderboard:** [https://artificialanalysis.ai/text-to-image](https://artificialanalysis.ai/text-to-image)

- **AI Video Generator 비교 2025:** [https://apatero.com/blog/ai-video-generator-comparison-wan-kling-runway-luma-apatero-2025](https://apatero.com/blog/ai-video-generator-comparison-wan-kling-runway-luma-apatero-2025)

- **Dreamega AI 비디오 모델 비교:** [https://www.dreamega.ai/blog/ai-video-model-comparison-2025](https://www.dreamega.ai/blog/ai-video-model-comparison-2025)

Hugging Face 모델 페이지

- **Wan2.1-T2V-14B:** [https://huggingface.co/Wan-AI/Wan2.1-T2V-14B](https://huggingface.co/Wan-AI/Wan2.1-T2V-14B)

- **Wan2.1-T2V-1.3B:** [https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B](https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B)

- **Wan2.2-T2V-A14B:** [https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B](https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B)

- **Wan2.2-I2V-A14B:** [https://huggingface.co/Wan-AI/Wan2.2-I2V-A14B](https://huggingface.co/Wan-AI/Wan2.2-I2V-A14B)

- **Wan2.2-TI2V-5B:** [https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B](https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B)

14. 결론

Wan과 Z-Image Turbo는 Alibaba가 생성 AI 분야에서 보여주는 두 가지 방향성을 대표한다.

**Wan**은 "오픈소스 비디오 생성의 민주화"를 추구한다. Apache-2.0 라이선스의 완전한 오픈소스로, 1.3B 경량 모델부터 27B MoE 대형 모델까지 다양한 스케일을 제공한다. 3D Causal VAE, DiT backbone, Flow Matching, MoE 아키텍처 등 최신 기술을 집대성했으며, 소비자급 GPU에서도 실행 가능한 접근성을 확보했다. Sora, Kling 같은 상용 모델의 해상도나 길이에는 미치지 못하지만, 커스터마이징 자유도와 비용 효율성에서 독보적 위치를 점한다.

**Z-Image Turbo**는 "효율성 혁명"의 선봉이다. 6B 파라미터로 20B~80B급 모델에 필적하는 품질을 8 step 만에 달성하며, S3-DiT의 single-stream 설계, Decoupled-DMD 증류, DMDR 강화학습 post-training이라는 3중 혁신을 통해 이를 실현했다. 314K GPU hours라는 학습 비용은 기존 대형 모델 대비 10배 이상 효율적이며, sub-second 추론 속도는 실시간 응용의 가능성을 열었다.

두 모델 모두 "더 크고 더 비싼 것이 항상 더 좋은 것은 아니다"라는 메시지를 전달한다. 효율적 아키텍처 설계, 데이터 품질 관리, 고도화된 학습 전략이 brute-force 스케일링보다 중요할 수 있음을 실증적으로 보여주었다. 이는 앞으로 비디오/이미지 생성 AI가 on-device, 실시간, 개인화 방향으로 발전하는 데 중요한 기반이 될 것이다.

현재 단락 (1/763)

2025년은 비디오 생성 AI가 폭발적으로 성장한 해다. OpenAI Sora, Google Veo, Runway Gen-3, Kling 등 상용 서비스가 쏟아지는 가운데, Ali...

작성 글자: 0원문 글자: 29,092작성 단락: 0/763