Tencent HunyuanVideo(13B)와 Lightricks LTX-2(19B)의 아키텍처, 학습 방법론, 성능 벤치마크를 심층 분석하고, Wan 2.1/CogVideoX/Mochi 등 오픈소스 비디오 생성 모델 생태계 전체를 비교하며 실전 활용 가이드를 제공한다.
GAN, VAE, Diffusion, Flow Matching까지 Text-to-Image 생성 모델의 핵심 아키텍처별 학습 방법론을 논문 기반으로 심층 분석한다. Stable Diffusion, DALL-E, Imagen, Flux 등 주요 모델의 학습 전략과 Fine-tuning 기법을 포괄적으로 다룬다.
Alibaba Wan의 Text-to-Video/Image-to-Video 모델 아키텍처, 학습 방법론, 비디오 생성 파이프라인과 Z Image Turbo의 초고속 이미지 생성 기술을 심층 분석하고, Sora/Kling/Runway 등 경쟁 모델과 비교하며 실전 활용 가이드를 제공한다.