Scalable Diffusion Models with Transformers(DiT) 논문을 분석합니다. U-Net 기반 디퓨전 모델의 한계를 넘어 Transformer 백본으로 전환한 배경, adaLN-Zero 조건화, 스케일링 법칙, SORA/DALL-E 3로의 영향까지 다룹니다.
Tencent HunyuanVideo(13B)와 Lightricks LTX-2(19B)의 아키텍처, 학습 방법론, 성능 벤치마크를 심층 분석하고, Wan 2.1/CogVideoX/Mochi 등 오픈소스 비디오 생성 모델 생태계 전체를 비교하며 실전 활용 가이드를 제공한다.