Diffusion-transformer

All Posts

Published on
2026년 6월 30일
SOTA 이미지 생성 모델 분석 — 확산모델에서 FLUX까지
ai-papers diffusion-models text-to-image latent-diffusion rectified-flow diffusion-transformer flux
텍스트-이미지 생성의 최전선을 확산모델 원리부터 라텐트 확산, DiT, rectified flow, 그리고 FLUX 계열까지 계보 중심으로 정리합니다. 아키텍처 원리와 비교표, 다이어그램으로 SOTA 모델들의 공통 구조와 차이를 분석합니다.
Published on
2026년 6월 30일
SOTA 비디오 생성 모델 분석 — 시공간 확산 트랜스포머
ai-papers video-generation diffusion-transformer spatiotemporal text-to-video generative-ai
비디오 생성의 근본 난제인 시간 일관성과 연산 비용을 시공간 라텐트 패치와 확산 트랜스포머 관점에서 정리합니다. Sora가 제시한 개념과 후속 모델 계열, 조건화·평가·물리 일관성 한계를 아키텍처 중심으로 분석합니다.
Published on
2026년 5월 16일
파운데이션 모델 아키텍처 2026 — Transformer 이후 / Mamba 2 / Hyena / RWKV / RetNet / Griffin / Jamba / xLSTM / TTT / DiT / MoE / Flash Attention 3 심층 가이드
foundation-models transformer attention-is-all-you-need vaswani mamba state-space-model ssm albert-gu tri-dao mamba-2 hyena stanford-h2o linear-attention schmidhuber rwkv bo-peng retnet microsoft-retentive griffin deepmind-griffin s5 jamba ai21 falcon-mamba xlstm sepp-hochreiter test-time-training ttt sun-et-al dit diffusion-transformer sora-dit moe mixtral deepseek-v3-moe million-experts google-mome flash-attention-3 ring-attention gemini-2m magic-ltm-2-mini sakana-ai-evolutionary deep-dive
2026년 파운데이션 모델 세계는 더 이상 Transformer 일변도가 아니다. Vaswani의 2017년 "Attention is All You Need"는 여전히 표준이지만, 그 옆에 Mamba/Mamba 2 같은 상태공간 모델(SSM), RWKV/RetNet/Griffin 같은 선형 RNN 재발견 진영, AI21 Jamba와 Falcon Mamba 같은 하이브리드, Sepp Hochreiter의 xLSTM, Test-Time Training, Sora의 DiT, Mixtral/DeepSeek-V3 671B/Google Million Experts 같은 MoE, Flash Attention 3와 Ring Attention, 그리고 Gemini 2M/Magic LTM-2-mini 100M의 초장문 컨텍스트까지 — 어떤 아키텍처가 어떤 문제에 강한지, 한국과 일본 진영은 무엇을 만들고 있는지 한 번에 정리.
Published on
2026년 3월 3일
Diffusion Transformer(DiT) 아키텍처 분석: U-Net에서 Transformer로의 전환
ai-papers diffusion-transformer dit generative-ai image-generation 2026-03
Scalable Diffusion Models with Transformers(DiT) 논문을 분석합니다. U-Net 기반 디퓨전 모델의 한계를 넘어 Transformer 백본으로 전환한 배경, adaLN-Zero 조건화, 스케일링 법칙, SORA/DALL-E 3로의 영향까지 다룹니다.
Published on
2026년 3월 1일
HunyuanVideo와 LTX-2 완벽 분석: 오픈소스 비디오 생성 모델의 아키텍처, 성능, 실전 활용 가이드
hunyuan-video ltx-video ltx2 text-to-video image-to-video video-generation diffusion-transformer dit generative-ai open-source tencent lightricks deep-learning
Tencent HunyuanVideo(13B)와 Lightricks LTX-2(19B)의 아키텍처, 학습 방법론, 성능 벤치마크를 심층 분석하고, Wan 2.1/CogVideoX/Mochi 등 오픈소스 비디오 생성 모델 생태계 전체를 비교하며 실전 활용 가이드를 제공한다.

Diffusion-transformer

diffusion-transformer (5)

SOTA 이미지 생성 모델 분석 — 확산모델에서 FLUX까지

SOTA 비디오 생성 모델 분석 — 시공간 확산 트랜스포머

파운데이션 모델 아키텍처 2026 — Transformer 이후 / Mamba 2 / Hyena / RWKV / RetNet / Griffin / Jamba / xLSTM / TTT / DiT / MoE / Flash Attention 3 심층 가이드

Diffusion Transformer(DiT) 아키텍처 분석: U-Net에서 Transformer로의 전환

HunyuanVideo와 LTX-2 완벽 분석: 오픈소스 비디오 생성 모델의 아키텍처, 성능, 실전 활용 가이드