Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

들어가며

텍스트-이미지 생성은 지난 몇 년간 가장 빠르게 발전한 생성 AI 분야 중 하나입니다. GAN 시대를 지나 확산모델(diffusion model)이 사실상 표준이 되었고, 2024년 이후에는 확산의 수학적 프레임을 rectified flow와 flow matching으로 일반화하고, 백본을 U-Net에서 트랜스포머(DiT)로 교체하는 흐름이 뚜렷해졌습니다. 이 글에서는 개별 모델의 세부 스펙을 단정하기보다, 이 분야의 SOTA 모델들이 공유하는 아키텍처 원리와 계보를 중심으로 정리합니다.

이 분야는 매우 빠르게 바뀝니다. 아래 내용은 널리 알려진 개념·논문·아키텍처 계열을 기준으로 하며, 특정 모델의 순위나 구체 수치는 벤치마크·버전·평가 방식에 따라 달라진다는 점을 전제로 읽어 주세요.

큰 그림: 무엇을 학습하는가

이미지 생성 모델의 목표는 데이터 분포를 학습해서, 새로운 샘플을 그 분포에서 뽑아내는 것입니다. 텍스트-이미지 모델은 여기에 "텍스트 조건(condition)"을 더해, 주어진 문장이 설명하는 이미지의 조건부 분포에서 샘플링합니다.

확산모델의 핵심 아이디어는 두 단계로 나뉩니다.

- **순방향 과정(forward process)**: 깨끗한 이미지에 조금씩 가우시안 노이즈를 더해 결국 순수 노이즈로 만든다.

- **역방향 과정(reverse process)**: 순수 노이즈에서 시작해, 조금씩 노이즈를 제거하며 이미지를 복원한다.

모델은 "각 단계에서 어떤 노이즈가 섞였는지"를 예측하도록 학습합니다. 이 노이즈 예측이 정확해질수록, 역방향으로 순수 노이즈를 점점 그럴듯한 이미지로 되돌릴 수 있습니다.

순방향(학습 신호 생성): x0 --noise--> x1 --noise--> ... --> xT (순수 노이즈)

역방향(생성): xT --denoise--> ... --> x1 --denoise--> x0 (이미지)

각 스텝에서 신경망이 "섞인 노이즈"를 예측

확산모델의 원리

노이즈 예측과 목적함수

가장 널리 쓰인 정식화(DDPM 계열)에서는, 임의의 시점 t에서 이미지에 정해진 양의 노이즈를 섞고, 신경망이 그 노이즈를 예측하도록 학습합니다. 손실은 대체로 "실제 섞은 노이즈"와 "예측한 노이즈"의 평균제곱오차입니다.

학습 루프(개념):

1. 데이터에서 이미지 x0 샘플

2. 시점 t를 무작위로 선택 (1..T)

3. 노이즈 eps 샘플, 스케줄에 따라 x_t 생성

4. 신경망이 eps_pred = model(x_t, t, 조건) 예측

5. 손실 = mean( (eps - eps_pred)^2 ) 최소화

여기서 "조건"은 텍스트 임베딩입니다. 노이즈 예측 형태 대신, 원본 이미지를 직접 예측하거나 속도(velocity)를 예측하는 변형(v-prediction 등)도 널리 쓰입니다. 정식화가 달라도 핵심은 같습니다. 신경망이 노이즈가 섞인 상태에서 "노이즈 제거 방향"을 배웁니다.

역확산과 샘플러

학습이 끝나면, 순수 노이즈에서 시작해 여러 스텝에 걸쳐 노이즈를 제거합니다. 이 과정을 실제로 수행하는 알고리즘을 **샘플러(solver)**라고 합니다.

- **DDPM**: 원조 방식. 스텝 수가 많아(수백 스텝) 느립니다.

- **DDIM**: 결정론적 경로를 허용하고 스텝 수를 크게 줄입니다.

- **DPM-Solver 계열**: 미분방정식 관점에서 고차 근사를 사용해 소수 스텝으로도 품질을 유지합니다.

역확산은 사실 확률미분방정식(SDE) 또는 상미분방정식(ODE)을 푸는 문제로 볼 수 있습니다. 이 관점이 뒤에서 다룰 flow matching과 자연스럽게 연결됩니다.

라텐트 확산(Latent Diffusion)

초기 확산모델은 픽셀 공간에서 직접 노이즈를 다뤘습니다. 고해상도 이미지는 픽셀 수가 많아 연산이 폭발합니다. **라텐트 확산 모델(Latent Diffusion Model, arXiv 2112.10752)**은 이 문제를 우아하게 해결했습니다.

핵심은 오토인코더(VAE)를 먼저 학습해, 이미지를 훨씬 작은 잠재 공간(latent space)으로 압축하는 것입니다. 확산 과정은 이 압축된 잠재 표현 위에서 일어납니다.

[이미지] --VAE 인코더--> [작은 잠재 텐서] --확산 학습/생성--> [잠재 텐서] --VAE 디코더--> [이미지]

예: 512x512x3 픽셀 ==> 64x64x4 잠재 (공간 8배 축소)

이 구조 덕분에 확산 신경망은 훨씬 작은 텐서만 다루면 되고, 연산·메모리가 크게 줄어듭니다. Stable Diffusion 계열이 이 라텐트 확산 위에 세워졌고, 이후 대부분의 실용 텍스트-이미지 모델이 잠재 공간 접근을 채택했습니다.

텍스트 조건화

텍스트로 이미지를 제어하려면, 문장을 신경망이 이해할 수 있는 벡터로 바꾸고, 그 벡터를 생성 과정에 주입해야 합니다.

텍스트 인코더

- **CLIP 텍스트 인코더**: 이미지-텍스트 대조학습으로 학습된 인코더. 텍스트와 이미지를 같은 임베딩 공간에 정렬합니다. 프롬프트의 의미를 이미지 생성에 연결하기에 자연스럽습니다.

- **T5 계열 텍스트 인코더**: 대규모 언어모델 기반 인코더로, 길고 복잡한 프롬프트의 구문·의미를 더 풍부하게 담습니다.

최근 모델들은 CLIP과 T5를 함께 쓰는 하이브리드 구성을 자주 택합니다. CLIP은 이미지 정렬 신호를, T5는 언어 이해의 깊이를 제공한다는 직관입니다.

크로스 어텐션과 조건 주입

텍스트 임베딩을 이미지 생성에 주입하는 대표 방식은 **크로스 어텐션(cross-attention)**입니다. 생성 중인 잠재 표현이 쿼리(query)가 되고, 텍스트 임베딩이 키(key)와 값(value)이 됩니다. 각 이미지 위치가 프롬프트의 어느 단어에 주목할지 학습합니다.

[잠재 표현 토큰들] --Query-->

[크로스 어텐션] --> 텍스트로 조건화된 특징

[텍스트 임베딩] --Key,Value-->

트랜스포머 백본(DiT)에서는 텍스트 토큰과 이미지 토큰을 하나의 시퀀스로 이어 붙여 함께 어텐션을 태우는 방식(joint attention)도 널리 쓰입니다. 이는 텍스트와 이미지 표현이 서로 더 깊게 상호작용하게 합니다.

CFG: 분류자 없는 가이던스

**Classifier-Free Guidance(CFG)**는 텍스트 조건을 얼마나 강하게 따를지 조절하는 기법입니다. 학습 때 일부 확률로 조건을 비워(무조건) 함께 학습해 두고, 생성 때 조건부 예측과 무조건 예측을 섞습니다.

guided = uncond + scale * (cond - uncond)

scale = 1: 조건 무시에 가까움

scale 상승: 프롬프트 충실도 증가, 그러나 과하면 채도 과포화/부자연

CFG 스케일은 프롬프트 충실도와 다양성·자연스러움 사이의 트레이드오프를 조절하는 핵심 손잡이입니다. 값이 너무 크면 색이 타버리거나 인공적인 느낌이 강해집니다.

Rectified Flow와 Flow Matching

확산의 역방향을 ODE로 보는 관점에서 자연스럽게 나온 것이 **flow matching**과 **rectified flow**입니다. 이 계열은 최근 SOTA 텍스트-이미지 모델의 학습 프레임으로 자리 잡았습니다.

핵심 아이디어는 이렇습니다. 노이즈 분포에서 데이터 분포로 가는 "속도장(velocity field)"을 직접 학습합니다. 특히 rectified flow는 노이즈와 데이터를 잇는 경로를 가능한 한 직선에 가깝게 만듭니다.

확산(곡선 경로) rectified flow(직선에 가까운 경로)

노이즈 . . . 데이터 노이즈 -------- 데이터

구불구불한 궤적 곧게 편 궤적 -> 적은 스텝으로 도달

경로가 직선에 가까울수록, 생성 시 필요한 적분 스텝이 줄어듭니다. 즉 더 적은 계산으로 좋은 품질을 얻을 수 있습니다. 이 성질이 최신 모델들이 flow matching 계열을 선호하는 실용적 이유 중 하나입니다.

DiT: 확산 트랜스포머로의 전환

초기 확산모델의 백본은 대부분 **U-Net**이었습니다. 컨볼루션 기반 인코더-디코더에 스킵 연결을 둔 구조입니다. 이후 **Diffusion Transformer(DiT)**가 등장하며 백본을 트랜스포머로 교체하는 흐름이 강해졌습니다.

DiT의 발상은 간단합니다. 잠재 텐서를 패치(patch)로 잘라 토큰 시퀀스로 만들고, 표준 트랜스포머 블록으로 처리합니다. 시점 t와 조건은 정규화 계층 등을 통해 주입합니다.

[잠재 텐서] --패치 분할--> [토큰 시퀀스]

[트랜스포머 블록 x N]

(self-attention + 조건 주입)

[노이즈/속도 예측] --> 패치 복원

트랜스포머 백본의 장점은 **확장성(scalability)**입니다. 모델 크기와 데이터를 키울수록 성능이 매끄럽게 좋아지는 경향이 관찰되었고, 이는 대규모 텍스트-이미지 모델이 DiT 계열로 수렴하는 배경이 되었습니다.

계보와 대표 모델 계열

아래는 개념·아키텍처 계열 중심의 정리입니다. 세부 스펙은 버전·공개 시점에 따라 다르므로 계열의 특징을 기준으로 봅니다.

- **Stable Diffusion 초기 계열**: 라텐트 확산 + U-Net + CLIP 조건화. 오픈 생태계를 크게 넓혔습니다.

- **DiT 기반 대형 모델**: 백본을 트랜스포머로 교체하고 텍스트-이미지 joint attention을 도입한 흐름. Stable Diffusion 3 계열이 rectified flow와 트랜스포머 백본, 멀티 텍스트 인코더 구성을 채택한 것으로 알려져 있습니다.

- **FLUX 계열**: rectified flow와 대규모 트랜스포머 백본을 결합한 계열로 알려져 있으며, 프롬프트 충실도와 이미지 품질에서 강한 성능을 보이는 것으로 평가됩니다. 세부 학습 레시피와 정확한 수치는 공개 범위에 따라 다릅니다.

- **Imagen / DALL-E 계열**: 강력한 텍스트 인코더와 확산(또는 캐스케이드) 구조를 강조한 계열로 알려져 있습니다. 폐쇄형이 많아 세부는 제한적으로 공개됩니다.

이 계보에서 공통적으로 관찰되는 방향은 세 가지입니다. (1) 픽셀 대신 잠재 공간, (2) U-Net 대신 트랜스포머, (3) 순수 확산 정식화 대신 flow matching / rectified flow.

비교표: 아키텍처 축으로 본 정리

| --- | --- | --- | --- |

| 확장성 | 제한적 | 우수 | 우수 |

| 생성 스텝 경향 | 많음 | 중간 | 적은 편(직선 경로) |

표의 값은 계열의 일반적 경향이며, 특정 제품·버전의 정확한 구성과는 다를 수 있습니다.

전체 파이프라인 다이어그램

[프롬프트 텍스트]

[텍스트 인코더: CLIP / T5]

[텍스트 임베딩] ------------------+

[순수 노이즈(잠재)] --> [확산/flow 백본: U-Net 또는 DiT] <-- (크로스/joint 어텐션)

[반복 디노이즈: 샘플러 + CFG]

[최종 잠재 텐서]

[VAE 디코더]

[최종 이미지]

강점

- **품질과 제어의 균형**: 확산·flow 계열은 다양성과 충실도를 함께 잡기 쉽고, CFG로 조절 손잡이를 제공합니다.

- **모듈성**: 텍스트 인코더, 백본, VAE가 분리되어 있어 부품 교체·개선이 쉽습니다.

- **확장성**: DiT 도입으로 대규모 스케일링의 이득을 얻습니다.

- **효율화 여지**: rectified flow와 고차 샘플러로 생성 스텝을 줄이는 연구가 활발합니다.

한계와 열린 문제

- **텍스트 렌더링**: 이미지 안의 글자를 정확히 그리는 일은 여전히 까다롭습니다. 최근 크게 개선되었지만 완전하지 않습니다.

- **구성적 정확성**: "빨간 정육면체 위에 파란 공"처럼 개체·속성·공간관계를 정확히 지키는 구성적 프롬프트는 실패하기 쉽습니다.

- **손·해부학**: 손가락 개수 같은 세부는 여전히 오류가 잦습니다.

- **평가의 어려움**: FID 같은 지표는 지각 품질을 완전히 담지 못하고, 사람 선호 평가와 어긋날 수 있습니다. 순위는 벤치마크·버전에 따라 달라집니다.

실무적 함의

- 프롬프트 충실도가 중요하면 CFG 스케일과 샘플러를 함께 튜닝해야 합니다. 무조건 높은 CFG가 좋은 것은 아닙니다.

- 속도가 중요하면 rectified flow 계열이나 고차 샘플러로 스텝을 줄이는 방향이 유리합니다.

- 특정 스타일·개체를 고정하려면 LoRA 등 경량 파인튜닝이나 조건 제어(예: 구조 가이드) 기법을 조합합니다.

- 모델 선택 시 "최신·최고"라는 단정보다, 대상 도메인에서 직접 비교 평가를 하는 편이 안전합니다.

마치며

이미지 생성 SOTA의 흐름은 "잠재 공간 + 트랜스포머 백본 + flow matching"이라는 세 축으로 요약할 수 있습니다. Stable Diffusion 3 계열과 FLUX 계열은 이 축들을 결합한 대표 사례로 알려져 있습니다. 다만 이 분야의 순위와 세부 수치는 매우 빠르게 바뀌므로, 개념과 아키텍처 원리를 이해하고 실제 도메인에서 직접 검증하는 태도가 가장 오래 갑니다.

참고 자료

- [High-Resolution Image Synthesis with Latent Diffusion Models (arXiv 2112.10752)](https://arxiv.org/abs/2112.10752)

- [Denoising Diffusion Probabilistic Models (arXiv 2006.11239)](https://arxiv.org/abs/2006.11239)

- [Denoising Diffusion Implicit Models, DDIM (arXiv 2010.02502)](https://arxiv.org/abs/2010.02502)

- [Classifier-Free Diffusion Guidance (arXiv 2207.12598)](https://arxiv.org/abs/2207.12598)

- [Scalable Diffusion Models with Transformers, DiT (arXiv 2212.09748)](https://arxiv.org/abs/2212.09748)

- [Flow Matching for Generative Modeling (arXiv 2210.02747)](https://arxiv.org/abs/2210.02747)

- [Learning to Generate Images with Rectified Flow (arXiv 2209.03003)](https://arxiv.org/abs/2209.03003)

- [Learning Transferable Visual Models From Natural Language Supervision, CLIP (arXiv 2103.00020)](https://arxiv.org/abs/2103.00020)

- [black-forest-labs/flux (GitHub)](https://github.com/black-forest-labs/flux)

- [Hugging Face Diffusers 문서](https://huggingface.co/docs/diffusers)