Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

はじめに

テキスト画像生成は、ここ数年で最も急速に発展した生成AI分野の一つです。GANの時代を経て拡散モデル(diffusion model)が事実上の標準となり、2024年以降は拡散の数学的フレームをrectified flowやflow matchingで一般化し、バックボーンをU-Netからトランスフォーマー(DiT)へ置き換える流れが顕著になりました。本記事では個々のモデルの詳細スペックを断定するよりも、この分野のSOTAモデルが共有するアーキテクチャの原理と系譜を中心に整理します。

この分野は非常に速く変わります。以下の内容は広く知られた概念・論文・アーキテクチャ系列を基準としており、特定モデルの順位や具体的な数値はベンチマーク・バージョン・評価方法によって変わるという点を前提に読んでください。

全体像: 何を学習するのか

画像生成モデルの目標は、データ分布を学習して、新しいサンプルをその分布から取り出すことです。テキスト画像モデルはここに「テキスト条件(condition)」を加え、与えられた文が説明する画像の条件付き分布からサンプリングします。

拡散モデルの核心的なアイデアは二段階に分かれます。

- **順方向過程(forward process)**: きれいな画像に少しずつガウスノイズを加え、最終的に純粋なノイズにする。

- **逆方向過程(reverse process)**: 純粋なノイズから始め、少しずつノイズを除去して画像を復元する。

モデルは「各ステップでどんなノイズが混ざったか」を予測するように学習します。このノイズ予測が正確になるほど、逆方向に純粋なノイズを次第にもっともらしい画像へ戻すことができます。

順方向(学習信号の生成): x0 --noise--> x1 --noise--> ... --> xT (純粋なノイズ)

逆方向(生成): xT --denoise--> ... --> x1 --denoise--> x0 (画像)

各ステップでニューラルネットが「混ざったノイズ」を予測

拡散モデルの原理

ノイズ予測と目的関数

最も広く使われた定式化(DDPM系)では、任意の時点tで画像に定められた量のノイズを混ぜ、ニューラルネットがそのノイズを予測するように学習します。損失はおおむね「実際に混ぜたノイズ」と「予測したノイズ」の平均二乗誤差です。

学習ループ(概念):

1. データから画像 x0 をサンプル

2. 時点 t を無作為に選択 (1..T)

3. ノイズ eps をサンプル、スケジュールに従って x_t を生成

4. ニューラルネットが eps_pred = model(x_t, t, 条件) を予測

5. 損失 = mean( (eps - eps_pred)^2 ) を最小化

ここで「条件」はテキスト埋め込みです。ノイズ予測の形式の代わりに、元の画像を直接予測したり速度(velocity)を予測する変種(v-predictionなど)も広く使われます。定式化が異なっても核心は同じです。ニューラルネットがノイズの混ざった状態から「ノイズ除去の方向」を学びます。

逆拡散とサンプラー

学習が終わると、純粋なノイズから始めて複数のステップにわたりノイズを除去します。この過程を実際に実行するアルゴリズムを**サンプラー(solver)**といいます。

- **DDPM**: 元祖の方式。ステップ数が多く(数百ステップ)遅いです。

- **DDIM**: 決定論的な経路を許容し、ステップ数を大きく減らします。

- **DPM-Solver系**: 微分方程式の観点から高次近似を用い、少数ステップでも品質を維持します。

逆拡散は実は確率微分方程式(SDE)または常微分方程式(ODE)を解く問題と見なせます。この観点が後述するflow matchingと自然につながります。

ラテント拡散(Latent Diffusion)

初期の拡散モデルはピクセル空間で直接ノイズを扱いました。高解像度の画像はピクセル数が多く演算が爆発します。**ラテント拡散モデル(Latent Diffusion Model, arXiv 2112.10752)**はこの問題を優雅に解決しました。

核心はオートエンコーダー(VAE)を先に学習し、画像をはるかに小さな潜在空間(latent space)へ圧縮することです。拡散過程はこの圧縮された潜在表現の上で起こります。

[画像] --VAE エンコーダ--> [小さな潜在テンソル] --拡散学習/生成--> [潜在テンソル] --VAE デコーダ--> [画像]

例: 512x512x3 ピクセル ==> 64x64x4 潜在 (空間 8倍縮小)

この構造のおかげで拡散ニューラルネットははるかに小さなテンソルだけを扱えばよく、演算・メモリが大きく減ります。Stable Diffusion系はこのラテント拡散の上に築かれ、その後ほとんどの実用テキスト画像モデルが潜在空間アプローチを採用しました。

テキスト条件付け

テキストで画像を制御するには、文をニューラルネットが理解できるベクトルに変え、そのベクトルを生成過程に注入する必要があります。

テキストエンコーダ

- **CLIP テキストエンコーダ**: 画像テキスト対照学習で学習されたエンコーダ。テキストと画像を同じ埋め込み空間に整列させます。プロンプトの意味を画像生成につなげるのに自然です。

- **T5系テキストエンコーダ**: 大規模言語モデルベースのエンコーダで、長く複雑なプロンプトの構文・意味をより豊かに捉えます。

最近のモデルはCLIPとT5を併用するハイブリッド構成をよく選びます。CLIPは画像整列の信号を、T5は言語理解の深さを提供するという直観です。

クロスアテンションと条件注入

テキスト埋め込みを画像生成に注入する代表的な方式が**クロスアテンション(cross-attention)**です。生成中の潜在表現がクエリ(query)となり、テキスト埋め込みがキー(key)と値(value)になります。各画像位置がプロンプトのどの単語に注目するかを学習します。

[潜在表現トークンたち] --Query-->

[クロスアテンション] --> テキストで条件付けされた特徴

[テキスト埋め込み] --Key,Value-->

トランスフォーマーバックボーン(DiT)では、テキストトークンと画像トークンを一つのシーケンスに連結して一緒にアテンションをかける方式(joint attention)も広く使われます。これはテキストと画像の表現が互いにより深く相互作用するようにします。

CFG: 分類器なしガイダンス

**Classifier-Free Guidance(CFG)**はテキスト条件をどれだけ強く従うかを調整する手法です。学習時に一定確率で条件を空に(無条件)して一緒に学習しておき、生成時に条件付き予測と無条件予測を混ぜます。

guided = uncond + scale * (cond - uncond)

scale = 1: 条件を無視するのに近い

scale 上昇: プロンプト忠実度が増加、しかし過ぎると彩度過飽和/不自然

CFGスケールはプロンプト忠実度と多様性・自然さの間のトレードオフを調整する重要なつまみです。値が大きすぎると色が焼け付いたり人工的な感じが強くなります。

Rectified FlowとFlow Matching

拡散の逆方向をODEと見る観点から自然に出てきたのが**flow matching**と**rectified flow**です。この系列は最近のSOTAテキスト画像モデルの学習フレームとして定着しました。

核心的なアイデアはこうです。ノイズ分布からデータ分布へ向かう「速度場(velocity field)」を直接学習します。特にrectified flowはノイズとデータをつなぐ経路をできるだけ直線に近づけます。

拡散(曲線経路) rectified flow(直線に近い経路)

ノイズ . . . データノイズ -------- データ

くねくねした軌道まっすぐ伸ばした軌道 -> 少ないステップで到達

経路が直線に近いほど、生成時に必要な積分ステップが減ります。つまりより少ない計算で良い品質が得られます。この性質が最新のモデルがflow matching系を好む実用的な理由の一つです。

DiT: 拡散トランスフォーマーへの転換

初期の拡散モデルのバックボーンはほとんど**U-Net**でした。畳み込みベースのエンコーダ・デコーダにスキップ接続を置いた構造です。その後**Diffusion Transformer(DiT)**が登場し、バックボーンをトランスフォーマーに置き換える流れが強まりました。

DiTの発想は単純です。潜在テンソルをパッチ(patch)に切ってトークンシーケンスにし、標準的なトランスフォーマーブロックで処理します。時点tと条件は正規化層などを通じて注入します。

[潜在テンソル] --パッチ分割--> [トークンシーケンス]

[トランスフォーマーブロック x N]

(self-attention + 条件注入)

[ノイズ/速度予測] --> パッチ復元

トランスフォーマーバックボーンの利点は**スケーラビリティ(scalability)**です。モデルサイズとデータを大きくするほど性能が滑らかに良くなる傾向が観察され、これが大規模テキスト画像モデルがDiT系に収束する背景となりました。

系譜と代表的なモデル系列

以下は概念・アーキテクチャ系列を中心とした整理です。詳細スペックはバージョン・公開時点によって異なるため、系列の特徴を基準に見ます。

- **Stable Diffusion 初期系**: ラテント拡散 + U-Net + CLIP条件付け。オープンなエコシステムを大きく広げました。

- **DiTベースの大型モデル**: バックボーンをトランスフォーマーに置き換えテキスト画像joint attentionを導入した流れ。Stable Diffusion 3系がrectified flowとトランスフォーマーバックボーン、マルチテキストエンコーダ構成を採用したことで知られています。

- **FLUX系**: rectified flowと大規模トランスフォーマーバックボーンを結合した系列として知られ、プロンプト忠実度と画像品質で強い性能を示すと評価されています。詳細な学習レシピと正確な数値は公開範囲によって異なります。

- **Imagen / DALL-E系**: 強力なテキストエンコーダと拡散(またはカスケード)構造を強調した系列として知られています。クローズドなものが多く、詳細は限定的に公開されます。

この系譜で共通して観察される方向は三つです。(1) ピクセルの代わりに潜在空間、(2) U-Netの代わりにトランスフォーマー、(3) 純粋な拡散定式化の代わりにflow matching / rectified flow。

比較表: アーキテクチャの軸で見た整理

| --- | --- | --- | --- |

| スケーラビリティ | 限定的 | 優秀 | 優秀 |

| 生成ステップ傾向 | 多い | 中間 | 少なめ(直線経路) |

表の値は系列の一般的な傾向であり、特定の製品・バージョンの正確な構成とは異なる場合があります。

全体パイプライン図

[プロンプトテキスト]

[テキストエンコーダ: CLIP / T5]

[テキスト埋め込み] ------------------+

[純粋なノイズ(潜在)] --> [拡散/flow バックボーン: U-Net または DiT] <-- (クロス/joint アテンション)

[反復デノイズ: サンプラー + CFG]

[最終潜在テンソル]

[VAE デコーダ]

[最終画像]

強み

- **品質と制御のバランス**: 拡散・flow系は多様性と忠実度を同時に捉えやすく、CFGで調整のつまみを提供します。

- **モジュール性**: テキストエンコーダ、バックボーン、VAEが分離されており、部品の交換・改善が容易です。

- **スケーラビリティ**: DiTの導入により大規模スケーリングの恩恵を得ます。

- **効率化の余地**: rectified flowと高次サンプラーで生成ステップを減らす研究が活発です。

限界と未解決の問題

- **テキストレンダリング**: 画像内の文字を正確に描くことは依然として難しいです。最近大きく改善されましたが完全ではありません。

- **構成的正確性**: 「赤い立方体の上に青いボール」のように物体・属性・空間関係を正確に守る構成的プロンプトは失敗しやすいです。

- **手・解剖学**: 指の本数のような細部は依然として誤りが多いです。

- **評価の難しさ**: FIDのような指標は知覚品質を完全には捉えられず、人間の選好評価とずれることがあります。順位はベンチマーク・バージョンによって変わります。

- **著作権・データ出所**: 学習データの著作権とスタイル模倣の問題は技術外で大きな争点です。

実務的な含意

- プロンプト忠実度が重要なら、CFGスケールとサンプラーを一緒にチューニングする必要があります。無条件に高いCFGが良いわけではありません。

- 速度が重要なら、rectified flow系や高次サンプラーでステップを減らす方向が有利です。

- 特定のスタイル・物体を固定するには、LoRAなどの軽量ファインチューニングや条件制御(例: 構造ガイド)の手法を組み合わせます。

- モデル選択時は「最新・最高」という断定よりも、対象ドメインで直接比較評価をする方が安全です。

おわりに

画像生成SOTAの流れは「潜在空間 + トランスフォーマーバックボーン + flow matching」という三つの軸で要約できます。Stable Diffusion 3系とFLUX系はこれらの軸を結合した代表例として知られています。ただし、この分野の順位と詳細な数値は非常に速く変わるため、概念とアーキテクチャの原理を理解し、実際のドメインで直接検証する姿勢が最も長続きします。

参考資料

- [High-Resolution Image Synthesis with Latent Diffusion Models (arXiv 2112.10752)](https://arxiv.org/abs/2112.10752)

- [Denoising Diffusion Probabilistic Models (arXiv 2006.11239)](https://arxiv.org/abs/2006.11239)

- [Denoising Diffusion Implicit Models, DDIM (arXiv 2010.02502)](https://arxiv.org/abs/2010.02502)

- [Classifier-Free Diffusion Guidance (arXiv 2207.12598)](https://arxiv.org/abs/2207.12598)

- [Scalable Diffusion Models with Transformers, DiT (arXiv 2212.09748)](https://arxiv.org/abs/2212.09748)

- [Flow Matching for Generative Modeling (arXiv 2210.02747)](https://arxiv.org/abs/2210.02747)

- [Learning to Generate Images with Rectified Flow (arXiv 2209.03003)](https://arxiv.org/abs/2209.03003)

- [Learning Transferable Visual Models From Natural Language Supervision, CLIP (arXiv 2103.00020)](https://arxiv.org/abs/2103.00020)

- [black-forest-labs/flux (GitHub)](https://github.com/black-forest-labs/flux)

- [Hugging Face Diffusers ドキュメント](https://huggingface.co/docs/diffusers)