Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

はじめに

画像生成が成熟期に入るにつれて、次の最前線は動画生成へと移りました。動画は画像の単純な拡張ではありません。時間軸という新しい次元が加わることで、フレーム間の一貫性と急増する計算量という2つの根本的な難題が生じます。本記事では、特定の製品の詳細仕様を断定するのではなく、最新の動画生成モデルが共有する時空間拡散トランスフォーマーの原理を中心に整理します。

この分野は非常に速く変化し、商用モデルの内部構造はほとんど非公開です。以下の内容は公開された概念・アーキテクチャ系列を基準としており、順位や具体的な数値はベンチマークやバージョンによって異なるという点を前提に読んでください。

動画生成の2つの難題

時間的一貫性

動画は複数のフレームの連続です。各フレームを個別に生成すると、人物の顔がフレームごとに微妙に変わったり、背景の物体が突然消えて色が飛んだりする問題が生じます。優れた動画モデルは、時間にわたってアイデンティティ（identity）とシーン構造を維持しなければなりません。

悪い場合（フレーム独立生成）:

フレーム1: 青いシャツフレーム2: 紺のシャツフレーム3: 紫のシャツ（ちらつき/不安定）

良い場合（時間的一貫性あり）:

フレーム1: 青いシャツフレーム2: 青いシャツフレーム3: 青いシャツ（安定した持続）

計算コスト

1枚の画像ではなく、毎秒数十フレームを、数秒の長さで作らなければなりません。データ量はフレーム数に比例して増え、時間方向のアテンションまで加わると計算が急激に大きくなります。そのため、動画モデルは画像よりもはるかに積極的な圧縮と効率化が必要です。

時空間潜在パッチ

核心的なアイデアは、動画をピクセルそのままで扱うのではなく、圧縮された時空間潜在（spatiotemporal latent）に変換することです。画像の潜在拡散が画像を空間的に圧縮したのに対し、動画は空間と時間を一緒に圧縮します。

まず3Dオートエンコーダが動画を時空間潜在テンソルにエンコードします。次に、この潜在テンソルを時空間パッチ（patch）に切り分けてトークン列を作ります。各パッチは「短い時間、小さな空間の断片」に相当します。

[元の動画: 時間 x 高さ x 幅 x チャネル]

[3Dオートエンコーダで時空間圧縮]

[時空間潜在テンソル] --パッチ分割--> [時空間トークン列]

(各トークン = 時間の断片 x 空間の断片)

この「時空間パッチ」の概念は、Soraが広く一般に知らしめたものとして知られています。さまざまな解像度・長さ・アスペクト比の動画を1つのトークン表現に統一できるため、異なる形式のデータを一緒に学習するのに有利であるという点が強調されます。

DiTベースの時空間拡散

トークン化が終わると、このトークン列の上で拡散トランスフォーマー（DiT）を動かします。画像DiTと発想は同じですが、アテンションが空間だけでなく時間軸まで包含するという点が異なります。

[時空間トークン列] + [テキスト条件]

[トランスフォーマーブロック x N]

- 空間アテンション（同じ時点内の位置たち）

- 時間アテンション（同じ位置の複数の時点）

- または統合された時空間アテンション

[ノイズ/速度の予測] --> デノイズ反復

[時空間潜在の復元] --> [3Dデコーダ] --> [動画]

アテンションをどう分けるかは設計上の選択です。空間と時間を分離して交互に処理すると（factorized）計算が減り、時空間を1つにまとめて処理すると（full）相互作用が豊かになりますが高コストです。多くのモデルは、効率と品質の間でこの2つを折衷します。

学習の定式化は、画像側と同様にノイズ予測または速度場（flow matching / rectified flow）方式を使います。潜在空間で拡散を行うという大きな枠組みは、画像の潜在拡散と同一です。

条件付け、長さ、解像度

テキスト条件付け

画像モデルと同様に、テキストエンコーダ（CLIP・T5系列）でプロンプトを埋め込み、クロスアテンションまたはjointアテンションで注入します。これに加えて、最初のフレーム画像を条件として与えるimage-to-video、低解像度の動画を条件として与えるアップスケール方式など、さまざまな条件付けが使われます。

可変長と解像度

時空間パッチ表現の利点は柔軟性です。トークン数を調整することで、異なる長さ・解像度・アスペクト比を同じモデルで扱えます。ただし、長い映像ほどトークンが多くなり計算が大きくなるため、実際にはカスケード（低解像度で生成した後にアップスケール）やチャンク単位の生成といった戦略を併用します。

[短い低解像度の動画を生成]

[時間補間 / フレーム拡張]

[空間アップスケール（超解像）]

[最終的な高解像度の動画]

後続モデル系列（概念中心）

Soraが時空間潜在パッチと大規模拡散トランスフォーマーという方向性を一般に強く印象づけた後、いくつもの商用・研究モデルが登場しました。Veo、Kling、Runway、Pikaなどのモデルが存在することが知られており、それぞれ異なる学習データとレシピを使っているように見えます。ただし、ほとんどが内部構造を非公開にしているため、ここでは共通したアーキテクチャの方向性だけを述べます。

共通して観察される方向性は次のとおりです。(1) 時空間潜在圧縮、(2) 拡散トランスフォーマーのバックボーン、(3) テキスト・画像の条件付け、(4) カスケードやアップスケールによる解像度・長さの拡張。詳細な性能・順位はベンチマーク・バージョン・プロンプトによって大きく変わるため、断定は避けます。

参考までに、Soraについては2026年の終了（サービス停止）に関する報道があったと伝えられています。これは報道に基づく情報であり、正確な事実関係と時期は公式発表を確認する方が安全です。ある特定の製品の存続とは無関係に、時空間拡散トランスフォーマーというアーキテクチャ系列そのものは、この分野の共通基盤として残っています。

比較表: 画像生成との対比

| 軸 | 画像生成 | 動画生成 |

| --- | --- | --- |

| 圧縮 | 空間（VAE） | 時空間（3Dオートエンコーダ） |

| トークン | 空間パッチ | 時空間パッチ |

| アテンション | 空間中心 | 空間 + 時間 |

| 核心的な難題 | 構成・ディテール | 時間的一貫性 + 計算 |

| 条件付け | テキスト | テキスト + 最初のフレームなど |

| 出力拡張 | 超解像 | 時間補間 + 超解像 |

値は系列の一般的な傾向であり、特定のモデル構成とは異なる場合があります。

物理的一貫性の限界

動画モデルはしばしば「世界シミュレータ」に例えられますが、実際には物理を明示的に計算しません。データから統計的なパターンを学ぶだけです。そのため、次のような失敗が現れます。

- **因果・物理の違反**: 割れたガラスが再びくっついたり、液体の体積が保存されなかったり、物体が根拠なく現れたり消えたりする。

- **長期的な一貫性の崩壊**: 映像が長くなるほど物体のアイデンティティ・個数が揺らぐ。カメラが戻ってきたときにシーンが変わってしまう問題。

- **接触・剛体の相互作用**: 手が物体をつかむ瞬間の不自然さなど、細かな相互作用は依然として難しいです。

こうした限界は、モデルが物理法則を「理解」するのではなく、それらしいピクセルの動きを生成するという本質から来ています。最近は大きく改善されていますが、完全な物理的一貫性はまだ未解決の問題です。

評価

動画生成の評価は画像よりも難しいです。知覚品質、時間的一貫性、プロンプト忠実度、動きの自然さを一緒に見なければなりません。

- **自動指標**: フレーム品質と時間的一貫性を一緒に見る指標（例: FVD系列、VBenchのような多面的な評価スイート）が使われますが、人間の知覚と完全に一致するわけではありません。

- **人間による評価**: 実際には人間の選好比較が最も信頼されます。ただしコストが大きく主観的です。

- **注意点**: 順位はプロンプト集合・解像度・長さ・評価方式によって大きく変わります。「何が最高か」という断定よりも、条件を明示した比較が必要です。

全体のパイプライン図

[プロンプトのテキスト] --(オプション: 最初のフレーム画像)

[テキストエンコーダ]

[条件埋め込み] ---------------------+

[純粋なノイズ（時空間潜在）] --> [時空間DiTバックボーン]

[デノイズ反復: サンプラー + CFG]

[時空間潜在テンソル]

[3Dデコーダ]

[低解像度の動画] --> [補間/超解像]

[最終的な動画]

強み

- **統一された表現**: 時空間パッチのおかげで、さまざまな長さ・解像度・アスペクト比を1つのモデルで扱えます。

- **拡張性**: トランスフォーマーのバックボーンによって大規模スケーリングの恩恵を得られます。

- **条件付けの柔軟性**: テキスト、最初のフレーム、低解像度の入力など、複数の条件を組み合わせられます。

- **急速な品質向上**: 短い期間で解像度・一貫性・動きの品質が大きく向上しました。

限界と未解決の問題

- **計算コスト**: 長く高解像度な映像ほど、学習・推論のコストが急増します。

- **長期的な一貫性**: 数秒を超えて数十秒に向かうほど、アイデンティティ・シーンの維持が難しくなります。

- **物理・因果**: 先ほど扱った物理の違反が残っています。

- **制御性**: カメラの動き、細かなタイミング、特定の個体の制御といった精密な制御はまだ発展途上です。

- **評価・著作権**: 信頼できる標準指標の不在、学習データの出所の問題は、画像と同様に大きな争点です。

実務的な含意

- 短く明確なシーンから始める方が安定します。長く複合的なシーンは一貫性が崩れやすいです。

- 精密な制御が必要なら、image-to-videoや構造条件を併用する方が良いです。

- 特定の製品の存続や順位に依存するよりも、アーキテクチャ系列の性質を理解し、対象の用途で直接比較する姿勢が安全です。

おわりに

動画生成SOTAの共通基盤は、「時空間潜在圧縮 + 拡散トランスフォーマー + テキスト・画像の条件付け」に要約されます。Soraが一般化した時空間パッチの概念は、後続モデルの事実上の標準言語になりました。個々の製品の存続と順位は速く変わりますが、このアーキテクチャの原理を理解すれば、新しいモデルが出てきてもその構造を素早く把握できます。

参考資料

- [Scalable Diffusion Models with Transformers, DiT (arXiv 2212.09748)](https://arxiv.org/abs/2212.09748)

- [High-Resolution Image Synthesis with Latent Diffusion Models (arXiv 2112.10752)](https://arxiv.org/abs/2112.10752)

- [Video Diffusion Models (arXiv 2204.03458)](https://arxiv.org/abs/2204.03458)

- [Denoising Diffusion Probabilistic Models (arXiv 2006.11239)](https://arxiv.org/abs/2006.11239)

- [Flow Matching for Generative Modeling (arXiv 2210.02747)](https://arxiv.org/abs/2210.02747)

- [VBench: Comprehensive Benchmark Suite for Video Generative Models (arXiv 2311.17982)](https://arxiv.org/abs/2311.17982)

- [OpenAI Sora 紹介ページ](https://openai.com/sora)

- [Runway Research](https://runwayml.com/research)

- [Hugging Face Diffusers ドキュメント](https://huggingface.co/docs/diffusers)