HunyuanVideoとLTX-2の完全分析：オープンソース動画生成モデルのアーキテクチャ・性能・実践ガイド

1. はじめに：AI動画生成の現状とオープンソースの台頭
2. HunyuanVideoの概要
3. HunyuanVideoアーキテクチャの詳細分析
4. HunyuanVideoの学習データと手法
- 4.1 大規模データキュレーションパイプライン
- 4.2 多段階学習戦略
5. HunyuanVideoのモデル仕様と性能
6. HunyuanVideoの実践的な使い方
7. LTX-Videoの概要
8. LTX-2アーキテクチャ分析
9. LTX-2の主要機能
10. LTX-2の実践的な使い方
11. HunyuanVideo vs LTX-2の詳細比較
12. オープンソース動画生成モデルエコシステムの比較
- 12.1 包括的なモデル比較
13. プロンプトエンジニアリングのコツ
14. 今後の展望
- 14.1 動画生成モデルの発展方向
- 14.2 注目すべき技術トレンド
15. References
クイズ

1. はじめに：AI動画生成の現状とオープンソースの台頭

2024年から2025年は、AI動画生成（AI Video Generation）技術が商用化段階に突入した時代であった。OpenAI Sora、Google Veo、Runway Gen-3、Klingなどの商用サービスが次々とリリースされ、「テキストから動画を作る」というコンセプトが現実のものとなった。しかし、これらの商用モデルにはAPIコスト、使用制限、データプライバシーの懸念といった制約がある。

このような背景の中、オープンソース動画生成モデルが急速に成長し、商用モデルに匹敵する品質を達成し始めた。特にTencentのHunyuanVideoとLightricksのLTX-2は、それぞれ異なる設計思想と強みを持つオープンソース動画生成の二大柱を形成している。

[AI動画生成モデルの発展タイムライン]

2024 Q1-Q2          2024 Q3-Q4          2025 Q1-Q2          2025 Q3-Q4          2026 Q1
    |                   |                   |                   |                   |
    v                   v                   v                   v                   v
 Sora Preview       HunyuanVideo        Wan 2.1             HunyuanVideo 1.5    LTX-2 Open
 Runway Gen-3       CogVideoX           LTX-Video 1.0       Wan 2.2 (MoE)      Wan 2.6
 Pika 1.0           Kling 1.0           Mochi 1             LTX-2 Preview      Veo 3.1
                    Mochi Preview                            Sora 2

[オープンソース vs 商用モデルの競争]

商用:         Sora --> Sora 2 --> Veo 3.1 --> Kling 3.5
                 \       \           \           \
                  \       \           \           v
オープンソース: CogVideoX -> HunyuanVideo -> Wan 2.1 -> LTX-2
                 \           \           \           \
                  v           v           v           v
             品質格差:     格差縮小:    同等:       逆転:
             商用が優位    急速な       ベンチマーク 速度/アクセス
                           追い上げ     同等        で優位

本記事では、HunyuanVideoとLTX-2のアーキテクチャを論文に基づいて詳細に分析し、ベンチマーク性能を比較する。さらにWan 2.1、CogVideoX、Mochiを含むオープンソースエコシステム全体の比較と、プロンプトエンジニアリングのコツや実践的な使用ガイドも網羅する。

2. HunyuanVideoの概要

2.1 Tencent研究チーム

HunyuanVideoは、TencentのHunyuan AI研究チームが開発した大規模動画生成モデルである。Tencent Hunyuanチームは、HunyuanDiT（画像生成）やHunyuan3D（3D生成）など、様々な生成AIモデルの開発経験を持ち、その技術的専門知識を活かして動画生成領域に参入した。

Tencent Hunyuanチームの主要な貢献：

モデル	領域	主要特徴
HunyuanDiT	テキストから画像	バイリンガル（中国語/英語）、DiTアーキテクチャ
Hunyuan3D	3D生成	テキスト/画像から3Dモデルを生成
HunyuanVideo	テキスト/画像から動画	13Bパラメータ、最大のオープンソース
HunyuanVideo 1.5	テキスト/画像から動画	8.3B、コンシューマーGPU対応

2.2 最大のオープンソース動画生成モデル

2024年12月にリリースされたHunyuanVideoは13B（130億）パラメータを持ち、リリース時点で最大のオープンソース動画生成モデルであった。これはCogVideoX（5B-10B）やMochi（10B）などの競合モデルを大幅に上回る。

HunyuanVideoの主要スペック：

項目	HunyuanVideo	HunyuanVideo 1.5
パラメータ数	13B	8.3B
リリース日	2024年12月	2025年11月
アーキテクチャ	Dual-to-Single Stream DiT	改良DiT
テキストエンコーダ	MLLM（Decoder-Only）	改良MLLM
VAE	3D Causal VAE	3D Causal VAE（改良版）
学習方法	Flow Matching	Flow Matching
最大解像度	720p（1280x720）	720p
最大フレーム数	129フレーム	129フレーム
ライセンス	Tencent Hunyuan Community	Tencent Hunyuan Community

2.3 Text-to-VideoとImage-to-Videoのサポート

HunyuanVideoは2つのコア機能をサポートする：

Text-to-Video (T2V)： テキストプロンプトのみから高品質な動画を生成する。シーン、アクション、雰囲気を自然言語で記述すると、それに合った動画が生成される。

Image-to-Video (I2V)： 静止画を入力として受け取り、自然な動きを付加した動画に変換する。2025年3月に別途リリースされたHunyuanVideo-I2Vモデルがこの機能を担う。

[HunyuanVideoの入出力パイプライン]

Text-to-Video:
  "A golden retriever running       +----------+     +--------+
   through a sunlit meadow"  -----> | Hunyuan  | --> | Video  |
                                    | Video    |     | Output |
Image-to-Video:                     | Pipeline |     | (MP4)  |
  [入力画像] + プロンプト    -----> |          | --> |        |
                                    +----------+     +--------+
                                         |
                                    MLLM Encoder
                                    3D VAE
                                    DiT Denoiser

3. HunyuanVideoアーキテクチャの詳細分析

HunyuanVideoのアーキテクチャは3つのコアコンポーネントで構成される：(1) MLLMテキストエンコーダ、(2) 3D Causal VAE、(3) Dual-Stream to Single-Stream DiT。

[HunyuanVideo 全体アーキテクチャ図]

                    テキストプロンプト
                         |
                         v
                  +-------------+
                  | MLLM Text   |
                  |   Encoder   |
                  | (Decoder-   |
                  |  Only LLM)  |
                  +------+------+
                         |
                  テキストトークン（双方向リファイナー付き）
                         |
                         v
+--------+    +---------------------+    +--------+
| ガウス  | -> | Dual-Stream to      | -> | 脱ノイズ|
| ノイズ  |    | Single-Stream DiT   |    | 結果   |
+--------+    |                     |    +---+----+
              | [Dualフェーズ]       |        |
              |  - 動画トークン      |        v
              |  - テキストトークン   |  +----------+
              |  (独立処理)          |  | 3D VAE   |
              |                     |  | Decoder  |
              | [Singleフェーズ]     |  +----+-----+
              |  - 結合 & 融合       |       |
              +---------------------+       v
                                      最終動画

3.1 Dual-Stream to Single-Stream DiT設計

HunyuanVideoの最も特徴的なアーキテクチャ要素は、その**「Dual-Stream to Single-Stream」**Diffusion Transformer（DiT）設計である。これは既存のDiTモデルとの差別化を図る中核的な設計思想である。

Dual-Streamフェーズ（前半のレイヤー）：

Dual-Streamフェーズでは、動画トークンとテキストトークンが独立したTransformerブロックで処理される。各モダリティが互いに干渉することなく、それぞれに適切な変調メカニズムを学習できる。

# Dual-Streamフェーズの疑似コード
class DualStreamBlock(nn.Module):
    def __init__(self, dim, num_heads):
        self.video_attn = MultiHeadAttention(dim, num_heads)
        self.text_attn = MultiHeadAttention(dim, num_heads)
        self.video_ffn = FeedForward(dim)
        self.text_ffn = FeedForward(dim)
        self.video_norm = AdaLayerNorm(dim)
        self.text_norm = AdaLayerNorm(dim)

    def forward(self, video_tokens, text_tokens, timestep):
        # 独立した動画トークン処理
        video_tokens = self.video_norm(video_tokens, timestep)
        video_tokens = video_tokens + self.video_attn(video_tokens)
        video_tokens = video_tokens + self.video_ffn(video_tokens)

        # 独立したテキストトークン処理
        text_tokens = self.text_norm(text_tokens, timestep)
        text_tokens = text_tokens + self.text_attn(text_tokens)
        text_tokens = text_tokens + self.text_ffn(text_tokens)

        return video_tokens, text_tokens

Single-Streamフェーズ（後半のレイヤー）：

Single-Streamフェーズでは、動画トークンとテキストトークンが結合され、単一のTransformerブロックで一緒に処理される。これにより効果的なマルチモーダル情報融合が実現する。

# Single-Streamフェーズの疑似コード
class SingleStreamBlock(nn.Module):
    def __init__(self, dim, num_heads):
        self.attn = MultiHeadAttention(dim, num_heads)
        self.ffn = FeedForward(dim)
        self.norm = AdaLayerNorm(dim)

    def forward(self, video_tokens, text_tokens, timestep):
        # 動画 + テキストトークンを結合
        combined = torch.cat([video_tokens, text_tokens], dim=1)

        # 統合処理（Full Attention）
        combined = self.norm(combined, timestep)
        combined = combined + self.attn(combined)
        combined = combined + self.ffn(combined)

        # 分割して返却
        video_out = combined[:, :video_tokens.shape[1]]
        text_out = combined[:, video_tokens.shape[1]:]

        return video_out, text_out

Dual-to-Single設計の利点：

特性	Dual-Streamのみ	Single-Streamのみ	Dual-to-Single（HunyuanVideo）
モダリティ別学習	優秀	限定的	優秀（前半フェーズ）
クロスモーダル融合	弱い	強い	強い（後半フェーズ）
計算効率	高い	中程度	高い
テキスト-動画アライメント	低い	高い	高い
モデルの柔軟性	高い	低い	非常に高い

3.2 3D VAE (Causal VAE) - 時空間圧縮

HunyuanVideoは3D Causal VAEを使用して、ピクセル空間の動画をコンパクトな潜在空間に圧縮する。このVAEはCausalConv3D上に構築され、時間的・空間的情報を効率的に圧縮する。

圧縮比：

次元	比率	説明
時間	4倍	129フレーム → 33潜在フレーム
空間	8x x 8x	720x1280 → 90x160
チャネル	3ch → 16ch	RGB 3ch → 潜在16ch

全体的な圧縮効果：

入力動画:     720 x 1280 x 129フレーム x 3チャネル
              = ~3億5,600万要素

潜在表現:     90 x 160 x 33 x 16チャネル
              = ~760万要素

圧縮比:       ~47:1（要素数ベース）

Causal VAEの特性：

Causal VAEは設計上、時間的因果性を維持する。つまり各フレームは前のフレームの情報のみを参照してエンコードされる。これにより画像と動画を同一のVAEで処理できる。最初のフレームは時間圧縮なしの画像として扱われ、以降のフレームは前のフレームとの関係を考慮した時間圧縮が適用される。

3.3 MLLMテキストエンコーダ

HunyuanVideoのもう一つのイノベーションは、テキストエンコーダとして**マルチモーダル大規模言語モデル（MLLM）**を採用したことである。これは既存の動画/画像生成モデルが主にCLIPやT5をテキストエンコーダとして使用していることとは対照的である。

既存テキストエンコーダとの比較：

特性	CLIP	T5-XXL	MLLM（HunyuanVideo）
アーキテクチャ	Encoder-Only	Encoder-Decoder	Decoder-Only
パラメータ数	~400M	~4.7B	数百億
画像-テキスト整合	優秀	中程度	非常に優秀
詳細理解	限定的	優秀	非常に優秀
複雑な推論	弱い	中程度	強い
ゼロショット能力	限定的	中程度	優秀
アテンション型	因果的	双方向	因果的 + リファイナー

双方向トークンリファイナー：

MLLMはDecoder-Only構造のため本質的に因果的アテンションを使用するが、拡散モデルのテキスト条件付けとしては双方向アテンションがより効果的である。この問題を解決するため、HunyuanVideoは追加の双方向トークンリファイナーを導入している。

[テキストエンコーディングパイプライン]

テキストプロンプト
     |
     v
+----------+     +--------------+     +------------------+
| MLLM     | --> | 双方向       | --> | 最終テキスト     |
| (因果的  |     | トークン     |     | 埋め込み         |
|  Attn)   |     | リファイナー |     | (DiT条件)        |
+----------+     +--------------+     +------------------+
  豊かな          双方向の              拡散に最適化された
  セマンティクス  コンテキスト強化      テキスト表現

3.4 Flow Matching学習方法

HunyuanVideoは従来のDDPM（Denoising Diffusion Probabilistic Model）の代わりにFlow Matchingを採用している。Flow Matchingはデータとノイズの分布間の最適輸送パスを学習する。

DDPM vs Flow Matching：

特性	DDPM	Flow Matching
ノイズスケジュール	事前定義が必要	柔軟な設計
学習対象	ノイズ予測	ベクトル場予測
収束	遅い	速い
推論パス	曲線的	直線的（効率的）
サンプリングステップ	多い（20-50）	少ない（20-30）

# Flow Matching学習の疑似コード
def flow_matching_loss(model, x_0, text_cond):
    """
    x_0: 元の動画潜在表現
    text_cond: テキスト条件
    """
    # ランダムな時間ステップのサンプリング
    t = torch.rand(x_0.shape[0], device=x_0.device)

    # ノイズのサンプリング
    noise = torch.randn_like(x_0)

    # 線形補間による中間状態
    x_t = (1 - t) * x_0 + t * noise

    # 目標ベクトル場: ノイズの方向
    target = noise - x_0

    # モデルのベクトル場予測
    predicted = model(x_t, t, text_cond)

    # ロス計算
    loss = F.mse_loss(predicted, target)
    return loss

3.5 統一画像-動画学習戦略

HunyuanVideoは画像と動画を統一フレームワーク内で学習する。画像は単一フレームの動画として扱われ、同じモデルアーキテクチャで処理される。

3.6 Full Attentionメカニズム

HunyuanVideoは時間次元と空間次元の両方にわたってFull Attentionを適用する。これは多くの動画生成モデルが計算量削減のために空間アテンションと時間アテンションを分離しているのとは対照的である。

アテンション型	説明	採用モデル例
空間のみ	空間次元のみ	初期の動画モデル
時間のみ	時間次元のみ	AnimateDiff
空間 + 時間（分割）	交互に適用	CogVideoX
Full 3Dアテンション	完全な時空間アテンション	HunyuanVideo

Full Attentionにより、動画内のすべてのトークンが他のすべてのトークンと時空間的に相互作用でき、より一貫した動きと高い視覚品質を実現するが、計算コストが大幅に増加するというトレードオフがある。

4. HunyuanVideoの学習データと手法

4.1 大規模データキュレーションパイプライン

HunyuanVideoの学習データは、生データから最終学習データまで複数段階のフィルタリングと評価を含む体系的なキュレーションパイプラインを通じて準備される。

4.2 多段階学習戦略

HunyuanVideoは**段階的学習（Progressive Training）**戦略を採用し、低解像度から始めて徐々に解像度を上げていく。

学習ステージの設定：

ステージ	解像度	フレーム数	バッチサイズ	主要目標
ステージ1	256x256	17	大	基本的な視覚概念
ステージ2	512x512	33	中	詳細の学習
ステージ3	960x544 / 544x960	65	小	高解像度への適応
ステージ4	1280x720 / 720x1280	129	非常に小	最終品質のファインチューニング

5. HunyuanVideoのモデル仕様と性能

5.1 対応解像度とフレーム数

解像度	アスペクト比	用途
1280 x 720	16:9	横型HD
720 x 1280	9:16	縦型（モバイル）
960 x 544	~16:9	中解像度
544 x 960	~9:16	中解像度縦型
720 x 720	1:1	正方形

フレーム設定：

設定	値	備考
最大フレーム数	129フレーム	4x VAE圧縮後33潜在フレーム
FPS	24 fps	標準的な映画フレームレート
動画長さ	~5.4秒	129 / 24 = 5.375秒

5.2 ベンチマーク比較

VBench評価結果：

モデル	総合	視覚品質	テキスト整合	動き品質	人物忠実度
HunyuanVideo	トップクラス	96.4%	68.5%	64.5%	優秀
Sora	トップクラス	優秀	中程度	優秀	非常に優秀
CogVideoX-1.5	上位	優秀	優秀	中程度	弱い
Kling 1.6	トップクラス	優秀	優秀	優秀	優秀

HunyuanVideoは特に人物忠実度と動きの合理性の次元で強い結果を示している。

5.3 競合モデルとの比較

比較項目	HunyuanVideo	Sora 2	Runway Gen-3	Kling 3.5
アクセス	オープンソース	商用	商用	商用
パラメータ数	13B	非公開	非公開	非公開
最大解像度	720p	1080p	1080p	1080p
最大長さ	~5秒	最大20秒	最大10秒	最大10秒
ローカル実行	可能	不可	不可	不可
カスタマイズ	LoRA対応	不可	限定的	不可
コスト	無料（GPU必要）	API課金	サブスクリプション	API課金

6. HunyuanVideoの実践的な使い方

6.1 HuggingFaceモデルのダウンロード

# HunyuanVideoオリジナルモデル（13B）
pip install huggingface_hub
huggingface-cli download tencent/HunyuanVideo --local-dir ./HunyuanVideo

# HunyuanVideo 1.5（8.3B、軽量版）
huggingface-cli download tencent/HunyuanVideo-1.5 --local-dir ./HunyuanVideo-1.5

# Image-to-Videoモデル
huggingface-cli download tencent/HunyuanVideo-I2V --local-dir ./HunyuanVideo-I2V

6.2 Diffusersライブラリでの推論コード

基本的なText-to-Video推論：

import torch
from diffusers import HunyuanVideoPipeline, HunyuanVideoTransformer3DModel
from diffusers.utils import export_to_video

# モデルのロード
model_id = "tencent/HunyuanVideo"
transformer = HunyuanVideoTransformer3DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    torch_dtype=torch.bfloat16,
)
pipe = HunyuanVideoPipeline.from_pretrained(
    model_id,
    transformer=transformer,
    torch_dtype=torch.float16,
)
pipe.vae.enable_tiling()
pipe.to("cuda")

# 動画生成
output = pipe(
    prompt="A cat walks on the grass, realistic style, natural lighting",
    height=720,
    width=1280,
    num_frames=129,
    num_inference_steps=30,
    guidance_scale=6.0,
).frames[0]

# 動画の保存
export_to_video(output, "hunyuan_output.mp4", fps=24)

4bit量子化によるVRAM節約：

import torch
from diffusers import HunyuanVideoPipeline, HunyuanVideoTransformer3DModel
from diffusers.utils import export_to_video
from transformers import BitsAndBytesConfig

# INT4量子化設定
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
)

# 量子化されたTransformerのロード
transformer = HunyuanVideoTransformer3DModel.from_pretrained(
    "tencent/HunyuanVideo",
    subfolder="transformer",
    quantization_config=quant_config,
)

pipe = HunyuanVideoPipeline.from_pretrained(
    "tencent/HunyuanVideo",
    transformer=transformer,
    torch_dtype=torch.float16,
)
pipe.vae.enable_tiling()

# 追加のVRAM節約のためのCPUオフロード
pipe.enable_model_cpu_offload()

output = pipe(
    prompt="A beautiful sunset over the ocean, cinematic",
    height=544,
    width=960,
    num_frames=65,
    num_inference_steps=30,
    guidance_scale=6.0,
).frames[0]

export_to_video(output, "quantized_output.mp4", fps=24)

6.3 主要パラメータガイド

パラメータ	デフォルト	範囲	説明
`guidance_scale`	6.0	1.0-15.0	プロンプト忠実度（高い = より忠実）
`num_inference_steps`	30	20-50	脱ノイズステップ数（高い = 高品質だが遅い）
`height`	720	256-720	動画の高さ（8の倍数）
`width`	1280	256-1280	動画の幅（8の倍数）
`num_frames`	129	17-129	総フレーム数（`4k+1`形式推奨）
`seed`	ランダム	整数	再現性のためのシード値

6.4 GPU VRAM要件

構成	必要VRAM	解像度	備考
FP32（オリジナル）	80GB以上	720p 129f	A100/H100が必要
BF16/FP16	~40GB	720p 129f	A100 40GB
FP8量子化	~24-30GB	720p 129f	RTX 4090対応
INT4量子化 + CPUオフロード	~14-16GB	544p 65f	RTX 4080対応
HunyuanVideo 1.5 (FP8)	~14GB	480p	コンシューマーGPU

6.5 LoRAファインチューニング

HunyuanVideoは特定のスタイル、キャラクター、動きパターンを学習するためのLoRAファインチューニングをサポートしている。

主要なLoRA学習ツール：

ツール	特徴	最小VRAM
Musubi Tuner (kohya-ss)	最も人気のLoRA学習ツール	24GB
ai-toolkit (ostris)	マルチモデル対応	24GB
diffusion-pipe (tdrussell)	パイプラインベースの学習	24GB
FineTrainers (HuggingFace)	公式Diffusersベースツール	24GB
fal.ai LoRA Training	クラウドベース、セットアップ不要	クラウド

7. LTX-Videoの概要

7.1 Lightricks社

Lightricksはイスラエルのエルサレムに本社を置くAIベースのクリエイティブテクノロジー企業である。2013年に設立され、Facetune、Videoleap、Photoleapなどのコンシューマー向け写真/動画編集アプリで広く知られている。モバイルクリエイティブツールでの経験を活かし、AI動画生成分野に参入した。

7.2 LTX-Video 1.0からLTX-2への進化

バージョン	リリース	パラメータ	主要特徴
LTX-Video 0.9	2024年11月	~2B	初のオープンソース、リアルタイム
LTX-Video 0.9.8 (13B)	2025年中期	13B	蒸留版、品質向上
LTX-2	2025年10月	19B	音声+動画の同時生成
LTX-2（オープンソース）	2026年1月	19B	全重み/コードを公開

7.3 ほぼリアルタイムの動画生成速度

LTX-Videoシリーズの最大の差別化要因はそのリアルタイムより速い動画生成速度である。LTX-VideoはDiTベースの動画生成モデルとして初めてリアルタイム生成を達成したモデルの一つである。

[生成速度の比較（5秒の動画）]

モデル              生成時間     リアルタイム比
LTX-Video 1.0:    ~2秒         2.5倍速い
LTX-2:            ~3-5秒       ~リアルタイム
HunyuanVideo:     ~2-5分       60倍遅い
CogVideoX:        ~3-8分       100倍遅い
Mochi:            ~5-10分      120倍遅い

（H100 GPU、768x512解像度）

7.4 Text-to-VideoとImage-to-Videoのサポート

LTX-2はText-to-VideoとImage-to-Videoに加えて、音声と動画の同時生成を提供する。

機能	LTX-Video 1.0	LTX-2
Text-to-Video	対応	対応
Image-to-Video	対応	対応
音声生成	非対応	同期音声の同時生成
4K解像度	非対応	ネイティブ4K（3840x2160）
50fps	非対応	対応
キーフレーム条件付け	限定的	完全対応

8. LTX-2アーキテクチャ分析

8.1 全体アーキテクチャ

LTX-2は3つのコアコンポーネントで構成される：(1) モダリティ固有VAE、(2) テキスト埋め込みパイプライン、(3) 非対称デュアルストリームDiT。

[LTX-2 全体アーキテクチャ]

テキストプロンプト
     |
     v
+-------------+
| Text Encoder |  (Gemmaベース)
| + Prompt     |
|   Enhancer   |
+------+------+
       |
       v
+------------------------------------------+
|        非対称デュアルストリームDiT          |
|                                          |
|  +------------------+  +-------------+   |
|  | 動画ストリーム    |  | 音声ストリーム|  |
|  | (広いチャネル、   |  | (狭い、     |   |
|  |  高容量)          |  |  軽量)      |   |
|  +--------+---------+  +------+------+   |
|           |      Cross-Attention  |       |
|           +----------+-----------+       |
+------------------------------------------+
       |                    |
       v                    v
+-------------+      +-------------+
| Video VAE   |      | Audio VAE   |
| Decoder     |      | Decoder     |
| (3D時空間)  |      | (1D時間)    |
+------+------+      +------+------+
       |                    |
       v                    v
   動画出力             音声出力
       |                    |
       +--------+-----------+
                |
                v
         最終AV出力（MP4）

8.2 Video VAE（高圧縮比 - 1:192）

LTX-2のVideo VAEは1:192という非常に高い圧縮比を実現する。これはHunyuanVideoの~47:1の比率の約4倍に相当する。

VAE圧縮比の比較：

モデル	空間	時間	潜在Ch	全体比率
LTX-2	32x32	8x	128ch	1:192
HunyuanVideo	8x8	4x	16ch	~1:47
CogVideoX	8x8	4x	16ch	~1:47
Wan 2.1	8x8	4x	16ch	~1:47

高い圧縮比は以下の利点をもたらす：

潜在トークンの削減：DiTが処理すべきトークン数を大幅に削減し、推論速度を向上
メモリ効率：より少ないVRAMで高解像度動画の処理が可能
学習の高速化：学習時の計算量を削減

8.3 非対称デュアルストリームDiT

LTX-2のDiTは、動画と音声のモダリティの特性の違いを反映した非対称デュアルストリーム構造を採用している。

非対称設計の根拠：

特性	動画ストリーム	音声ストリーム
次元	3D（空間 + 時間）	1D（時間）
複雑さ	高い（時空間）	中程度（時間）
チャネル幅	広い（高容量）	狭い（軽量）
位置埋め込み	3D位置	1D時間
データ特性	ピクセルベースの視覚	周波数ベースの音声

8.4 テキストエンコーダ

LTX-2はGemmaベースのテキストエンコーダを使用する。enhance_prompt機能により、シンプルなユーザープロンプトを自動的に拡張して、より良い結果を得ることができる。

8.5 速度最適化技術

最適化手法	説明	速度向上
高VAE圧縮	潜在トークン数を大幅に削減	主要因
蒸留推論	8ステップ蒸留モデルが利用可能	5-10倍
FP8 Transformer	量子化された重み	~2倍
2段階パイプライン	ステージ1（生成）+ ステージ2（拡大）	効率的
勾配推定	40ステップ → 20-30ステップに削減	~1.5倍

9. LTX-2の主要機能

9.1 リアルタイム生成速度

解像度	フレーム数	長さ	生成時間（H100）	リアルタイム比
768x512	121	5秒	~2秒	2.5倍速い
1216x704	121	5秒	~5秒	~リアルタイム
1920x1080	121	5秒	~15秒	3倍遅い
3840x2160	121	5秒	~60秒	12倍遅い

9.2 高解像度と多様な出力オプション

対応解像度：

解像度	アスペクト	用途	必要VRAM
768 x 512	3:2	高速プロトタイピング	~8-12GB
1216 x 704	~16:9	標準制作	~16GB
1920 x 1080	16:9	フルHD	~24GB
3840 x 2160	16:9	4K UHD	48GB以上

9.3 同期音声-動画生成

LTX-2の革新的な機能の一つは、音声と動画を同時に生成することである。別途の音声生成モデルなしに、動画の内容に合った音声が自動的に生成される。

9.4 キーフレーム条件付け

LTX-2はキーフレーム条件付けをサポートしており、特定のフレームを指定してその間を自然に補間できる。

9.5 LoRAサポート

LTX-2はLoRAの学習と推論を公式にサポートしており、GitHubリポジトリに学習コードが含まれている。

10. LTX-2の実践的な使い方

10.1 インストールと環境構築

# 1. Python環境（3.10以上を推奨）
conda create -n ltx2 python=3.10
conda activate ltx2

# 2. 公式LTX-2パッケージのインストール
pip install ltx-pipelines

# 3. またはソースからインストール
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
pip install -e "packages/ltx-pipelines[all]"
pip install -e "packages/ltx-core[all]"

# 4. モデル重みのダウンロード
huggingface-cli download Lightricks/LTX-2 --local-dir ./models/ltx2

10.2 Python推論コード例

Text-to-Videoの基本例：

from ltx_pipelines import TI2VidTwoStagesPipeline

# パイプラインの初期化
pipe = TI2VidTwoStagesPipeline.from_pretrained(
    "Lightricks/LTX-2",
    device_map="auto",
    enable_fp8=True,  # FP8でVRAM節約
)

# 動画生成
result = pipe(
    prompt="A serene mountain lake at sunrise, mist rising from the water, "
           "birds flying overhead, cinematic quality",
    negative_prompt="blurry, low quality, distorted",
    height=704,
    width=1216,
    num_frames=121,
    frame_rate=24,
    num_inference_steps=30,
    cfg_guidance_scale=7.5,
    seed=42,
    enhance_prompt=True,  # 自動プロンプト拡張
)

# 保存
result.save("ltx2_output.mp4")

Image-to-Videoの例：

from ltx_pipelines import TI2VidTwoStagesPipeline
from PIL import Image

pipe = TI2VidTwoStagesPipeline.from_pretrained(
    "Lightricks/LTX-2",
    device_map="auto",
    enable_fp8=True,
)

# 入力画像のロード
input_image = Image.open("input_photo.jpg")

# I2V生成
result = pipe(
    prompt="The scene comes alive with gentle wind blowing through the trees",
    images=[input_image],
    height=704,
    width=1216,
    num_frames=121,
    frame_rate=24,
    num_inference_steps=30,
    cfg_guidance_scale=7.5,
    seed=42,
)

result.save("ltx2_i2v_output.mp4")

10.3 主要パラメータ

パラメータ	デフォルト	範囲	説明
`prompt`	必須	文字列	動画の説明
`negative_prompt`	なし	文字列	除外する要素
`height`	704	32の倍数	動画の高さ
`width`	1216	32の倍数	動画の幅
`num_frames`	121	`8k+1`形式	総フレーム数
`frame_rate`	24	24/30/50	フレーム毎秒
`num_inference_steps`	30	8-50	脱ノイズステップ数
`cfg_guidance_scale`	7.5	1.0-15.0	プロンプト忠実度
`seed`	ランダム	整数	再現性シード
`enhance_prompt`	False	True/False	自動プロンプト拡張
`enable_fp8`	False	True/False	FP8量子化の使用

10.4 GPU要件

GPU	VRAM	推奨解像度	備考
RTX 3060/4060	8-12GB	540p、4秒	FP8必須、基本的
RTX 3080/4070 Ti	12-16GB	768x512、5秒	FP8推奨
RTX 4090	24GB	1080p、5秒	標準的な使用
A100	40-80GB	4K、10秒	プロダクション
H100	80GB	4K、10秒	最適なパフォーマンス

11. HunyuanVideo vs LTX-2の詳細比較

11.1 アーキテクチャ比較

項目	HunyuanVideo	LTX-2
パラメータ数	13B (v1) / 8.3B (v1.5)	19B
DiT構造	Dual-to-Single Stream	非対称デュアルストリーム
VAE構造	3D Causal VAE	Video VAE + Audio VAE
VAE比率	~1:47	1:192
空間圧縮	8x8	32x32
時間圧縮	4x	8x
潜在Ch	16	128
テキストエンコーダ	MLLM（Decoder-Only）	Gemma
学習方法	Flow Matching	Diffusion（Flowベース）
アテンション	Full 3Dアテンション	双方向Cross-Attn

11.2 性能と品質の比較

比較項目	HunyuanVideo	LTX-2	勝者
視覚品質	非常に高い	高い	HunyuanVideo
動きの自然さ	非常に高い	高い	HunyuanVideo
テキスト整合	高い	高い	同等
人物生成	優秀	良好	HunyuanVideo
最大解像度	720p	4K	LTX-2
音声生成	非対応	同期生成	LTX-2
フレームレート	24fps	最大50fps	LTX-2

11.3 速度比較

条件	HunyuanVideo	LTX-2	差異
768x512、5秒（H100）	~120秒	~3秒	LTX-2が~40倍速い
1280x720、5秒（H100）	~300秒	~10秒	LTX-2が~30倍速い
1280x720、5秒（RTX 4090）	~600秒	~30秒	LTX-2が~20倍速い

11.4 ユースケース別モデル選択ガイド

[シナリオ別推奨モデル]

「最高品質の動画が必要」
  --> HunyuanVideo（v1、13B）
  理由: Full Attention + 13Bで最高の視覚品質

「コンシューマーGPUでローカル実行したい」
  --> LTX-2（FP8）またはHunyuanVideo 1.5
  理由: LTX-2は12GBで動作、HV 1.5は14GBで動作

「高速な反復作業が必要」
  --> LTX-2（蒸留版）
  理由: ほぼリアルタイムの生成速度

「音声付きの動画が必要」
  --> LTX-2
  理由: 音声-動画の同時生成が可能な唯一のモデル

「特定のキャラクター/スタイルを学習したい」
  --> HunyuanVideo + LoRA
  理由: 豊富なLoRAエコシステム

「4K高解像度が必要」
  --> LTX-2
  理由: ネイティブ4Kサポート

「人物/顔の生成が重要」
  --> HunyuanVideo
  理由: 優秀なHuman Fidelityベンチマーク

12. オープンソース動画生成モデルエコシステムの比較

12.1 包括的なモデル比較

項目	HunyuanVideo	LTX-2	Wan 2.1	CogVideoX	Mochi 1
開発者	Tencent	Lightricks	Alibaba	Zhipu/清華大学	Genmo
パラメータ数	13B	19B	1.3B / 14B	5B / 10B	10B
最大解像度	720p	4K	720p	720p	480p
最大長さ	~5秒	~10秒	~5秒	~6秒	~5.4秒
最大FPS	24	50	24	30	30
VAE比率	1:47	1:192	1:47	1:47	1:12
音声	非対応	対応	V2A別モデル	非対応	非対応
最小VRAM	14GB (v1.5)	8-12GB	8GB (1.3B)	4.4GB (INT8)	20GB (ComfyUI)
速度	遅い	非常に速い	中程度	中程度	遅い
I2V対応	別モデル	統合	統合	対応	非対応
LoRA	対応	対応	対応	対応	限定的

13. プロンプトエンジニアリングのコツ

13.1 効果的な動画プロンプトの書き方

プロンプト構造（SAECフレームワーク）：

[Subject] + [Action] + [Environment] + [Camera/Cinematography]

S（Subject）:      主体 - 何が/誰がメインか
A（Action）:       動作 - 何が起きているか
E（Environment）:  環境 - どこで、どんな雰囲気か
C（Camera）:       カメラ - どう撮影されているか

良いプロンプト vs 悪いプロンプト：

タイプ	プロンプト	問題点/強み
悪い	"A nice video of nature"	曖昧すぎる
普通	"A dog running in a park"	具体性が不十分
良い	"A golden retriever running through a sunlit meadow, wildflowers swaying, warm golden hour lighting"	具体的 + 環境描写
優秀	"Medium tracking shot of a golden retriever running joyfully through a sunlit meadow, wildflowers swaying gently in the breeze, warm golden hour lighting, shallow depth of field, 35mm cinematic lens, natural color grading"	SAECの完全適用

13.2 映像撮影用語

カメラの動き：

用語	説明	例
Pan	水平回転	"Slow pan across the landscape"
Tilt	垂直回転	"Tilt up to reveal the building"
Dolly	前後移動	"Dolly in on the subject's face"
Tracking Shot	追従撮影	"Tracking shot following the car"
Crane Shot	クレーン	"Crane shot rising above the city"
Static	固定	"Static shot of the waterfall"
Handheld	手持ち	"Handheld camera, documentary style"

13.3 ネガティブプロンプトの使い方

汎用ネガティブプロンプトテンプレート：

# 基本的な品質制御
"blurry, low quality, distorted, deformed, ugly, bad anatomy,
watermark, text overlay, logo, grainy, noisy"

# 人物生成時の追加
"extra fingers, mutated hands, poorly drawn hands, poorly drawn face,
mutation, deformed, extra limbs, missing limbs"

モデル別ネガティブプロンプト対応：

モデル	ネガティブプロンプト	推奨事項
HunyuanVideo	公式サポートなし	代わりにguidance_scaleを使用
LTX-2	対応	積極的な使用を推奨
Wan 2.1	対応	積極的な使用を推奨
CogVideoX	対応	積極的な使用を推奨

14. 今後の展望

14.1 動画生成モデルの発展方向

主要な発展方向：

方向性	現状	予想される発展
動画の長さ	5-10秒	分単位への拡大
解像度	720p-4K	8K、HDR対応
物理精度	基本的	精密な物理シミュレーション
キャラクター一貫性	限定的	マルチショットナラティブ
生成速度	リアルタイム〜分	リアルタイムストリーミング
マルチモーダル	AV初期段階	AV + 字幕 + 音声
編集	基本的	AIベースの自動編集
インタラクション	なし	リアルタイムインタラクティブ

14.2 注目すべき技術トレンド

MoEアーキテクチャ：Wan 2.2で導入され、モデル効率を大幅に向上
蒸留技術：大規模モデルの知識を小規模モデルに転移して高速化
マルチモーダル統合：動画 + 音声 + テキストの完全な統合生成
LoRAエコシステムの成長：コミュニティ主導の特化型モデルの爆発的増加
エッジデバイス展開：モバイル/エッジデバイスでの動画生成の可能性

15. References

論文

論文	著者	リンク
HunyuanVideo: A Systematic Framework For Large Video Generative Models	Tencent Hunyuan Team	arXiv:2412.03603
HunyuanVideo 1.5 Technical Report	Tencent Hunyuan Team	arXiv:2511.18870
LTX-Video: Realtime Video Latent Diffusion	Lightricks Research	arXiv:2501.00103
LTX-2: Efficient Joint Audio-Visual Foundation Model	Lightricks Research	arXiv:2601.03233

GitHubリポジトリ

リポジトリ	説明	リンク
Tencent-Hunyuan/HunyuanVideo	HunyuanVideo公式リポジトリ	GitHub
Tencent-Hunyuan/HunyuanVideo-1.5	HunyuanVideo 1.5公式リポジトリ	GitHub
Lightricks/LTX-2	LTX-2公式リポジトリ	GitHub
Lightricks/ComfyUI-LTXVideo	LTX ComfyUI統合	GitHub
kohya-ss/musubi-tuner	HunyuanVideo LoRA学習ツール	GitHub
Wan-Video/Wan2.1	Wan 2.1公式リポジトリ	GitHub
zai-org/CogVideo	CogVideoXリポジトリ	GitHub
genmoai/mochi	Mochi 1リポジトリ	GitHub

HuggingFaceモデルページ

モデル	リンク
tencent/HunyuanVideo	HuggingFace
tencent/HunyuanVideo-1.5	HuggingFace
tencent/HunyuanVideo-I2V	HuggingFace
Lightricks/LTX-2	HuggingFace
Lightricks/LTX-Video	HuggingFace
Wan-AI/Wan2.1-T2V-14B	HuggingFace

Diffusersドキュメント

ドキュメント	リンク
HunyuanVideo Pipeline	Diffusers Docs
HunyuanVideo 1.5 Pipeline	Diffusers Docs
LTX-Video Pipeline	Diffusers Docs

その他リソース

リソース	説明	リンク
VBench	動画生成ベンチマーク	GitHub
VBench-2.0 Paper	拡張ベンチマーク	arXiv:2503.21755
ComfyUI HunyuanVideo Tutorial	ComfyUI使用ガイド	Docs
ComfyUI LTX-2 Guide	LTX-2 ComfyUIガイド	Docs
LTX-2 System Requirements	公式HWガイド	Docs
NVIDIA LTX-2 Guide	RTX GPUガイド	NVIDIA

クイズ

Q1: 「HunyuanVideoとLTX-2の完全分析：オープンソース動画生成モデルのアーキテクチャ・性能・実践ガイド」の主なトピックは何ですか？

Tencent HunyuanVideo（13B）とLightricks LTX-2（19B）のアーキテクチャ、学習手法、性能ベンチマークを詳細に分析。Wan 2.1、CogVideoX、Mochiを含むオープンソース動画生成エコシステムの包括的比較と実践的な使用ガイド。

Q2: HunyuanVideoアーキテクチャの詳細分析について説明してください。

HunyuanVideoのアーキテクチャは3つのコアコンポーネントで構成される：(1) MLLMテキストエンコーダ、(2) 3D Causal VAE、(3) Dual-Stream to Single-Stream DiT。 3.1 Dual-Stream to Single-Stream DiT設計 HunyuanVideoの最も特徴的なアーキテクチャ要素は、その「Dual-Stream to Single-Stream」Diffusion Transformer（DiT）設計である。これは既存のDiTモデルとの差別化を図る中核的な設計思想である。

Q3: HunyuanVideoの学習データと手法の核心的な概念を説明してください。

4.1 大規模データキュレーションパイプライン HunyuanVideoの学習データは、生データから最終学習データまで複数段階のフィルタリングと評価を含む体系的なキュレーションパイプラインを通じて準備される。 4.2 多段階学習戦略 HunyuanVideoは段階的学習（Progressive Training）戦略を採用し、低解像度から始めて徐々に解像度を上げていく。学習ステージの設定：

Q4: HunyuanVideoのモデル仕様と性能の主な特徴は何ですか？

5.1 対応解像度とフレーム数フレーム設定： 5.2 ベンチマーク比較 VBench評価結果： HunyuanVideoは特に人物忠実度と動きの合理性の次元で強い結果を示している。 5.3 競合モデルとの比較

Q5: HunyuanVideoの実践的な使い方はどのように機能しますか？

6.1 HuggingFaceモデルのダウンロード 6.2 Diffusersライブラリでの推論コード基本的なText-to-Video推論： 4bit量子化によるVRAM節約： 6.3 主要パラメータガイド 6.4 GPU VRAM要件 6.5 LoRAファインチューニング HunyuanVideoは特定のスタイル、キャラクター、動きパターンを学習するためのLoRAファインチューニングをサポートしている。主要なLoRA学習ツール：