- Authors
- Name
- 1. はじめに:AI動画生成の現状とオープンソースの台頭
- 2. HunyuanVideoの概要
- 3. HunyuanVideoアーキテクチャの詳細分析
- 4. HunyuanVideoの学習データと手法
- 5. HunyuanVideoのモデル仕様と性能
- 6. HunyuanVideoの実践的な使い方
- 7. LTX-Videoの概要
- 8. LTX-2アーキテクチャ分析
- 9. LTX-2の主要機能
- 10. LTX-2の実践的な使い方
- 11. HunyuanVideo vs LTX-2の詳細比較
- 12. オープンソース動画生成モデルエコシステムの比較
- 13. プロンプトエンジニアリングのコツ
- 14. 今後の展望
- 15. References
- クイズ
1. はじめに:AI動画生成の現状とオープンソースの台頭
2024年から2025年は、AI動画生成(AI Video Generation)技術が商用化段階に突入した時代であった。OpenAI Sora、Google Veo、Runway Gen-3、Klingなどの商用サービスが次々とリリースされ、「テキストから動画を作る」というコンセプトが現実のものとなった。しかし、これらの商用モデルにはAPIコスト、使用制限、データプライバシーの懸念といった制約がある。
このような背景の中、オープンソース動画生成モデルが急速に成長し、商用モデルに匹敵する品質を達成し始めた。特にTencentのHunyuanVideoとLightricksのLTX-2は、それぞれ異なる設計思想と強みを持つオープンソース動画生成の二大柱を形成している。
[AI動画生成モデルの発展タイムライン]
2024 Q1-Q2 2024 Q3-Q4 2025 Q1-Q2 2025 Q3-Q4 2026 Q1
| | | | |
v v v v v
Sora Preview HunyuanVideo Wan 2.1 HunyuanVideo 1.5 LTX-2 Open
Runway Gen-3 CogVideoX LTX-Video 1.0 Wan 2.2 (MoE) Wan 2.6
Pika 1.0 Kling 1.0 Mochi 1 LTX-2 Preview Veo 3.1
Mochi Preview Sora 2
[オープンソース vs 商用モデルの競争]
商用: Sora --> Sora 2 --> Veo 3.1 --> Kling 3.5
\ \ \ \
\ \ \ v
オープンソース: CogVideoX -> HunyuanVideo -> Wan 2.1 -> LTX-2
\ \ \ \
v v v v
品質格差: 格差縮小: 同等: 逆転:
商用が優位 急速な ベンチマーク 速度/アクセス
追い上げ 同等 で優位
本記事では、HunyuanVideoとLTX-2のアーキテクチャを論文に基づいて詳細に分析し、ベンチマーク性能を比較する。さらにWan 2.1、CogVideoX、Mochiを含むオープンソースエコシステム全体の比較と、プロンプトエンジニアリングのコツや実践的な使用ガイドも網羅する。
2. HunyuanVideoの概要
2.1 Tencent研究チーム
HunyuanVideoは、TencentのHunyuan AI研究チームが開発した大規模動画生成モデルである。Tencent Hunyuanチームは、HunyuanDiT(画像生成)やHunyuan3D(3D生成)など、様々な生成AIモデルの開発経験を持ち、その技術的専門知識を活かして動画生成領域に参入した。
Tencent Hunyuanチームの主要な貢献:
| モデル | 領域 | 主要特徴 |
|---|---|---|
| HunyuanDiT | テキストから画像 | バイリンガル(中国語/英語)、DiTアーキテクチャ |
| Hunyuan3D | 3D生成 | テキスト/画像から3Dモデルを生成 |
| HunyuanVideo | テキスト/画像から動画 | 13Bパラメータ、最大のオープンソース |
| HunyuanVideo 1.5 | テキスト/画像から動画 | 8.3B、コンシューマーGPU対応 |
2.2 最大のオープンソース動画生成モデル
2024年12月にリリースされたHunyuanVideoは13B(130億)パラメータを持ち、リリース時点で最大のオープンソース動画生成モデルであった。これはCogVideoX(5B-10B)やMochi(10B)などの競合モデルを大幅に上回る。
HunyuanVideoの主要スペック:
| 項目 | HunyuanVideo | HunyuanVideo 1.5 |
|---|---|---|
| パラメータ数 | 13B | 8.3B |
| リリース日 | 2024年12月 | 2025年11月 |
| アーキテクチャ | Dual-to-Single Stream DiT | 改良DiT |
| テキストエンコーダ | MLLM(Decoder-Only) | 改良MLLM |
| VAE | 3D Causal VAE | 3D Causal VAE(改良版) |
| 学習方法 | Flow Matching | Flow Matching |
| 最大解像度 | 720p(1280x720) | 720p |
| 最大フレーム数 | 129フレーム | 129フレーム |
| ライセンス | Tencent Hunyuan Community | Tencent Hunyuan Community |
2.3 Text-to-VideoとImage-to-Videoのサポート
HunyuanVideoは2つのコア機能をサポートする:
Text-to-Video (T2V): テキストプロンプトのみから高品質な動画を生成する。シーン、アクション、雰囲気を自然言語で記述すると、それに合った動画が生成される。
Image-to-Video (I2V): 静止画を入力として受け取り、自然な動きを付加した動画に変換する。2025年3月に別途リリースされたHunyuanVideo-I2Vモデルがこの機能を担う。
[HunyuanVideoの入出力パイプライン]
Text-to-Video:
"A golden retriever running +----------+ +--------+
through a sunlit meadow" -----> | Hunyuan | --> | Video |
| Video | | Output |
Image-to-Video: | Pipeline | | (MP4) |
[入力画像] + プロンプト -----> | | --> | |
+----------+ +--------+
|
MLLM Encoder
3D VAE
DiT Denoiser
3. HunyuanVideoアーキテクチャの詳細分析
HunyuanVideoのアーキテクチャは3つのコアコンポーネントで構成される:(1) MLLMテキストエンコーダ、(2) 3D Causal VAE、(3) Dual-Stream to Single-Stream DiT。
[HunyuanVideo 全体アーキテクチャ図]
テキストプロンプト
|
v
+-------------+
| MLLM Text |
| Encoder |
| (Decoder- |
| Only LLM) |
+------+------+
|
テキストトークン(双方向リファイナー付き)
|
v
+--------+ +---------------------+ +--------+
| ガウス | -> | Dual-Stream to | -> | 脱ノイズ|
| ノイズ | | Single-Stream DiT | | 結果 |
+--------+ | | +---+----+
| [Dualフェーズ] | |
| - 動画トークン | v
| - テキストトークン | +----------+
| (独立処理) | | 3D VAE |
| | | Decoder |
| [Singleフェーズ] | +----+-----+
| - 結合 & 融合 | |
+---------------------+ v
最終動画
3.1 Dual-Stream to Single-Stream DiT設計
HunyuanVideoの最も特徴的なアーキテクチャ要素は、その**「Dual-Stream to Single-Stream」**Diffusion Transformer(DiT)設計である。これは既存のDiTモデルとの差別化を図る中核的な設計思想である。
Dual-Streamフェーズ(前半のレイヤー):
Dual-Streamフェーズでは、動画トークンとテキストトークンが独立したTransformerブロックで処理される。各モダリティが互いに干渉することなく、それぞれに適切な変調メカニズムを学習できる。
# Dual-Streamフェーズの疑似コード
class DualStreamBlock(nn.Module):
def __init__(self, dim, num_heads):
self.video_attn = MultiHeadAttention(dim, num_heads)
self.text_attn = MultiHeadAttention(dim, num_heads)
self.video_ffn = FeedForward(dim)
self.text_ffn = FeedForward(dim)
self.video_norm = AdaLayerNorm(dim)
self.text_norm = AdaLayerNorm(dim)
def forward(self, video_tokens, text_tokens, timestep):
# 独立した動画トークン処理
video_tokens = self.video_norm(video_tokens, timestep)
video_tokens = video_tokens + self.video_attn(video_tokens)
video_tokens = video_tokens + self.video_ffn(video_tokens)
# 独立したテキストトークン処理
text_tokens = self.text_norm(text_tokens, timestep)
text_tokens = text_tokens + self.text_attn(text_tokens)
text_tokens = text_tokens + self.text_ffn(text_tokens)
return video_tokens, text_tokens
Single-Streamフェーズ(後半のレイヤー):
Single-Streamフェーズでは、動画トークンとテキストトークンが結合され、単一のTransformerブロックで一緒に処理される。これにより効果的なマルチモーダル情報融合が実現する。
# Single-Streamフェーズの疑似コード
class SingleStreamBlock(nn.Module):
def __init__(self, dim, num_heads):
self.attn = MultiHeadAttention(dim, num_heads)
self.ffn = FeedForward(dim)
self.norm = AdaLayerNorm(dim)
def forward(self, video_tokens, text_tokens, timestep):
# 動画 + テキストトークンを結合
combined = torch.cat([video_tokens, text_tokens], dim=1)
# 統合処理(Full Attention)
combined = self.norm(combined, timestep)
combined = combined + self.attn(combined)
combined = combined + self.ffn(combined)
# 分割して返却
video_out = combined[:, :video_tokens.shape[1]]
text_out = combined[:, video_tokens.shape[1]:]
return video_out, text_out
Dual-to-Single設計の利点:
| 特性 | Dual-Streamのみ | Single-Streamのみ | Dual-to-Single(HunyuanVideo) |
|---|---|---|---|
| モダリティ別学習 | 優秀 | 限定的 | 優秀(前半フェーズ) |
| クロスモーダル融合 | 弱い | 強い | 強い(後半フェーズ) |
| 計算効率 | 高い | 中程度 | 高い |
| テキスト-動画アライメント | 低い | 高い | 高い |
| モデルの柔軟性 | 高い | 低い | 非常に高い |
3.2 3D VAE (Causal VAE) - 時空間圧縮
HunyuanVideoは3D Causal VAEを使用して、ピクセル空間の動画をコンパクトな潜在空間に圧縮する。このVAEはCausalConv3D上に構築され、時間的・空間的情報を効率的に圧縮する。
圧縮比:
| 次元 | 比率 | 説明 |
|---|---|---|
| 時間 | 4倍 | 129フレーム → 33潜在フレーム |
| 空間 | 8x x 8x | 720x1280 → 90x160 |
| チャネル | 3ch → 16ch | RGB 3ch → 潜在16ch |
全体的な圧縮効果:
入力動画: 720 x 1280 x 129フレーム x 3チャネル
= ~3億5,600万要素
潜在表現: 90 x 160 x 33 x 16チャネル
= ~760万要素
圧縮比: ~47:1(要素数ベース)
Causal VAEの特性:
Causal VAEは設計上、時間的因果性を維持する。つまり各フレームは前のフレームの情報のみを参照してエンコードされる。これにより画像と動画を同一のVAEで処理できる。最初のフレームは時間圧縮なしの画像として扱われ、以降のフレームは前のフレームとの関係を考慮した時間圧縮が適用される。
3.3 MLLMテキストエンコーダ
HunyuanVideoのもう一つのイノベーションは、テキストエンコーダとして**マルチモーダル大規模言語モデル(MLLM)**を採用したことである。これは既存の動画/画像生成モデルが主にCLIPやT5をテキストエンコーダとして使用していることとは対照的である。
既存テキストエンコーダとの比較:
| 特性 | CLIP | T5-XXL | MLLM(HunyuanVideo) |
|---|---|---|---|
| アーキテクチャ | Encoder-Only | Encoder-Decoder | Decoder-Only |
| パラメータ数 | ~400M | ~4.7B | 数百億 |
| 画像-テキスト整合 | 優秀 | 中程度 | 非常に優秀 |
| 詳細理解 | 限定的 | 優秀 | 非常に優秀 |
| 複雑な推論 | 弱い | 中程度 | 強い |
| ゼロショット能力 | 限定的 | 中程度 | 優秀 |
| アテンション型 | 因果的 | 双方向 | 因果的 + リファイナー |
双方向トークンリファイナー:
MLLMはDecoder-Only構造のため本質的に因果的アテンションを使用するが、拡散モデルのテキスト条件付けとしては双方向アテンションがより効果的である。この問題を解決するため、HunyuanVideoは追加の双方向トークンリファイナーを導入している。
[テキストエンコーディングパイプライン]
テキストプロンプト
|
v
+----------+ +--------------+ +------------------+
| MLLM | --> | 双方向 | --> | 最終テキスト |
| (因果的 | | トークン | | 埋め込み |
| Attn) | | リファイナー | | (DiT条件) |
+----------+ +--------------+ +------------------+
豊かな 双方向の 拡散に最適化された
セマンティクス コンテキスト強化 テキスト表現
3.4 Flow Matching学習方法
HunyuanVideoは従来のDDPM(Denoising Diffusion Probabilistic Model)の代わりにFlow Matchingを採用している。Flow Matchingはデータとノイズの分布間の最適輸送パスを学習する。
DDPM vs Flow Matching:
| 特性 | DDPM | Flow Matching |
|---|---|---|
| ノイズスケジュール | 事前定義が必要 | 柔軟な設計 |
| 学習対象 | ノイズ予測 | ベクトル場予測 |
| 収束 | 遅い | 速い |
| 推論パス | 曲線的 | 直線的(効率的) |
| サンプリングステップ | 多い(20-50) | 少ない(20-30) |
# Flow Matching学習の疑似コード
def flow_matching_loss(model, x_0, text_cond):
"""
x_0: 元の動画潜在表現
text_cond: テキスト条件
"""
# ランダムな時間ステップのサンプリング
t = torch.rand(x_0.shape[0], device=x_0.device)
# ノイズのサンプリング
noise = torch.randn_like(x_0)
# 線形補間による中間状態
x_t = (1 - t) * x_0 + t * noise
# 目標ベクトル場: ノイズの方向
target = noise - x_0
# モデルのベクトル場予測
predicted = model(x_t, t, text_cond)
# ロス計算
loss = F.mse_loss(predicted, target)
return loss
3.5 統一画像-動画学習戦略
HunyuanVideoは画像と動画を統一フレームワーク内で学習する。画像は単一フレームの動画として扱われ、同じモデルアーキテクチャで処理される。
3.6 Full Attentionメカニズム
HunyuanVideoは時間次元と空間次元の両方にわたってFull Attentionを適用する。これは多くの動画生成モデルが計算量削減のために空間アテンションと時間アテンションを分離しているのとは対照的である。
| アテンション型 | 説明 | 採用モデル例 |
|---|---|---|
| 空間のみ | 空間次元のみ | 初期の動画モデル |
| 時間のみ | 時間次元のみ | AnimateDiff |
| 空間 + 時間(分割) | 交互に適用 | CogVideoX |
| Full 3Dアテンション | 完全な時空間アテンション | HunyuanVideo |
Full Attentionにより、動画内のすべてのトークンが他のすべてのトークンと時空間的に相互作用でき、より一貫した動きと高い視覚品質を実現するが、計算コストが大幅に増加するというトレードオフがある。
4. HunyuanVideoの学習データと手法
4.1 大規模データキュレーションパイプライン
HunyuanVideoの学習データは、生データから最終学習データまで複数段階のフィルタリングと評価を含む体系的なキュレーションパイプラインを通じて準備される。
4.2 多段階学習戦略
HunyuanVideoは**段階的学習(Progressive Training)**戦略を採用し、低解像度から始めて徐々に解像度を上げていく。
学習ステージの設定:
| ステージ | 解像度 | フレーム数 | バッチサイズ | 主要目標 |
|---|---|---|---|---|
| ステージ1 | 256x256 | 17 | 大 | 基本的な視覚概念 |
| ステージ2 | 512x512 | 33 | 中 | 詳細の学習 |
| ステージ3 | 960x544 / 544x960 | 65 | 小 | 高解像度への適応 |
| ステージ4 | 1280x720 / 720x1280 | 129 | 非常に小 | 最終品質のファインチューニング |
5. HunyuanVideoのモデル仕様と性能
5.1 対応解像度とフレーム数
| 解像度 | アスペクト比 | 用途 |
|---|---|---|
| 1280 x 720 | 16:9 | 横型HD |
| 720 x 1280 | 9:16 | 縦型(モバイル) |
| 960 x 544 | ~16:9 | 中解像度 |
| 544 x 960 | ~9:16 | 中解像度縦型 |
| 720 x 720 | 1:1 | 正方形 |
フレーム設定:
| 設定 | 値 | 備考 |
|---|---|---|
| 最大フレーム数 | 129フレーム | 4x VAE圧縮後33潜在フレーム |
| FPS | 24 fps | 標準的な映画フレームレート |
| 動画長さ | ~5.4秒 | 129 / 24 = 5.375秒 |
5.2 ベンチマーク比較
VBench評価結果:
| モデル | 総合 | 視覚品質 | テキスト整合 | 動き品質 | 人物忠実度 |
|---|---|---|---|---|---|
| HunyuanVideo | トップクラス | 96.4% | 68.5% | 64.5% | 優秀 |
| Sora | トップクラス | 優秀 | 中程度 | 優秀 | 非常に優秀 |
| CogVideoX-1.5 | 上位 | 優秀 | 優秀 | 中程度 | 弱い |
| Kling 1.6 | トップクラス | 優秀 | 優秀 | 優秀 | 優秀 |
HunyuanVideoは特に人物忠実度と動きの合理性の次元で強い結果を示している。
5.3 競合モデルとの比較
| 比較項目 | HunyuanVideo | Sora 2 | Runway Gen-3 | Kling 3.5 |
|---|---|---|---|---|
| アクセス | オープンソース | 商用 | 商用 | 商用 |
| パラメータ数 | 13B | 非公開 | 非公開 | 非公開 |
| 最大解像度 | 720p | 1080p | 1080p | 1080p |
| 最大長さ | ~5秒 | 最大20秒 | 最大10秒 | 最大10秒 |
| ローカル実行 | 可能 | 不可 | 不可 | 不可 |
| カスタマイズ | LoRA対応 | 不可 | 限定的 | 不可 |
| コスト | 無料(GPU必要) | API課金 | サブスクリプション | API課金 |
6. HunyuanVideoの実践的な使い方
6.1 HuggingFaceモデルのダウンロード
# HunyuanVideoオリジナルモデル(13B)
pip install huggingface_hub
huggingface-cli download tencent/HunyuanVideo --local-dir ./HunyuanVideo
# HunyuanVideo 1.5(8.3B、軽量版)
huggingface-cli download tencent/HunyuanVideo-1.5 --local-dir ./HunyuanVideo-1.5
# Image-to-Videoモデル
huggingface-cli download tencent/HunyuanVideo-I2V --local-dir ./HunyuanVideo-I2V
6.2 Diffusersライブラリでの推論コード
基本的なText-to-Video推論:
import torch
from diffusers import HunyuanVideoPipeline, HunyuanVideoTransformer3DModel
from diffusers.utils import export_to_video
# モデルのロード
model_id = "tencent/HunyuanVideo"
transformer = HunyuanVideoTransformer3DModel.from_pretrained(
model_id,
subfolder="transformer",
torch_dtype=torch.bfloat16,
)
pipe = HunyuanVideoPipeline.from_pretrained(
model_id,
transformer=transformer,
torch_dtype=torch.float16,
)
pipe.vae.enable_tiling()
pipe.to("cuda")
# 動画生成
output = pipe(
prompt="A cat walks on the grass, realistic style, natural lighting",
height=720,
width=1280,
num_frames=129,
num_inference_steps=30,
guidance_scale=6.0,
).frames[0]
# 動画の保存
export_to_video(output, "hunyuan_output.mp4", fps=24)
4bit量子化によるVRAM節約:
import torch
from diffusers import HunyuanVideoPipeline, HunyuanVideoTransformer3DModel
from diffusers.utils import export_to_video
from transformers import BitsAndBytesConfig
# INT4量子化設定
quant_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_quant_type="nf4",
)
# 量子化されたTransformerのロード
transformer = HunyuanVideoTransformer3DModel.from_pretrained(
"tencent/HunyuanVideo",
subfolder="transformer",
quantization_config=quant_config,
)
pipe = HunyuanVideoPipeline.from_pretrained(
"tencent/HunyuanVideo",
transformer=transformer,
torch_dtype=torch.float16,
)
pipe.vae.enable_tiling()
# 追加のVRAM節約のためのCPUオフロード
pipe.enable_model_cpu_offload()
output = pipe(
prompt="A beautiful sunset over the ocean, cinematic",
height=544,
width=960,
num_frames=65,
num_inference_steps=30,
guidance_scale=6.0,
).frames[0]
export_to_video(output, "quantized_output.mp4", fps=24)
6.3 主要パラメータガイド
| パラメータ | デフォルト | 範囲 | 説明 |
|---|---|---|---|
guidance_scale | 6.0 | 1.0-15.0 | プロンプト忠実度(高い = より忠実) |
num_inference_steps | 30 | 20-50 | 脱ノイズステップ数(高い = 高品質だが遅い) |
height | 720 | 256-720 | 動画の高さ(8の倍数) |
width | 1280 | 256-1280 | 動画の幅(8の倍数) |
num_frames | 129 | 17-129 | 総フレーム数(4k+1形式推奨) |
seed | ランダム | 整数 | 再現性のためのシード値 |
6.4 GPU VRAM要件
| 構成 | 必要VRAM | 解像度 | 備考 |
|---|---|---|---|
| FP32(オリジナル) | 80GB以上 | 720p 129f | A100/H100が必要 |
| BF16/FP16 | ~40GB | 720p 129f | A100 40GB |
| FP8量子化 | ~24-30GB | 720p 129f | RTX 4090対応 |
| INT4量子化 + CPUオフロード | ~14-16GB | 544p 65f | RTX 4080対応 |
| HunyuanVideo 1.5 (FP8) | ~14GB | 480p | コンシューマーGPU |
6.5 LoRAファインチューニング
HunyuanVideoは特定のスタイル、キャラクター、動きパターンを学習するためのLoRAファインチューニングをサポートしている。
主要なLoRA学習ツール:
| ツール | 特徴 | 最小VRAM |
|---|---|---|
| Musubi Tuner (kohya-ss) | 最も人気のLoRA学習ツール | 24GB |
| ai-toolkit (ostris) | マルチモデル対応 | 24GB |
| diffusion-pipe (tdrussell) | パイプラインベースの学習 | 24GB |
| FineTrainers (HuggingFace) | 公式Diffusersベースツール | 24GB |
| fal.ai LoRA Training | クラウドベース、セットアップ不要 | クラウド |
7. LTX-Videoの概要
7.1 Lightricks社
Lightricksはイスラエルのエルサレムに本社を置くAIベースのクリエイティブテクノロジー企業である。2013年に設立され、Facetune、Videoleap、Photoleapなどのコンシューマー向け写真/動画編集アプリで広く知られている。モバイルクリエイティブツールでの経験を活かし、AI動画生成分野に参入した。
7.2 LTX-Video 1.0からLTX-2への進化
| バージョン | リリース | パラメータ | 主要特徴 |
|---|---|---|---|
| LTX-Video 0.9 | 2024年11月 | ~2B | 初のオープンソース、リアルタイム |
| LTX-Video 0.9.8 (13B) | 2025年中期 | 13B | 蒸留版、品質向上 |
| LTX-2 | 2025年10月 | 19B | 音声+動画の同時生成 |
| LTX-2(オープンソース) | 2026年1月 | 19B | 全重み/コードを公開 |
7.3 ほぼリアルタイムの動画生成速度
LTX-Videoシリーズの最大の差別化要因はそのリアルタイムより速い動画生成速度である。LTX-VideoはDiTベースの動画生成モデルとして初めてリアルタイム生成を達成したモデルの一つである。
[生成速度の比較(5秒の動画)]
モデル 生成時間 リアルタイム比
LTX-Video 1.0: ~2秒 2.5倍速い
LTX-2: ~3-5秒 ~リアルタイム
HunyuanVideo: ~2-5分 60倍遅い
CogVideoX: ~3-8分 100倍遅い
Mochi: ~5-10分 120倍遅い
(H100 GPU、768x512解像度)
7.4 Text-to-VideoとImage-to-Videoのサポート
LTX-2はText-to-VideoとImage-to-Videoに加えて、音声と動画の同時生成を提供する。
| 機能 | LTX-Video 1.0 | LTX-2 |
|---|---|---|
| Text-to-Video | 対応 | 対応 |
| Image-to-Video | 対応 | 対応 |
| 音声生成 | 非対応 | 同期音声の同時生成 |
| 4K解像度 | 非対応 | ネイティブ4K(3840x2160) |
| 50fps | 非対応 | 対応 |
| キーフレーム条件付け | 限定的 | 完全対応 |
8. LTX-2アーキテクチャ分析
8.1 全体アーキテクチャ
LTX-2は3つのコアコンポーネントで構成される:(1) モダリティ固有VAE、(2) テキスト埋め込みパイプライン、(3) 非対称デュアルストリームDiT。
[LTX-2 全体アーキテクチャ]
テキストプロンプト
|
v
+-------------+
| Text Encoder | (Gemmaベース)
| + Prompt |
| Enhancer |
+------+------+
|
v
+------------------------------------------+
| 非対称デュアルストリームDiT |
| |
| +------------------+ +-------------+ |
| | 動画ストリーム | | 音声ストリーム| |
| | (広いチャネル、 | | (狭い、 | |
| | 高容量) | | 軽量) | |
| +--------+---------+ +------+------+ |
| | Cross-Attention | |
| +----------+-----------+ |
+------------------------------------------+
| |
v v
+-------------+ +-------------+
| Video VAE | | Audio VAE |
| Decoder | | Decoder |
| (3D時空間) | | (1D時間) |
+------+------+ +------+------+
| |
v v
動画出力 音声出力
| |
+--------+-----------+
|
v
最終AV出力(MP4)
8.2 Video VAE(高圧縮比 - 1:192)
LTX-2のVideo VAEは1:192という非常に高い圧縮比を実現する。これはHunyuanVideoの~47:1の比率の約4倍に相当する。
VAE圧縮比の比較:
| モデル | 空間 | 時間 | 潜在Ch | 全体比率 |
|---|---|---|---|---|
| LTX-2 | 32x32 | 8x | 128ch | 1:192 |
| HunyuanVideo | 8x8 | 4x | 16ch | ~1:47 |
| CogVideoX | 8x8 | 4x | 16ch | ~1:47 |
| Wan 2.1 | 8x8 | 4x | 16ch | ~1:47 |
高い圧縮比は以下の利点をもたらす:
- 潜在トークンの削減:DiTが処理すべきトークン数を大幅に削減し、推論速度を向上
- メモリ効率:より少ないVRAMで高解像度動画の処理が可能
- 学習の高速化:学習時の計算量を削減
8.3 非対称デュアルストリームDiT
LTX-2のDiTは、動画と音声のモダリティの特性の違いを反映した非対称デュアルストリーム構造を採用している。
非対称設計の根拠:
| 特性 | 動画ストリーム | 音声ストリーム |
|---|---|---|
| 次元 | 3D(空間 + 時間) | 1D(時間) |
| 複雑さ | 高い(時空間) | 中程度(時間) |
| チャネル幅 | 広い(高容量) | 狭い(軽量) |
| 位置埋め込み | 3D位置 | 1D時間 |
| データ特性 | ピクセルベースの視覚 | 周波数ベースの音声 |
8.4 テキストエンコーダ
LTX-2はGemmaベースのテキストエンコーダを使用する。enhance_prompt機能により、シンプルなユーザープロンプトを自動的に拡張して、より良い結果を得ることができる。
8.5 速度最適化技術
| 最適化手法 | 説明 | 速度向上 |
|---|---|---|
| 高VAE圧縮 | 潜在トークン数を大幅に削減 | 主要因 |
| 蒸留推論 | 8ステップ蒸留モデルが利用可能 | 5-10倍 |
| FP8 Transformer | 量子化された重み | ~2倍 |
| 2段階パイプライン | ステージ1(生成)+ ステージ2(拡大) | 効率的 |
| 勾配推定 | 40ステップ → 20-30ステップに削減 | ~1.5倍 |
9. LTX-2の主要機能
9.1 リアルタイム生成速度
| 解像度 | フレーム数 | 長さ | 生成時間(H100) | リアルタイム比 |
|---|---|---|---|---|
| 768x512 | 121 | 5秒 | ~2秒 | 2.5倍速い |
| 1216x704 | 121 | 5秒 | ~5秒 | ~リアルタイム |
| 1920x1080 | 121 | 5秒 | ~15秒 | 3倍遅い |
| 3840x2160 | 121 | 5秒 | ~60秒 | 12倍遅い |
9.2 高解像度と多様な出力オプション
対応解像度:
| 解像度 | アスペクト | 用途 | 必要VRAM |
|---|---|---|---|
| 768 x 512 | 3:2 | 高速プロトタイピング | ~8-12GB |
| 1216 x 704 | ~16:9 | 標準制作 | ~16GB |
| 1920 x 1080 | 16:9 | フルHD | ~24GB |
| 3840 x 2160 | 16:9 | 4K UHD | 48GB以上 |
9.3 同期音声-動画生成
LTX-2の革新的な機能の一つは、音声と動画を同時に生成することである。別途の音声生成モデルなしに、動画の内容に合った音声が自動的に生成される。
9.4 キーフレーム条件付け
LTX-2はキーフレーム条件付けをサポートしており、特定のフレームを指定してその間を自然に補間できる。
9.5 LoRAサポート
LTX-2はLoRAの学習と推論を公式にサポートしており、GitHubリポジトリに学習コードが含まれている。
10. LTX-2の実践的な使い方
10.1 インストールと環境構築
# 1. Python環境(3.10以上を推奨)
conda create -n ltx2 python=3.10
conda activate ltx2
# 2. 公式LTX-2パッケージのインストール
pip install ltx-pipelines
# 3. またはソースからインストール
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
pip install -e "packages/ltx-pipelines[all]"
pip install -e "packages/ltx-core[all]"
# 4. モデル重みのダウンロード
huggingface-cli download Lightricks/LTX-2 --local-dir ./models/ltx2
10.2 Python推論コード例
Text-to-Videoの基本例:
from ltx_pipelines import TI2VidTwoStagesPipeline
# パイプラインの初期化
pipe = TI2VidTwoStagesPipeline.from_pretrained(
"Lightricks/LTX-2",
device_map="auto",
enable_fp8=True, # FP8でVRAM節約
)
# 動画生成
result = pipe(
prompt="A serene mountain lake at sunrise, mist rising from the water, "
"birds flying overhead, cinematic quality",
negative_prompt="blurry, low quality, distorted",
height=704,
width=1216,
num_frames=121,
frame_rate=24,
num_inference_steps=30,
cfg_guidance_scale=7.5,
seed=42,
enhance_prompt=True, # 自動プロンプト拡張
)
# 保存
result.save("ltx2_output.mp4")
Image-to-Videoの例:
from ltx_pipelines import TI2VidTwoStagesPipeline
from PIL import Image
pipe = TI2VidTwoStagesPipeline.from_pretrained(
"Lightricks/LTX-2",
device_map="auto",
enable_fp8=True,
)
# 入力画像のロード
input_image = Image.open("input_photo.jpg")
# I2V生成
result = pipe(
prompt="The scene comes alive with gentle wind blowing through the trees",
images=[input_image],
height=704,
width=1216,
num_frames=121,
frame_rate=24,
num_inference_steps=30,
cfg_guidance_scale=7.5,
seed=42,
)
result.save("ltx2_i2v_output.mp4")
10.3 主要パラメータ
| パラメータ | デフォルト | 範囲 | 説明 |
|---|---|---|---|
prompt | 必須 | 文字列 | 動画の説明 |
negative_prompt | なし | 文字列 | 除外する要素 |
height | 704 | 32の倍数 | 動画の高さ |
width | 1216 | 32の倍数 | 動画の幅 |
num_frames | 121 | 8k+1形式 | 総フレーム数 |
frame_rate | 24 | 24/30/50 | フレーム毎秒 |
num_inference_steps | 30 | 8-50 | 脱ノイズステップ数 |
cfg_guidance_scale | 7.5 | 1.0-15.0 | プロンプト忠実度 |
seed | ランダム | 整数 | 再現性シード |
enhance_prompt | False | True/False | 自動プロンプト拡張 |
enable_fp8 | False | True/False | FP8量子化の使用 |
10.4 GPU要件
| GPU | VRAM | 推奨解像度 | 備考 |
|---|---|---|---|
| RTX 3060/4060 | 8-12GB | 540p、4秒 | FP8必須、基本的 |
| RTX 3080/4070 Ti | 12-16GB | 768x512、5秒 | FP8推奨 |
| RTX 4090 | 24GB | 1080p、5秒 | 標準的な使用 |
| A100 | 40-80GB | 4K、10秒 | プロダクション |
| H100 | 80GB | 4K、10秒 | 最適なパフォーマンス |
11. HunyuanVideo vs LTX-2の詳細比較
11.1 アーキテクチャ比較
| 項目 | HunyuanVideo | LTX-2 |
|---|---|---|
| パラメータ数 | 13B (v1) / 8.3B (v1.5) | 19B |
| DiT構造 | Dual-to-Single Stream | 非対称デュアルストリーム |
| VAE構造 | 3D Causal VAE | Video VAE + Audio VAE |
| VAE比率 | ~1:47 | 1:192 |
| 空間圧縮 | 8x8 | 32x32 |
| 時間圧縮 | 4x | 8x |
| 潜在Ch | 16 | 128 |
| テキストエンコーダ | MLLM(Decoder-Only) | Gemma |
| 学習方法 | Flow Matching | Diffusion(Flowベース) |
| アテンション | Full 3Dアテンション | 双方向Cross-Attn |
11.2 性能と品質の比較
| 比較項目 | HunyuanVideo | LTX-2 | 勝者 |
|---|---|---|---|
| 視覚品質 | 非常に高い | 高い | HunyuanVideo |
| 動きの自然さ | 非常に高い | 高い | HunyuanVideo |
| テキスト整合 | 高い | 高い | 同等 |
| 人物生成 | 優秀 | 良好 | HunyuanVideo |
| 最大解像度 | 720p | 4K | LTX-2 |
| 音声生成 | 非対応 | 同期生成 | LTX-2 |
| フレームレート | 24fps | 最大50fps | LTX-2 |
11.3 速度比較
| 条件 | HunyuanVideo | LTX-2 | 差異 |
|---|---|---|---|
| 768x512、5秒(H100) | ~120秒 | ~3秒 | LTX-2が~40倍速い |
| 1280x720、5秒(H100) | ~300秒 | ~10秒 | LTX-2が~30倍速い |
| 1280x720、5秒(RTX 4090) | ~600秒 | ~30秒 | LTX-2が~20倍速い |
11.4 ユースケース別モデル選択ガイド
[シナリオ別推奨モデル]
「最高品質の動画が必要」
--> HunyuanVideo(v1、13B)
理由: Full Attention + 13Bで最高の視覚品質
「コンシューマーGPUでローカル実行したい」
--> LTX-2(FP8)またはHunyuanVideo 1.5
理由: LTX-2は12GBで動作、HV 1.5は14GBで動作
「高速な反復作業が必要」
--> LTX-2(蒸留版)
理由: ほぼリアルタイムの生成速度
「音声付きの動画が必要」
--> LTX-2
理由: 音声-動画の同時生成が可能な唯一のモデル
「特定のキャラクター/スタイルを学習したい」
--> HunyuanVideo + LoRA
理由: 豊富なLoRAエコシステム
「4K高解像度が必要」
--> LTX-2
理由: ネイティブ4Kサポート
「人物/顔の生成が重要」
--> HunyuanVideo
理由: 優秀なHuman Fidelityベンチマーク
12. オープンソース動画生成モデルエコシステムの比較
12.1 包括的なモデル比較
| 項目 | HunyuanVideo | LTX-2 | Wan 2.1 | CogVideoX | Mochi 1 |
|---|---|---|---|---|---|
| 開発者 | Tencent | Lightricks | Alibaba | Zhipu/清華大学 | Genmo |
| パラメータ数 | 13B | 19B | 1.3B / 14B | 5B / 10B | 10B |
| 最大解像度 | 720p | 4K | 720p | 720p | 480p |
| 最大長さ | ~5秒 | ~10秒 | ~5秒 | ~6秒 | ~5.4秒 |
| 最大FPS | 24 | 50 | 24 | 30 | 30 |
| VAE比率 | 1:47 | 1:192 | 1:47 | 1:47 | 1:12 |
| 音声 | 非対応 | 対応 | V2A別モデル | 非対応 | 非対応 |
| 最小VRAM | 14GB (v1.5) | 8-12GB | 8GB (1.3B) | 4.4GB (INT8) | 20GB (ComfyUI) |
| 速度 | 遅い | 非常に速い | 中程度 | 中程度 | 遅い |
| I2V対応 | 別モデル | 統合 | 統合 | 対応 | 非対応 |
| LoRA | 対応 | 対応 | 対応 | 対応 | 限定的 |
13. プロンプトエンジニアリングのコツ
13.1 効果的な動画プロンプトの書き方
プロンプト構造(SAECフレームワーク):
[Subject] + [Action] + [Environment] + [Camera/Cinematography]
S(Subject): 主体 - 何が/誰がメインか
A(Action): 動作 - 何が起きているか
E(Environment): 環境 - どこで、どんな雰囲気か
C(Camera): カメラ - どう撮影されているか
良いプロンプト vs 悪いプロンプト:
| タイプ | プロンプト | 問題点/強み |
|---|---|---|
| 悪い | "A nice video of nature" | 曖昧すぎる |
| 普通 | "A dog running in a park" | 具体性が不十分 |
| 良い | "A golden retriever running through a sunlit meadow, wildflowers swaying, warm golden hour lighting" | 具体的 + 環境描写 |
| 優秀 | "Medium tracking shot of a golden retriever running joyfully through a sunlit meadow, wildflowers swaying gently in the breeze, warm golden hour lighting, shallow depth of field, 35mm cinematic lens, natural color grading" | SAECの完全適用 |
13.2 映像撮影用語
カメラの動き:
| 用語 | 説明 | 例 |
|---|---|---|
| Pan | 水平回転 | "Slow pan across the landscape" |
| Tilt | 垂直回転 | "Tilt up to reveal the building" |
| Dolly | 前後移動 | "Dolly in on the subject's face" |
| Tracking Shot | 追従撮影 | "Tracking shot following the car" |
| Crane Shot | クレーン | "Crane shot rising above the city" |
| Static | 固定 | "Static shot of the waterfall" |
| Handheld | 手持ち | "Handheld camera, documentary style" |
13.3 ネガティブプロンプトの使い方
汎用ネガティブプロンプトテンプレート:
# 基本的な品質制御
"blurry, low quality, distorted, deformed, ugly, bad anatomy,
watermark, text overlay, logo, grainy, noisy"
# 人物生成時の追加
"extra fingers, mutated hands, poorly drawn hands, poorly drawn face,
mutation, deformed, extra limbs, missing limbs"
モデル別ネガティブプロンプト対応:
| モデル | ネガティブプロンプト | 推奨事項 |
|---|---|---|
| HunyuanVideo | 公式サポートなし | 代わりにguidance_scaleを使用 |
| LTX-2 | 対応 | 積極的な使用を推奨 |
| Wan 2.1 | 対応 | 積極的な使用を推奨 |
| CogVideoX | 対応 | 積極的な使用を推奨 |
14. 今後の展望
14.1 動画生成モデルの発展方向
主要な発展方向:
| 方向性 | 現状 | 予想される発展 |
|---|---|---|
| 動画の長さ | 5-10秒 | 分単位への拡大 |
| 解像度 | 720p-4K | 8K、HDR対応 |
| 物理精度 | 基本的 | 精密な物理シミュレーション |
| キャラクター一貫性 | 限定的 | マルチショットナラティブ |
| 生成速度 | リアルタイム〜分 | リアルタイムストリーミング |
| マルチモーダル | AV初期段階 | AV + 字幕 + 音声 |
| 編集 | 基本的 | AIベースの自動編集 |
| インタラクション | なし | リアルタイムインタラクティブ |
14.2 注目すべき技術トレンド
- MoEアーキテクチャ:Wan 2.2で導入され、モデル効率を大幅に向上
- 蒸留技術:大規模モデルの知識を小規模モデルに転移して高速化
- マルチモーダル統合:動画 + 音声 + テキストの完全な統合生成
- LoRAエコシステムの成長:コミュニティ主導の特化型モデルの爆発的増加
- エッジデバイス展開:モバイル/エッジデバイスでの動画生成の可能性
15. References
論文
| 論文 | 著者 | リンク |
|---|---|---|
| HunyuanVideo: A Systematic Framework For Large Video Generative Models | Tencent Hunyuan Team | arXiv:2412.03603 |
| HunyuanVideo 1.5 Technical Report | Tencent Hunyuan Team | arXiv:2511.18870 |
| LTX-Video: Realtime Video Latent Diffusion | Lightricks Research | arXiv:2501.00103 |
| LTX-2: Efficient Joint Audio-Visual Foundation Model | Lightricks Research | arXiv:2601.03233 |
GitHubリポジトリ
| リポジトリ | 説明 | リンク |
|---|---|---|
| Tencent-Hunyuan/HunyuanVideo | HunyuanVideo公式リポジトリ | GitHub |
| Tencent-Hunyuan/HunyuanVideo-1.5 | HunyuanVideo 1.5公式リポジトリ | GitHub |
| Lightricks/LTX-2 | LTX-2公式リポジトリ | GitHub |
| Lightricks/ComfyUI-LTXVideo | LTX ComfyUI統合 | GitHub |
| kohya-ss/musubi-tuner | HunyuanVideo LoRA学習ツール | GitHub |
| Wan-Video/Wan2.1 | Wan 2.1公式リポジトリ | GitHub |
| zai-org/CogVideo | CogVideoXリポジトリ | GitHub |
| genmoai/mochi | Mochi 1リポジトリ | GitHub |
HuggingFaceモデルページ
| モデル | リンク |
|---|---|
| tencent/HunyuanVideo | HuggingFace |
| tencent/HunyuanVideo-1.5 | HuggingFace |
| tencent/HunyuanVideo-I2V | HuggingFace |
| Lightricks/LTX-2 | HuggingFace |
| Lightricks/LTX-Video | HuggingFace |
| Wan-AI/Wan2.1-T2V-14B | HuggingFace |
Diffusersドキュメント
| ドキュメント | リンク |
|---|---|
| HunyuanVideo Pipeline | Diffusers Docs |
| HunyuanVideo 1.5 Pipeline | Diffusers Docs |
| LTX-Video Pipeline | Diffusers Docs |
その他リソース
| リソース | 説明 | リンク |
|---|---|---|
| VBench | 動画生成ベンチマーク | GitHub |
| VBench-2.0 Paper | 拡張ベンチマーク | arXiv:2503.21755 |
| ComfyUI HunyuanVideo Tutorial | ComfyUI使用ガイド | Docs |
| ComfyUI LTX-2 Guide | LTX-2 ComfyUIガイド | Docs |
| LTX-2 System Requirements | 公式HWガイド | Docs |
| NVIDIA LTX-2 Guide | RTX GPUガイド | NVIDIA |
クイズ
Q1: 「HunyuanVideoとLTX-2の完全分析:オープンソース動画生成モデルのアーキテクチャ・性能・実践ガイド」の主なトピックは何ですか?
Tencent HunyuanVideo(13B)とLightricks LTX-2(19B)のアーキテクチャ、学習手法、性能ベンチマークを詳細に分析。Wan 2.1、CogVideoX、Mochiを含むオープンソース動画生成エコシステムの包括的比較と実践的な使用ガイド。
Q2: HunyuanVideoアーキテクチャの詳細分析について説明してください。
HunyuanVideoのアーキテクチャは3つのコアコンポーネントで構成される:(1) MLLMテキストエンコーダ、(2) 3D Causal VAE、(3) Dual-Stream to Single-Stream DiT。 3.1 Dual-Stream to Single-Stream DiT設計 HunyuanVideoの最も特徴的なアーキテクチャ要素は、その「Dual-Stream to Single-Stream」Diffusion Transformer(DiT)設計である。これは既存のDiTモデルとの差別化を図る中核的な設計思想である。
Q3: HunyuanVideoの学習データと手法の核心的な概念を説明してください。
4.1 大規模データキュレーションパイプライン HunyuanVideoの学習データは、生データから最終学習データまで複数段階のフィルタリングと評価を含む体系的なキュレーションパイプラインを通じて準備される。 4.2 多段階学習戦略 HunyuanVideoは段階的学習(Progressive Training)戦略を採用し、低解像度から始めて徐々に解像度を上げていく。 学習ステージの設定:
Q4: HunyuanVideoのモデル仕様と性能の主な特徴は何ですか?
5.1 対応解像度とフレーム数 フレーム設定: 5.2 ベンチマーク比較 VBench評価結果: HunyuanVideoは特に人物忠実度と動きの合理性の次元で強い結果を示している。 5.3 競合モデルとの比較
Q5: HunyuanVideoの実践的な使い方はどのように機能しますか?
6.1 HuggingFaceモデルのダウンロード 6.2 Diffusersライブラリでの推論コード 基本的なText-to-Video推論: 4bit量子化によるVRAM節約: 6.3 主要パラメータガイド 6.4 GPU VRAM要件 6.5 LoRAファインチューニング HunyuanVideoは特定のスタイル、キャラクター、動きパターンを学習するためのLoRAファインチューニングをサポートしている。 主要なLoRA学習ツール: