Skip to content
Published on

HunyuanVideoとLTX-2の完全分析:オープンソース動画生成モデルのアーキテクチャ・性能・実践ガイド

Authors
  • Name
    Twitter

1. はじめに:AI動画生成の現状とオープンソースの台頭

2024年から2025年は、AI動画生成(AI Video Generation)技術が商用化段階に突入した時代であった。OpenAI Sora、Google Veo、Runway Gen-3、Klingなどの商用サービスが次々とリリースされ、「テキストから動画を作る」というコンセプトが現実のものとなった。しかし、これらの商用モデルにはAPIコスト、使用制限、データプライバシーの懸念といった制約がある。

このような背景の中、オープンソース動画生成モデルが急速に成長し、商用モデルに匹敵する品質を達成し始めた。特にTencentのHunyuanVideoとLightricksのLTX-2は、それぞれ異なる設計思想と強みを持つオープンソース動画生成の二大柱を形成している。

[AI動画生成モデルの発展タイムライン]

2024 Q1-Q2          2024 Q3-Q4          2025 Q1-Q2          2025 Q3-Q4          2026 Q1
    |                   |                   |                   |                   |
    v                   v                   v                   v                   v
 Sora Preview       HunyuanVideo        Wan 2.1             HunyuanVideo 1.5    LTX-2 Open
 Runway Gen-3       CogVideoX           LTX-Video 1.0       Wan 2.2 (MoE)      Wan 2.6
 Pika 1.0           Kling 1.0           Mochi 1             LTX-2 Preview      Veo 3.1
                    Mochi Preview                            Sora 2

[オープンソース vs 商用モデルの競争]

商用:         Sora --> Sora 2 --> Veo 3.1 --> Kling 3.5
                 \       \           \           \
                  \       \           \           v
オープンソース: CogVideoX -> HunyuanVideo -> Wan 2.1 -> LTX-2
                 \           \           \           \
                  v           v           v           v
             品質格差:     格差縮小:    同等:       逆転:
             商用が優位    急速な       ベンチマーク 速度/アクセス
                           追い上げ     同等        で優位

本記事では、HunyuanVideoとLTX-2のアーキテクチャを論文に基づいて詳細に分析し、ベンチマーク性能を比較する。さらにWan 2.1、CogVideoX、Mochiを含むオープンソースエコシステム全体の比較と、プロンプトエンジニアリングのコツや実践的な使用ガイドも網羅する。


2. HunyuanVideoの概要

2.1 Tencent研究チーム

HunyuanVideoは、TencentのHunyuan AI研究チームが開発した大規模動画生成モデルである。Tencent Hunyuanチームは、HunyuanDiT(画像生成)やHunyuan3D(3D生成)など、様々な生成AIモデルの開発経験を持ち、その技術的専門知識を活かして動画生成領域に参入した。

Tencent Hunyuanチームの主要な貢献:

モデル領域主要特徴
HunyuanDiTテキストから画像バイリンガル(中国語/英語)、DiTアーキテクチャ
Hunyuan3D3D生成テキスト/画像から3Dモデルを生成
HunyuanVideoテキスト/画像から動画13Bパラメータ、最大のオープンソース
HunyuanVideo 1.5テキスト/画像から動画8.3B、コンシューマーGPU対応

2.2 最大のオープンソース動画生成モデル

2024年12月にリリースされたHunyuanVideoは13B(130億)パラメータを持ち、リリース時点で最大のオープンソース動画生成モデルであった。これはCogVideoX(5B-10B)やMochi(10B)などの競合モデルを大幅に上回る。

HunyuanVideoの主要スペック:

項目HunyuanVideoHunyuanVideo 1.5
パラメータ数13B8.3B
リリース日2024年12月2025年11月
アーキテクチャDual-to-Single Stream DiT改良DiT
テキストエンコーダMLLM(Decoder-Only)改良MLLM
VAE3D Causal VAE3D Causal VAE(改良版)
学習方法Flow MatchingFlow Matching
最大解像度720p(1280x720)720p
最大フレーム数129フレーム129フレーム
ライセンスTencent Hunyuan CommunityTencent Hunyuan Community

2.3 Text-to-VideoとImage-to-Videoのサポート

HunyuanVideoは2つのコア機能をサポートする:

Text-to-Video (T2V): テキストプロンプトのみから高品質な動画を生成する。シーン、アクション、雰囲気を自然言語で記述すると、それに合った動画が生成される。

Image-to-Video (I2V): 静止画を入力として受け取り、自然な動きを付加した動画に変換する。2025年3月に別途リリースされたHunyuanVideo-I2Vモデルがこの機能を担う。

[HunyuanVideoの入出力パイプライン]

Text-to-Video:
  "A golden retriever running       +----------+     +--------+
   through a sunlit meadow"  -----> | Hunyuan  | --> | Video  |
                                    | Video    |     | Output |
Image-to-Video:                     | Pipeline |     | (MP4)  |
  [入力画像] + プロンプト    -----> |          | --> |        |
                                    +----------+     +--------+
                                         |
                                    MLLM Encoder
                                    3D VAE
                                    DiT Denoiser

3. HunyuanVideoアーキテクチャの詳細分析

HunyuanVideoのアーキテクチャは3つのコアコンポーネントで構成される:(1) MLLMテキストエンコーダ、(2) 3D Causal VAE、(3) Dual-Stream to Single-Stream DiT。

[HunyuanVideo 全体アーキテクチャ図]

                    テキストプロンプト
                         |
                         v
                  +-------------+
                  | MLLM Text   |
                  |   Encoder   |
                  | (Decoder-   |
                  |  Only LLM)  |
                  +------+------+
                         |
                  テキストトークン(双方向リファイナー付き)
                         |
                         v
+--------+    +---------------------+    +--------+
| ガウス  | -> | Dual-Stream to      | -> | 脱ノイズ|
| ノイズ  |    | Single-Stream DiT   |    | 結果   |
+--------+    |                     |    +---+----+
              | [Dualフェーズ]       |        |
              |  - 動画トークン      |        v
              |  - テキストトークン   |  +----------+
              |  (独立処理)          |  | 3D VAE   |
              |                     |  | Decoder  |
              | [Singleフェーズ]     |  +----+-----+
              |  - 結合 & 融合       |       |
              +---------------------+       v
                                      最終動画

3.1 Dual-Stream to Single-Stream DiT設計

HunyuanVideoの最も特徴的なアーキテクチャ要素は、その**「Dual-Stream to Single-Stream」**Diffusion Transformer(DiT)設計である。これは既存のDiTモデルとの差別化を図る中核的な設計思想である。

Dual-Streamフェーズ(前半のレイヤー):

Dual-Streamフェーズでは、動画トークンとテキストトークンが独立したTransformerブロックで処理される。各モダリティが互いに干渉することなく、それぞれに適切な変調メカニズムを学習できる。

# Dual-Streamフェーズの疑似コード
class DualStreamBlock(nn.Module):
    def __init__(self, dim, num_heads):
        self.video_attn = MultiHeadAttention(dim, num_heads)
        self.text_attn = MultiHeadAttention(dim, num_heads)
        self.video_ffn = FeedForward(dim)
        self.text_ffn = FeedForward(dim)
        self.video_norm = AdaLayerNorm(dim)
        self.text_norm = AdaLayerNorm(dim)

    def forward(self, video_tokens, text_tokens, timestep):
        # 独立した動画トークン処理
        video_tokens = self.video_norm(video_tokens, timestep)
        video_tokens = video_tokens + self.video_attn(video_tokens)
        video_tokens = video_tokens + self.video_ffn(video_tokens)

        # 独立したテキストトークン処理
        text_tokens = self.text_norm(text_tokens, timestep)
        text_tokens = text_tokens + self.text_attn(text_tokens)
        text_tokens = text_tokens + self.text_ffn(text_tokens)

        return video_tokens, text_tokens

Single-Streamフェーズ(後半のレイヤー):

Single-Streamフェーズでは、動画トークンとテキストトークンが結合され、単一のTransformerブロックで一緒に処理される。これにより効果的なマルチモーダル情報融合が実現する。

# Single-Streamフェーズの疑似コード
class SingleStreamBlock(nn.Module):
    def __init__(self, dim, num_heads):
        self.attn = MultiHeadAttention(dim, num_heads)
        self.ffn = FeedForward(dim)
        self.norm = AdaLayerNorm(dim)

    def forward(self, video_tokens, text_tokens, timestep):
        # 動画 + テキストトークンを結合
        combined = torch.cat([video_tokens, text_tokens], dim=1)

        # 統合処理(Full Attention)
        combined = self.norm(combined, timestep)
        combined = combined + self.attn(combined)
        combined = combined + self.ffn(combined)

        # 分割して返却
        video_out = combined[:, :video_tokens.shape[1]]
        text_out = combined[:, video_tokens.shape[1]:]

        return video_out, text_out

Dual-to-Single設計の利点:

特性Dual-StreamのみSingle-StreamのみDual-to-Single(HunyuanVideo)
モダリティ別学習優秀限定的優秀(前半フェーズ)
クロスモーダル融合弱い強い強い(後半フェーズ)
計算効率高い中程度高い
テキスト-動画アライメント低い高い高い
モデルの柔軟性高い低い非常に高い

3.2 3D VAE (Causal VAE) - 時空間圧縮

HunyuanVideoは3D Causal VAEを使用して、ピクセル空間の動画をコンパクトな潜在空間に圧縮する。このVAEはCausalConv3D上に構築され、時間的・空間的情報を効率的に圧縮する。

圧縮比:

次元比率説明
時間4倍129フレーム → 33潜在フレーム
空間8x x 8x720x1280 → 90x160
チャネル3ch → 16chRGB 3ch → 潜在16ch

全体的な圧縮効果:

入力動画:     720 x 1280 x 129フレーム x 3チャネル
              = ~35,600万要素

潜在表現:     90 x 160 x 33 x 16チャネル
              = ~760万要素

圧縮比:       ~47:1(要素数ベース)

Causal VAEの特性:

Causal VAEは設計上、時間的因果性を維持する。つまり各フレームは前のフレームの情報のみを参照してエンコードされる。これにより画像と動画を同一のVAEで処理できる。最初のフレームは時間圧縮なしの画像として扱われ、以降のフレームは前のフレームとの関係を考慮した時間圧縮が適用される。

3.3 MLLMテキストエンコーダ

HunyuanVideoのもう一つのイノベーションは、テキストエンコーダとして**マルチモーダル大規模言語モデル(MLLM)**を採用したことである。これは既存の動画/画像生成モデルが主にCLIPやT5をテキストエンコーダとして使用していることとは対照的である。

既存テキストエンコーダとの比較:

特性CLIPT5-XXLMLLM(HunyuanVideo)
アーキテクチャEncoder-OnlyEncoder-DecoderDecoder-Only
パラメータ数~400M~4.7B数百億
画像-テキスト整合優秀中程度非常に優秀
詳細理解限定的優秀非常に優秀
複雑な推論弱い中程度強い
ゼロショット能力限定的中程度優秀
アテンション型因果的双方向因果的 + リファイナー

双方向トークンリファイナー:

MLLMはDecoder-Only構造のため本質的に因果的アテンションを使用するが、拡散モデルのテキスト条件付けとしては双方向アテンションがより効果的である。この問題を解決するため、HunyuanVideoは追加の双方向トークンリファイナーを導入している。

[テキストエンコーディングパイプライン]

テキストプロンプト
     |
     v
+----------+     +--------------+     +------------------+
| MLLM     | --> | 双方向       | --> | 最終テキスト     |
| (因果的  |     | トークン     |     | 埋め込み         |
|  Attn)   |     | リファイナー |     | (DiT条件)        |
+----------+     +--------------+     +------------------+
  豊かな          双方向の              拡散に最適化された
  セマンティクス  コンテキスト強化      テキスト表現

3.4 Flow Matching学習方法

HunyuanVideoは従来のDDPM(Denoising Diffusion Probabilistic Model)の代わりにFlow Matchingを採用している。Flow Matchingはデータとノイズの分布間の最適輸送パスを学習する。

DDPM vs Flow Matching:

特性DDPMFlow Matching
ノイズスケジュール事前定義が必要柔軟な設計
学習対象ノイズ予測ベクトル場予測
収束遅い速い
推論パス曲線的直線的(効率的)
サンプリングステップ多い(20-50)少ない(20-30)
# Flow Matching学習の疑似コード
def flow_matching_loss(model, x_0, text_cond):
    """
    x_0: 元の動画潜在表現
    text_cond: テキスト条件
    """
    # ランダムな時間ステップのサンプリング
    t = torch.rand(x_0.shape[0], device=x_0.device)

    # ノイズのサンプリング
    noise = torch.randn_like(x_0)

    # 線形補間による中間状態
    x_t = (1 - t) * x_0 + t * noise

    # 目標ベクトル場: ノイズの方向
    target = noise - x_0

    # モデルのベクトル場予測
    predicted = model(x_t, t, text_cond)

    # ロス計算
    loss = F.mse_loss(predicted, target)
    return loss

3.5 統一画像-動画学習戦略

HunyuanVideoは画像と動画を統一フレームワーク内で学習する。画像は単一フレームの動画として扱われ、同じモデルアーキテクチャで処理される。

3.6 Full Attentionメカニズム

HunyuanVideoは時間次元と空間次元の両方にわたってFull Attentionを適用する。これは多くの動画生成モデルが計算量削減のために空間アテンションと時間アテンションを分離しているのとは対照的である。

アテンション型説明採用モデル例
空間のみ空間次元のみ初期の動画モデル
時間のみ時間次元のみAnimateDiff
空間 + 時間(分割)交互に適用CogVideoX
Full 3Dアテンション完全な時空間アテンションHunyuanVideo

Full Attentionにより、動画内のすべてのトークンが他のすべてのトークンと時空間的に相互作用でき、より一貫した動きと高い視覚品質を実現するが、計算コストが大幅に増加するというトレードオフがある。


4. HunyuanVideoの学習データと手法

4.1 大規模データキュレーションパイプライン

HunyuanVideoの学習データは、生データから最終学習データまで複数段階のフィルタリングと評価を含む体系的なキュレーションパイプラインを通じて準備される。

4.2 多段階学習戦略

HunyuanVideoは**段階的学習(Progressive Training)**戦略を採用し、低解像度から始めて徐々に解像度を上げていく。

学習ステージの設定:

ステージ解像度フレーム数バッチサイズ主要目標
ステージ1256x25617基本的な視覚概念
ステージ2512x51233詳細の学習
ステージ3960x544 / 544x96065高解像度への適応
ステージ41280x720 / 720x1280129非常に小最終品質のファインチューニング

5. HunyuanVideoのモデル仕様と性能

5.1 対応解像度とフレーム数

解像度アスペクト比用途
1280 x 72016:9横型HD
720 x 12809:16縦型(モバイル)
960 x 544~16:9中解像度
544 x 960~9:16中解像度縦型
720 x 7201:1正方形

フレーム設定:

設定備考
最大フレーム数129フレーム4x VAE圧縮後33潜在フレーム
FPS24 fps標準的な映画フレームレート
動画長さ~5.4秒129 / 24 = 5.375秒

5.2 ベンチマーク比較

VBench評価結果:

モデル総合視覚品質テキスト整合動き品質人物忠実度
HunyuanVideoトップクラス96.4%68.5%64.5%優秀
Soraトップクラス優秀中程度優秀非常に優秀
CogVideoX-1.5上位優秀優秀中程度弱い
Kling 1.6トップクラス優秀優秀優秀優秀

HunyuanVideoは特に人物忠実度動きの合理性の次元で強い結果を示している。

5.3 競合モデルとの比較

比較項目HunyuanVideoSora 2Runway Gen-3Kling 3.5
アクセスオープンソース商用商用商用
パラメータ数13B非公開非公開非公開
最大解像度720p1080p1080p1080p
最大長さ~5秒最大20秒最大10秒最大10秒
ローカル実行可能不可不可不可
カスタマイズLoRA対応不可限定的不可
コスト無料(GPU必要)API課金サブスクリプションAPI課金

6. HunyuanVideoの実践的な使い方

6.1 HuggingFaceモデルのダウンロード

# HunyuanVideoオリジナルモデル(13B)
pip install huggingface_hub
huggingface-cli download tencent/HunyuanVideo --local-dir ./HunyuanVideo

# HunyuanVideo 1.5(8.3B、軽量版)
huggingface-cli download tencent/HunyuanVideo-1.5 --local-dir ./HunyuanVideo-1.5

# Image-to-Videoモデル
huggingface-cli download tencent/HunyuanVideo-I2V --local-dir ./HunyuanVideo-I2V

6.2 Diffusersライブラリでの推論コード

基本的なText-to-Video推論:

import torch
from diffusers import HunyuanVideoPipeline, HunyuanVideoTransformer3DModel
from diffusers.utils import export_to_video

# モデルのロード
model_id = "tencent/HunyuanVideo"
transformer = HunyuanVideoTransformer3DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    torch_dtype=torch.bfloat16,
)
pipe = HunyuanVideoPipeline.from_pretrained(
    model_id,
    transformer=transformer,
    torch_dtype=torch.float16,
)
pipe.vae.enable_tiling()
pipe.to("cuda")

# 動画生成
output = pipe(
    prompt="A cat walks on the grass, realistic style, natural lighting",
    height=720,
    width=1280,
    num_frames=129,
    num_inference_steps=30,
    guidance_scale=6.0,
).frames[0]

# 動画の保存
export_to_video(output, "hunyuan_output.mp4", fps=24)

4bit量子化によるVRAM節約:

import torch
from diffusers import HunyuanVideoPipeline, HunyuanVideoTransformer3DModel
from diffusers.utils import export_to_video
from transformers import BitsAndBytesConfig

# INT4量子化設定
quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4",
)

# 量子化されたTransformerのロード
transformer = HunyuanVideoTransformer3DModel.from_pretrained(
    "tencent/HunyuanVideo",
    subfolder="transformer",
    quantization_config=quant_config,
)

pipe = HunyuanVideoPipeline.from_pretrained(
    "tencent/HunyuanVideo",
    transformer=transformer,
    torch_dtype=torch.float16,
)
pipe.vae.enable_tiling()

# 追加のVRAM節約のためのCPUオフロード
pipe.enable_model_cpu_offload()

output = pipe(
    prompt="A beautiful sunset over the ocean, cinematic",
    height=544,
    width=960,
    num_frames=65,
    num_inference_steps=30,
    guidance_scale=6.0,
).frames[0]

export_to_video(output, "quantized_output.mp4", fps=24)

6.3 主要パラメータガイド

パラメータデフォルト範囲説明
guidance_scale6.01.0-15.0プロンプト忠実度(高い = より忠実)
num_inference_steps3020-50脱ノイズステップ数(高い = 高品質だが遅い)
height720256-720動画の高さ(8の倍数)
width1280256-1280動画の幅(8の倍数)
num_frames12917-129総フレーム数(4k+1形式推奨)
seedランダム整数再現性のためのシード値

6.4 GPU VRAM要件

構成必要VRAM解像度備考
FP32(オリジナル)80GB以上720p 129fA100/H100が必要
BF16/FP16~40GB720p 129fA100 40GB
FP8量子化~24-30GB720p 129fRTX 4090対応
INT4量子化 + CPUオフロード~14-16GB544p 65fRTX 4080対応
HunyuanVideo 1.5 (FP8)~14GB480pコンシューマーGPU

6.5 LoRAファインチューニング

HunyuanVideoは特定のスタイル、キャラクター、動きパターンを学習するためのLoRAファインチューニングをサポートしている。

主要なLoRA学習ツール:

ツール特徴最小VRAM
Musubi Tuner (kohya-ss)最も人気のLoRA学習ツール24GB
ai-toolkit (ostris)マルチモデル対応24GB
diffusion-pipe (tdrussell)パイプラインベースの学習24GB
FineTrainers (HuggingFace)公式Diffusersベースツール24GB
fal.ai LoRA Trainingクラウドベース、セットアップ不要クラウド

7. LTX-Videoの概要

7.1 Lightricks社

Lightricksはイスラエルのエルサレムに本社を置くAIベースのクリエイティブテクノロジー企業である。2013年に設立され、Facetune、Videoleap、Photoleapなどのコンシューマー向け写真/動画編集アプリで広く知られている。モバイルクリエイティブツールでの経験を活かし、AI動画生成分野に参入した。

7.2 LTX-Video 1.0からLTX-2への進化

バージョンリリースパラメータ主要特徴
LTX-Video 0.92024年11月~2B初のオープンソース、リアルタイム
LTX-Video 0.9.8 (13B)2025年中期13B蒸留版、品質向上
LTX-22025年10月19B音声+動画の同時生成
LTX-2(オープンソース)2026年1月19B全重み/コードを公開

7.3 ほぼリアルタイムの動画生成速度

LTX-Videoシリーズの最大の差別化要因はそのリアルタイムより速い動画生成速度である。LTX-VideoはDiTベースの動画生成モデルとして初めてリアルタイム生成を達成したモデルの一つである。

[生成速度の比較(5秒の動画)]

モデル              生成時間     リアルタイム比
LTX-Video 1.0:    ~22.5倍速い
LTX-2:            ~3-5~リアルタイム
HunyuanVideo:     ~2-560倍遅い
CogVideoX:        ~3-8100倍遅い
Mochi:            ~5-10120倍遅い

H100 GPU、768x512解像度)

7.4 Text-to-VideoとImage-to-Videoのサポート

LTX-2はText-to-VideoとImage-to-Videoに加えて、音声と動画の同時生成を提供する。

機能LTX-Video 1.0LTX-2
Text-to-Video対応対応
Image-to-Video対応対応
音声生成非対応同期音声の同時生成
4K解像度非対応ネイティブ4K(3840x2160)
50fps非対応対応
キーフレーム条件付け限定的完全対応

8. LTX-2アーキテクチャ分析

8.1 全体アーキテクチャ

LTX-2は3つのコアコンポーネントで構成される:(1) モダリティ固有VAE、(2) テキスト埋め込みパイプライン、(3) 非対称デュアルストリームDiT。

[LTX-2 全体アーキテクチャ]

テキストプロンプト
     |
     v
+-------------+
| Text Encoder |  (Gemmaベース)
| + Prompt     |
|   Enhancer   |
+------+------+
       |
       v
+------------------------------------------+
|        非対称デュアルストリームDiT          |
|                                          |
|  +------------------+  +-------------+   |
|  | 動画ストリーム    |  | 音声ストリーム|  |
|  | (広いチャネル、   |  | (狭い、     |   |
|  |  高容量)          |  |  軽量)      |   |
|  +--------+---------+  +------+------+   |
|           |      Cross-Attention  |       |
|           +----------+-----------+       |
+------------------------------------------+
       |                    |
       v                    v
+-------------+      +-------------+
| Video VAE   |      | Audio VAE   |
| Decoder     |      | Decoder     |
| (3D時空間)  |      | (1D時間)    |
+------+------+      +------+------+
       |                    |
       v                    v
   動画出力             音声出力
       |                    |
       +--------+-----------+
                |
                v
         最終AV出力(MP4

8.2 Video VAE(高圧縮比 - 1:192)

LTX-2のVideo VAEは1:192という非常に高い圧縮比を実現する。これはHunyuanVideoの~47:1の比率の約4倍に相当する。

VAE圧縮比の比較:

モデル空間時間潜在Ch全体比率
LTX-232x328x128ch1:192
HunyuanVideo8x84x16ch~1:47
CogVideoX8x84x16ch~1:47
Wan 2.18x84x16ch~1:47

高い圧縮比は以下の利点をもたらす:

  1. 潜在トークンの削減:DiTが処理すべきトークン数を大幅に削減し、推論速度を向上
  2. メモリ効率:より少ないVRAMで高解像度動画の処理が可能
  3. 学習の高速化:学習時の計算量を削減

8.3 非対称デュアルストリームDiT

LTX-2のDiTは、動画と音声のモダリティの特性の違いを反映した非対称デュアルストリーム構造を採用している。

非対称設計の根拠:

特性動画ストリーム音声ストリーム
次元3D(空間 + 時間)1D(時間)
複雑さ高い(時空間)中程度(時間)
チャネル幅広い(高容量)狭い(軽量)
位置埋め込み3D位置1D時間
データ特性ピクセルベースの視覚周波数ベースの音声

8.4 テキストエンコーダ

LTX-2はGemmaベースのテキストエンコーダを使用する。enhance_prompt機能により、シンプルなユーザープロンプトを自動的に拡張して、より良い結果を得ることができる。

8.5 速度最適化技術

最適化手法説明速度向上
高VAE圧縮潜在トークン数を大幅に削減主要因
蒸留推論8ステップ蒸留モデルが利用可能5-10倍
FP8 Transformer量子化された重み~2倍
2段階パイプラインステージ1(生成)+ ステージ2(拡大)効率的
勾配推定40ステップ → 20-30ステップに削減~1.5倍

9. LTX-2の主要機能

9.1 リアルタイム生成速度

解像度フレーム数長さ生成時間(H100)リアルタイム比
768x5121215秒~2秒2.5倍速い
1216x7041215秒~5秒~リアルタイム
1920x10801215秒~15秒3倍遅い
3840x21601215秒~60秒12倍遅い

9.2 高解像度と多様な出力オプション

対応解像度:

解像度アスペクト用途必要VRAM
768 x 5123:2高速プロトタイピング~8-12GB
1216 x 704~16:9標準制作~16GB
1920 x 108016:9フルHD~24GB
3840 x 216016:94K UHD48GB以上

9.3 同期音声-動画生成

LTX-2の革新的な機能の一つは、音声と動画を同時に生成することである。別途の音声生成モデルなしに、動画の内容に合った音声が自動的に生成される。

9.4 キーフレーム条件付け

LTX-2はキーフレーム条件付けをサポートしており、特定のフレームを指定してその間を自然に補間できる。

9.5 LoRAサポート

LTX-2はLoRAの学習と推論を公式にサポートしており、GitHubリポジトリに学習コードが含まれている。


10. LTX-2の実践的な使い方

10.1 インストールと環境構築

# 1. Python環境(3.10以上を推奨)
conda create -n ltx2 python=3.10
conda activate ltx2

# 2. 公式LTX-2パッケージのインストール
pip install ltx-pipelines

# 3. またはソースからインストール
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
pip install -e "packages/ltx-pipelines[all]"
pip install -e "packages/ltx-core[all]"

# 4. モデル重みのダウンロード
huggingface-cli download Lightricks/LTX-2 --local-dir ./models/ltx2

10.2 Python推論コード例

Text-to-Videoの基本例:

from ltx_pipelines import TI2VidTwoStagesPipeline

# パイプラインの初期化
pipe = TI2VidTwoStagesPipeline.from_pretrained(
    "Lightricks/LTX-2",
    device_map="auto",
    enable_fp8=True,  # FP8でVRAM節約
)

# 動画生成
result = pipe(
    prompt="A serene mountain lake at sunrise, mist rising from the water, "
           "birds flying overhead, cinematic quality",
    negative_prompt="blurry, low quality, distorted",
    height=704,
    width=1216,
    num_frames=121,
    frame_rate=24,
    num_inference_steps=30,
    cfg_guidance_scale=7.5,
    seed=42,
    enhance_prompt=True,  # 自動プロンプト拡張
)

# 保存
result.save("ltx2_output.mp4")

Image-to-Videoの例:

from ltx_pipelines import TI2VidTwoStagesPipeline
from PIL import Image

pipe = TI2VidTwoStagesPipeline.from_pretrained(
    "Lightricks/LTX-2",
    device_map="auto",
    enable_fp8=True,
)

# 入力画像のロード
input_image = Image.open("input_photo.jpg")

# I2V生成
result = pipe(
    prompt="The scene comes alive with gentle wind blowing through the trees",
    images=[input_image],
    height=704,
    width=1216,
    num_frames=121,
    frame_rate=24,
    num_inference_steps=30,
    cfg_guidance_scale=7.5,
    seed=42,
)

result.save("ltx2_i2v_output.mp4")

10.3 主要パラメータ

パラメータデフォルト範囲説明
prompt必須文字列動画の説明
negative_promptなし文字列除外する要素
height70432の倍数動画の高さ
width121632の倍数動画の幅
num_frames1218k+1形式総フレーム数
frame_rate2424/30/50フレーム毎秒
num_inference_steps308-50脱ノイズステップ数
cfg_guidance_scale7.51.0-15.0プロンプト忠実度
seedランダム整数再現性シード
enhance_promptFalseTrue/False自動プロンプト拡張
enable_fp8FalseTrue/FalseFP8量子化の使用

10.4 GPU要件

GPUVRAM推奨解像度備考
RTX 3060/40608-12GB540p、4秒FP8必須、基本的
RTX 3080/4070 Ti12-16GB768x512、5秒FP8推奨
RTX 409024GB1080p、5秒標準的な使用
A10040-80GB4K、10秒プロダクション
H10080GB4K、10秒最適なパフォーマンス

11. HunyuanVideo vs LTX-2の詳細比較

11.1 アーキテクチャ比較

項目HunyuanVideoLTX-2
パラメータ数13B (v1) / 8.3B (v1.5)19B
DiT構造Dual-to-Single Stream非対称デュアルストリーム
VAE構造3D Causal VAEVideo VAE + Audio VAE
VAE比率~1:471:192
空間圧縮8x832x32
時間圧縮4x8x
潜在Ch16128
テキストエンコーダMLLM(Decoder-Only)Gemma
学習方法Flow MatchingDiffusion(Flowベース)
アテンションFull 3Dアテンション双方向Cross-Attn

11.2 性能と品質の比較

比較項目HunyuanVideoLTX-2勝者
視覚品質非常に高い高いHunyuanVideo
動きの自然さ非常に高い高いHunyuanVideo
テキスト整合高い高い同等
人物生成優秀良好HunyuanVideo
最大解像度720p4KLTX-2
音声生成非対応同期生成LTX-2
フレームレート24fps最大50fpsLTX-2

11.3 速度比較

条件HunyuanVideoLTX-2差異
768x512、5秒(H100)~120秒~3秒LTX-2が~40倍速い
1280x720、5秒(H100)~300秒~10秒LTX-2が~30倍速い
1280x720、5秒(RTX 4090)~600秒~30秒LTX-2が~20倍速い

11.4 ユースケース別モデル選択ガイド

[シナリオ別推奨モデル]

「最高品質の動画が必要」
  --> HunyuanVideo(v1、13B)
  理由: Full Attention + 13Bで最高の視覚品質

「コンシューマーGPUでローカル実行したい」
  --> LTX-2FP8)またはHunyuanVideo 1.5
  理由: LTX-2は12GBで動作、HV 1.5は14GBで動作

「高速な反復作業が必要」
  --> LTX-2(蒸留版)
  理由: ほぼリアルタイムの生成速度

「音声付きの動画が必要」
  --> LTX-2
  理由: 音声-動画の同時生成が可能な唯一のモデル

「特定のキャラクター/スタイルを学習したい」
  --> HunyuanVideo + LoRA
  理由: 豊富なLoRAエコシステム

「4K高解像度が必要」
  --> LTX-2
  理由: ネイティブ4Kサポート

「人物/顔の生成が重要」
  --> HunyuanVideo
  理由: 優秀なHuman Fidelityベンチマーク

12. オープンソース動画生成モデルエコシステムの比較

12.1 包括的なモデル比較

項目HunyuanVideoLTX-2Wan 2.1CogVideoXMochi 1
開発者TencentLightricksAlibabaZhipu/清華大学Genmo
パラメータ数13B19B1.3B / 14B5B / 10B10B
最大解像度720p4K720p720p480p
最大長さ~5秒~10秒~5秒~6秒~5.4秒
最大FPS2450243030
VAE比率1:471:1921:471:471:12
音声非対応対応V2A別モデル非対応非対応
最小VRAM14GB (v1.5)8-12GB8GB (1.3B)4.4GB (INT8)20GB (ComfyUI)
速度遅い非常に速い中程度中程度遅い
I2V対応別モデル統合統合対応非対応
LoRA対応対応対応対応限定的

13. プロンプトエンジニアリングのコツ

13.1 効果的な動画プロンプトの書き方

プロンプト構造(SAECフレームワーク):

[Subject] + [Action] + [Environment] + [Camera/Cinematography]

S(Subject):      主体 - 何が/誰がメインか
A(Action):       動作 - 何が起きているか
E(Environment):  環境 - どこで、どんな雰囲気か
C(Camera):       カメラ - どう撮影されているか

良いプロンプト vs 悪いプロンプト:

タイププロンプト問題点/強み
悪い"A nice video of nature"曖昧すぎる
普通"A dog running in a park"具体性が不十分
良い"A golden retriever running through a sunlit meadow, wildflowers swaying, warm golden hour lighting"具体的 + 環境描写
優秀"Medium tracking shot of a golden retriever running joyfully through a sunlit meadow, wildflowers swaying gently in the breeze, warm golden hour lighting, shallow depth of field, 35mm cinematic lens, natural color grading"SAECの完全適用

13.2 映像撮影用語

カメラの動き:

用語説明
Pan水平回転"Slow pan across the landscape"
Tilt垂直回転"Tilt up to reveal the building"
Dolly前後移動"Dolly in on the subject's face"
Tracking Shot追従撮影"Tracking shot following the car"
Crane Shotクレーン"Crane shot rising above the city"
Static固定"Static shot of the waterfall"
Handheld手持ち"Handheld camera, documentary style"

13.3 ネガティブプロンプトの使い方

汎用ネガティブプロンプトテンプレート:

# 基本的な品質制御
"blurry, low quality, distorted, deformed, ugly, bad anatomy,
watermark, text overlay, logo, grainy, noisy"

# 人物生成時の追加
"extra fingers, mutated hands, poorly drawn hands, poorly drawn face,
mutation, deformed, extra limbs, missing limbs"

モデル別ネガティブプロンプト対応:

モデルネガティブプロンプト推奨事項
HunyuanVideo公式サポートなし代わりにguidance_scaleを使用
LTX-2対応積極的な使用を推奨
Wan 2.1対応積極的な使用を推奨
CogVideoX対応積極的な使用を推奨

14. 今後の展望

14.1 動画生成モデルの発展方向

主要な発展方向:

方向性現状予想される発展
動画の長さ5-10秒分単位への拡大
解像度720p-4K8K、HDR対応
物理精度基本的精密な物理シミュレーション
キャラクター一貫性限定的マルチショットナラティブ
生成速度リアルタイム〜分リアルタイムストリーミング
マルチモーダルAV初期段階AV + 字幕 + 音声
編集基本的AIベースの自動編集
インタラクションなしリアルタイムインタラクティブ

14.2 注目すべき技術トレンド

  1. MoEアーキテクチャ:Wan 2.2で導入され、モデル効率を大幅に向上
  2. 蒸留技術:大規模モデルの知識を小規模モデルに転移して高速化
  3. マルチモーダル統合:動画 + 音声 + テキストの完全な統合生成
  4. LoRAエコシステムの成長:コミュニティ主導の特化型モデルの爆発的増加
  5. エッジデバイス展開:モバイル/エッジデバイスでの動画生成の可能性

15. References

論文

論文著者リンク
HunyuanVideo: A Systematic Framework For Large Video Generative ModelsTencent Hunyuan TeamarXiv:2412.03603
HunyuanVideo 1.5 Technical ReportTencent Hunyuan TeamarXiv:2511.18870
LTX-Video: Realtime Video Latent DiffusionLightricks ResearcharXiv:2501.00103
LTX-2: Efficient Joint Audio-Visual Foundation ModelLightricks ResearcharXiv:2601.03233

GitHubリポジトリ

リポジトリ説明リンク
Tencent-Hunyuan/HunyuanVideoHunyuanVideo公式リポジトリGitHub
Tencent-Hunyuan/HunyuanVideo-1.5HunyuanVideo 1.5公式リポジトリGitHub
Lightricks/LTX-2LTX-2公式リポジトリGitHub
Lightricks/ComfyUI-LTXVideoLTX ComfyUI統合GitHub
kohya-ss/musubi-tunerHunyuanVideo LoRA学習ツールGitHub
Wan-Video/Wan2.1Wan 2.1公式リポジトリGitHub
zai-org/CogVideoCogVideoXリポジトリGitHub
genmoai/mochiMochi 1リポジトリGitHub

HuggingFaceモデルページ

モデルリンク
tencent/HunyuanVideoHuggingFace
tencent/HunyuanVideo-1.5HuggingFace
tencent/HunyuanVideo-I2VHuggingFace
Lightricks/LTX-2HuggingFace
Lightricks/LTX-VideoHuggingFace
Wan-AI/Wan2.1-T2V-14BHuggingFace

Diffusersドキュメント

ドキュメントリンク
HunyuanVideo PipelineDiffusers Docs
HunyuanVideo 1.5 PipelineDiffusers Docs
LTX-Video PipelineDiffusers Docs

その他リソース

リソース説明リンク
VBench動画生成ベンチマークGitHub
VBench-2.0 Paper拡張ベンチマークarXiv:2503.21755
ComfyUI HunyuanVideo TutorialComfyUI使用ガイドDocs
ComfyUI LTX-2 GuideLTX-2 ComfyUIガイドDocs
LTX-2 System Requirements公式HWガイドDocs
NVIDIA LTX-2 GuideRTX GPUガイドNVIDIA

クイズ

Q1: 「HunyuanVideoとLTX-2の完全分析:オープンソース動画生成モデルのアーキテクチャ・性能・実践ガイド」の主なトピックは何ですか?

Tencent HunyuanVideo(13B)とLightricks LTX-2(19B)のアーキテクチャ、学習手法、性能ベンチマークを詳細に分析。Wan 2.1、CogVideoX、Mochiを含むオープンソース動画生成エコシステムの包括的比較と実践的な使用ガイド。

Q2: HunyuanVideoアーキテクチャの詳細分析について説明してください。 HunyuanVideoのアーキテクチャは3つのコアコンポーネントで構成される:(1) MLLMテキストエンコーダ、(2) 3D Causal VAE、(3) Dual-Stream to Single-Stream DiT。 3.1 Dual-Stream to Single-Stream DiT設計 HunyuanVideoの最も特徴的なアーキテクチャ要素は、その「Dual-Stream to Single-Stream」Diffusion Transformer(DiT)設計である。これは既存のDiTモデルとの差別化を図る中核的な設計思想である。

Q3: HunyuanVideoの学習データと手法の核心的な概念を説明してください。 4.1 大規模データキュレーションパイプライン HunyuanVideoの学習データは、生データから最終学習データまで複数段階のフィルタリングと評価を含む体系的なキュレーションパイプラインを通じて準備される。 4.2 多段階学習戦略 HunyuanVideoは段階的学習(Progressive Training)戦略を採用し、低解像度から始めて徐々に解像度を上げていく。 学習ステージの設定:

Q4: HunyuanVideoのモデル仕様と性能の主な特徴は何ですか? 5.1 対応解像度とフレーム数 フレーム設定: 5.2 ベンチマーク比較 VBench評価結果: HunyuanVideoは特に人物忠実度と動きの合理性の次元で強い結果を示している。 5.3 競合モデルとの比較

Q5: HunyuanVideoの実践的な使い方はどのように機能しますか? 6.1 HuggingFaceモデルのダウンロード 6.2 Diffusersライブラリでの推論コード 基本的なText-to-Video推論: 4bit量子化によるVRAM節約: 6.3 主要パラメータガイド 6.4 GPU VRAM要件 6.5 LoRAファインチューニング HunyuanVideoは特定のスタイル、キャラクター、動きパターンを学習するためのLoRAファインチューニングをサポートしている。 主要なLoRA学習ツール: