- Published on
AI動画生成 2026 — Sora 2 / Veo 3 / Kling 2 / Hailuo / Runway Gen-4 / Luma Ray 2 / HunyuanVideo 徹底ガイド
- Authors

- Name
- Youngju Kim
- @fjvbn20031
AI Video Generation 2026 — 2024年2月のSora 1デモから2年。2026年5月時点でAI動画生成市場はクローズドSOTA(OpenAI・Google・Kuaishou・MiniMax)、業界標準ツール(Runway・Luma・Pika)、本格的なオープンウェイト勢(Hunyuan・LTX・Wan・Open-Sora)の三極体制に固まった。本記事はその地形図である。
- Prologue — 2年で何が変わったか
- 1章 · 2026年のAI動画地図 — クローズド/業界ツール/オープン
- 2章 · Sora 2 (OpenAI) — 第1世代から第2世代へ
- 3章 · Veo 3 (Google) — 合成音声+会話同期
- 4章 · Kling 2 (Kuaishou) — 中国の最強動画モデル
- 5章 · Hailuo (MiniMax) — 中国のもう一人の強者
- 6章 · Runway Gen-4 — 映像業界の標準
- 7章 · Luma Ray 2 — Dream Machineの後継
- 8章 · Pika 2 — Image-to-Videoへの転換
- 9章 · HunyuanVideo (Tencent, オープン) — 初の本格的なオープン対抗馬
- 10章 · LTX-Video / Wan 2.1 / Open-Sora — オープン勢
- 11章 · Diffusion Transformer (DiT) の技術背景
- 12章 · 音声・音楽結合 — Lyria 2 / Suno / Udio / ElevenLabs SFX
- 13章 · 日本・韓国 — Sakana AI、KAIST、Naver
- 14章 · 誰が何を選ぶべきか — ワークロード別推薦
- 15章 · まとめ — 2026年AI動画の全体像
- 参考 / References
Prologue — 2年で何が変わったか
2024年2月16日、OpenAIはSora 1のデモを公開した。東京の街を歩く女性、宇宙から見た地球、ジャングルの上を飛ぶ紙飛行機 — すべて1080p、最長60秒、テキストプロンプト一本から生成。同年11月にSora公式APIが開放されたものの、画質・尺・物理整合性にはまだ粗があった。
2年後の2026年5月、風景は完全に違う。
- Sora 2 (OpenAI, 2025年10月) — 4K、120秒、キャラクター一貫性、精緻なカメラ制御。ChatGPT Plus内で直接利用可能。
- Veo 3 (Google DeepMind, 2025年6月) — 映像と同期した音声・会話・音楽を生成する初の主要モデル。
- Kling 2 (Kuaishou, 2025年4月) — 中国発の最強動画モデル。2024年6月のKling 1.0は、Sora 1デモから4ヶ月でほぼ同等の品質を一般公開した。
- Hailuo (MiniMax, 2024年〜) — 中国のもう一つの強者。寛大な無料枠で広いユーザー層を獲得。
- HunyuanVideo (Tencent, 2024年12月) — 初の本格的なオープンウェイト競合。13Bパラメータ、Apache 2.0互換ライセンス。
- Runway Gen-4 (2025) — 映画・広告業界の事実上の標準。Adobe Creative・After Effectsとの深い統合。
- Luma Ray 2 (2025) — Dream Machineの後継。カメラモーションと物理整合性を重視。
- Pika 2 — image-to-videoへピボット。「写真を動かす」市場。
- LTX-Video (Lightricks, 2024年11月) — リアルタイム未満のレイテンシ、オープンウェイト、コンシューマGPUで動作。
- Wan-2.1 (Alibaba, 2025年2月) — もう一つの強力なオープンウェイト。
- Open-Sora (HPC-AI Tech) — アカデミックなオープンソース、Sora風アーキテクチャの再実装。
ここに音声側が合流した。Google Lyria 2、Suno v4、Udioが音楽を、ElevenLabs SFXが効果音を、HeyGen・Synthesiaがリップシンクを担当する。2024年の「動画はここ、音楽はあっち、リップシンクは別」というバラバラなパイプラインが、2026年には単一ワークフローに統合された。
本記事は14章で地形図を整理し、最後に「誰が何を選ぶべきか」をまとめる。
1章 · 2026年のAI動画地図 — クローズド/業界ツール/オープン
1.1 三極構造
2026年5月時点、AI動画市場は三グループに分かれる。
| 陣営 | 代表 | 強み | 弱み |
|---|---|---|---|
| クローズドSOTA | Sora 2, Veo 3, Kling 2, Hailuo | 品質・尺・一貫性で圧倒 | 価格、制約、透かし |
| 業界標準ツール | Runway Gen-4, Luma Ray 2, Pika 2 | ワークフロー統合、細かな制御 | 純粋な品質ではSOTAに少し劣る |
| オープンウェイト | HunyuanVideo, LTX, Wan 2.1, Open-Sora | 自己ホスト、ファインチューニング可 | 品質・尺のギャップは残る |
これはLLM市場のGPT-4・Claude・Gemini / Anthropic API互換OSS / Llama・Qwen構造とほぼ同じ。動画は1〜2年遅れで同じパターンを辿っている。
1.2 評価4軸
- 品質(quality) — 解像度、ディテール、テクスチャの一貫性
- 時間的整合性(temporal coherence) — キャラクター・物体がフレーム間で一貫しているか
- 物理(physics) — 重力、衝突、液体、布の挙動が自然か
- 制御(control) — プロンプトだけでなく、カメラ・キャラクター・スタイルをどこまで細かく制御できるか
この4軸を全て満たすモデルはまだない。広告インサートか、短編映画のプリビズか、ソーシャル向けかによって優先する軸が変わる。
1.3 仕様表
| モデル | 最大解像度 | 最大尺 | 音声同期 | ライセンス |
|---|---|---|---|---|
| Sora 2 (OpenAI) | 4K | 120s | 別途 | クローズド、API |
| Veo 3 (Google) | 4K | 60s | 同時生成 | クローズド、Vertex AI |
| Kling 2 (Kuaishou) | 1080p | 30s | なし | クローズド、Web |
| Hailuo (MiniMax) | 1080p | 10s | なし | クローズド、API |
| Runway Gen-4 | 1080p | 16s | なし | クローズド、SaaS |
| Luma Ray 2 | 1080p | 10s | なし | クローズド、API |
| Pika 2 | 720p〜1080p | 10s | なし | クローズド、API |
| HunyuanVideo (Tencent) | 720p | 5s | なし | オープン、13B |
| LTX-Video (Lightricks) | 720p | 5s | なし | オープン、2B |
| Wan 2.1 (Alibaba) | 720p | 5s | なし | オープン、14B |
| Open-Sora | 720p | 16s | なし | オープン、MIT |
短い尺は「単一生成での最大尺」。複数生成をつなげて長尺にするのは別ワークフロー。
2章 · Sora 2 (OpenAI) — 第1世代から第2世代へ
2.1 Sora 1 → Sora 2
Sora 1は2024年2月にデモ、11月に正式公開。当時のスペック:
- 最大尺: 60秒(当時最長級)
- 解像度: 1080p
- 弱点: 指がねじれる、カット間で衣装が変わる、歩行が不自然
2025年10月のSora 2で変わった点:
- 最大尺: 120秒まで
- 解像度: 4Kオプション
- キャラクター一貫性: 同じプロンプト内でキャラ外見が維持される。「キャラクターメモリ」と呼ばれる
- カメラ制御: 明示的なカメラモーション・トークン(zoom in, dolly out, orbit left)
- 物理: 液体・衝突・重力の処理が改善
OpenAIはSora 2をChatGPT Plus / Team / Enterpriseに直接統合した。APIは別申請。
2.2 価格と速度
2026年5月時点:
- ChatGPT Plus (
$20/mo): 標準解像度12秒まで含まれる、それ以上はクレジット - API: 1秒あたり約
$0.30〜$0.50(解像度・尺による) - 生成時間: 12秒クリップで1〜3分
動画生成はテキスト生成の100倍以上のコストがかかり、価格にそのまま反映されている。
2.3 プロンプト例
A close-up of a Korean street food vendor flipping hotteok on a hot grill,
steam rising, the camera slowly dollies in from the left.
Time of day: golden hour. Style: cinematic, shallow depth of field.
Duration: 8 seconds. Aspect ratio: 16:9.
Sora 2はカメラ動作、時刻、スタイル、尺/アスペクト比をメタデータとして明示的に認識する。
2.4 キャラクターメモリ
Sora 2の大きな進化の一つ。一つの生成で登場したキャラクターを次の生成でも同じ外見で維持できる。広告シーケンスや短編に非常に有用。
[Shot 1] A woman in a red coat walks into a Tokyo subway station at night.
[Shot 2] (Same woman, same coat) She buys a ticket from the machine.
[Shot 3] (Same woman) The train arrives, she steps in.
業界の反応は「これで絵コンテが描ける」。広告プリビズのコストが1/10になったという報告が多い。
2.5 弱点
- 日本語・韓国語テキストが画面に出るシーンは依然崩れる。英語テキストも時々揺れる
- 高速アクション(スポーツ、格闘)で手足が伸びる
- ウォーターマークが常に入る(APIではオプションで外せる)
- C2PAコンテンツ証明メタデータが全出力に埋め込まれる
3章 · Veo 3 (Google) — 合成音声+会話同期
3.1 Veo 1 → 2 → 3
Google DeepMindのVeoは2024年5月のGoogle I/OでVeo 1を発表。12月にVeo 2、2025年6月にVeo 3。最大の変化はVeo 3で導入された合成音声。
Veo 3は映像と同期した次の4つを同時に生成する。
- 動画(video)
- 環境音(ambient audio) — 街の音、雨、風
- 会話(dialogue) — キャラの口元と同期した音声
- 音楽(music) — Lyria 2と統合されたBGM
これが何を意味するかというと、2024年まで「AI動画」と言えば無音クリップだった。ユーザーが別途BGM・SFX・リップシンクを足す必要があった。Veo 3はこれを一つのプロンプトから同時生成する。
3.2 プロンプト例
A barista in a Tokyo cafe pours coffee while explaining the beans to a customer.
She says in Japanese: "これはエチオピアのイルガチェフェです、花のような香りがします。"
The customer nods. Background: light jazz, gentle espresso machine sounds.
Veo 3はこのプロンプトから、バリスタがコーヒーを注ぐ映像、日本語の自然な発音(リップシンク付き)、ジャズBGM+エスプレッソマシンの音、を全て同期して出力する。日本語・韓国語・中国語のような非英語もうまく処理する。
3.3 価格とアクセス
- Google Vertex AI経由のAPI
- Google AI Studio (
aistudio.google.com) で無料枠内で試せる - 価格: 音声付き8秒クリップで約
$0.50〜$1.00 - Google Workspace Business / Enterpriseに直接統合
3.4 強みと弱み
強み
- 映像+音声を一度に。ワークフローが1段階に圧縮
- 多言語会話(英語、日本語、韓国語、中国語、スペイン語など)が自然
- Google Workspace統合 — Slides/Docsに直接入る
弱み
- 60秒の尺制限(Sora 2の半分)
- カメラ制御はSora 2より粗い
- 米国外で利用可能になるタイミングが遅れる時期があった
4章 · Kling 2 (Kuaishou) — 中国の最強動画モデル
4.1 Kling 1 → 2 — 4ヶ月の衝撃
2024年6月、Sora 1デモから4ヶ月後。中国の動画SNS企業Kuaishou(快手)がKling 1.0を一般公開した。衝撃だったのは:
- Sora デモとほぼ同等の品質 — それまでOpenAIのデモしか見ていなかった世界に、似たものを出せる存在が突然現れた
- 誰でも無料で使えた — Sora がクローズドな待機リストに閉じられていた間に、Klingが圧倒的なユーザーベースを築いた
その後Klingは1.5、1.6、2.0(2025年4月)と高速にアップデート。2026年5月時点のKling 2:
- 1080p, 30秒
- カメラモーション制御 — Sora 2同様の明示的トークン
- Image-to-Video — 最初のフレームと最後のフレーム両方を指定可
- Multi-shot — 一つのプロンプト内で複数カット自動分割
4.2 なぜ速いか
KuaishouはTikTokと競合する中国の動画SNS。自前の動画データが膨大(数百億時間レベル)。これがKlingの学習データ的アドバンテージ。
もう一つ、中国のAI企業はLLM同様、動画でも極端に速いイテレーションサイクルを示している。2024年6月〜2025年4月の間にKlingは1.0 → 1.5 → 1.6 → 2.0。同じ期間でSoraは1.0 → 2.0。
4.3 価格とアクセス
klingai.com(海外) /kling.kuaishou.com(中国)- 毎日無料クレジット、有料は月
$10〜$60 - グローバル登録可、クレジットカードがあれば誰でも
4.4 弱点
- 検閲・政治的にセンシティブなコンテンツの自動ブロック(中国企業特有のポリシー)
- 日本語・韓国語テキストが画面に出るシーンは崩れる
- C2PAメタデータ非提供、出所追跡は難しい
- 価格が頻繁に変わる、無料枠もよく変わる
5章 · Hailuo (MiniMax) — 中国のもう一人の強者
5.1 MiniMaxとは
MiniMaxは上海本社の中国AI企業。2023年からLLMと動画・音声モデルを並行開発。Hailuo(海螺)が彼らの動画ブランド。
2024年8月にHailuoが公開された時、「Soraに直接アクセスできないユーザー向けの代替」というポジションだった。Klingほど強くはなかったが、無料枠が寛大だった。
2026年5月時点のHailuo:
- 1080p, 10秒
- 最初のフレーム・最後のフレーム両方を指定可能 (Image-to-Video)
- 寛大な毎日無料クレジット
- Director Mode — カメラ動作トークン制御
5.2 強み
- 最も寛大な無料枠 — 学生・趣味用に最適
- グローバル登録が簡単
- 生成が速い — 6秒クリップが30秒以内
- Image-to-video品質 — 人物写真を動画にするシナリオで強い
5.3 弱み
- 最大10秒と短い
- キャラクター一貫性はSora 2・Kling 2より弱い
- 利用規約・検閲面はKlingと同様、中国特有
5.4 Kling vs Hailuo
| 軸 | Kling 2 | Hailuo |
|---|---|---|
| 最大尺 | 30s | 10s |
| 解像度 | 1080p | 1080p |
| カメラ制御 | 強い | 中程度 |
| 無料枠 | 普通 | 寛大 |
| グローバルアクセス | 容易 | 容易 |
| 価格 | $10〜$60/mo | $5〜$30/mo |
中国動画モデルではKlingがSOTA、Hailuoがコストパフォーマンス枠。両者とも進化が速い。
6章 · Runway Gen-4 — 映像業界の標準
6.1 Runwayの位置
Runwayは2018年創業の映像+ML ツール企業。2022年にStable Diffusionの共同発表に名を連ね、2023年にGen-1・Gen-2でAI動画市場を商業的に開いた。
2024年6月のGen-3 Alphaを経て、2025年Gen-4へ。Runwayの強みは生のモデル品質ではなく、ワークフロー。
- Frames — キャラクター・スタイル・ロケーションの一貫性のためのリファレンス画像制御
- Director Mode — カメラ動作の細密制御
- Video-to-Video — 既存映像のスタイル変換
- Motion Brush — 動かす領域だけマスキング
- After Effectsプラグイン — コンポジット・パイプラインに直接統合
6.2 Gen-4のキャラクター一貫性
Gen-4最大の進化はリファレンス画像ベースのキャラクター一貫性。次のようなワークフローが簡単に。
[Reference image] character.png (顔写真)
[Prompt] Same character walking through Times Square at night, neon lights,
camera tracks behind.
これは広告・MV・短編で決定的。複数カットでキャラクターを維持するコストが劇的に下がる。
6.3 価格
- Standard
$15/mo— 625クレジット - Pro
$35/mo— 2,250クレジット - Unlimited
$95/mo - Enterprise — 相談
10秒クリップで約50クレジット(変動)。広告・メディア企業の規模では合理的。
6.4 誰が使うか
- 広告代理店(Ogilvy、Wieden+Kennedyなどが事例を公表)
- MVディレクター
- 短編映画・ドキュメンタリー
- After Effectsヘビーユーザー — プラグイン統合が深い
Sora 2が「画像一枚から天才的なクリップ」だとすれば、Runwayは「プロの映像ワークフローに自然に入る」。
7章 · Luma Ray 2 — Dream Machineの後継
7.1 Lumaの出自
Luma AIはNeRF(Neural Radiance Fields)研究出身の企業。2022〜2023年はNeRFベースの3DキャプチャアプリLuma AIで知られた。
2024年6月にDream Machineで動画生成市場に参入。Kling公開とほぼ同時。2025年にRay 1、2025年後半にRay 2へアップグレード。
7.2 Ray 2の特徴
- 物理整合性重視 — Lumaはカメラモーションと物理シミュレーション品質に集中。NeRF研究の背景が反映されている
- Keyframes — 最初・中間・最後のフレームを指定可
- カメラモーション制御 — orbit, dolly, zoom など映画的カメラ動作トークン
- API が整備されている — 開発者が自分のアプリに統合しやすい
7.3 価格
- Free — 毎日30クレジット
- Standard
$9.99/mo - Pro
$29.99/mo - Premier
$94.99/mo - API — 5秒クリップで約
$0.50
7.4 Runway vs Luma
| 軸 | Runway Gen-4 | Luma Ray 2 |
|---|---|---|
| 映像品質 | 同等 | 同等 |
| カメラ制御 | 強い (Director Mode) | 強い (映画的トークン) |
| キャラ一貫性 | 強い (Frames, ref) | 普通 |
| ワークフロー統合 | After Effects、自社エディタ | API ファースト |
| 価格 | やや高め | 安め |
業界標準はRunway、API統合・物理整合性はLuma。両方とも有力な選択肢。
8章 · Pika 2 — Image-to-Videoへの転換
8.1 Pikaの変遷
Pika Labsは2023年にDiscordボットとしてスタート。Runwayと並んでAI動画市場の初期を開いた。
2024年後半のPika 2で戦略が変わった。「Sora・Veo・Klingのt2v市場で正面から戦う」のではなく、画像・キャラクター・短いソーシャルコンテンツにポジショニング。
Pika 2のコア機能:
- Pikaffects — 写真一枚から特殊効果動画を作る(「溶ける」「爆発」「圧縮」など)
- Pikascenes — 人物写真をシナリオに自然に挿入
- Lip-sync — 写真を喋らせる
- Image-to-videoが速い — 8秒クリップが30秒以内
8.2 誰が使うか
- ソーシャルメディアクリエイター(TikTok、Instagram Reels)
- ミーム制作者
- カジュアルユーザー — 「写真を動かす」
Sora 2の「70秒の短編映画」市場ではなく、8秒ソーシャル市場で強い。
8.3 価格
- Free — 毎日の枠
- Standard
$10/mo - Pro
$35/mo - Fancy
$95/mo
動画系インフルエンサー・ソーシャルマーケでコスパが良い。
9章 · HunyuanVideo (Tencent, オープン) — 初の本格的なオープン対抗馬
9.1 何が初めてだったか
2024年12月3日、TencentがHunyuanVideoを公開。それが事件だった理由:
- 13Bパラメータ — それまでに公開されたオープン動画モデルで圧倒的に大きい
- 品質がRunway Gen-3・Luma Dream Machineに匹敵 — クローズドSOTAに迫る初のオープンウェイト
- Apache 2.0互換ライセンス(いくつか制約あり) — 商用利用可能
LLMでLlama 2が「オープンウェイトでGPT-3.5に追いついた」瞬間を作ったのと同様に、動画ではHunyuanVideoがその瞬間だった。
9.2 アーキテクチャ
HunyuanVideoはDiT(Diffusion Transformer)とLatent Diffusionを組み合わせた構造。
- 3D VAE — 動画をlatent空間に圧縮
- DiTエンコーダ — 圧縮表現にdiffusionを適用
- MLLMテキストエンコーダ — マルチモーダルLLMをテキストエンコーダに(CLIPより豊かな表現)
- Flow matching — 学習段階でノイズ→動画マッピングをより効率的に
技術レポートが公開されているため、学界での引用も多い。
9.3 使い方
git clone https://github.com/Tencent/HunyuanVideo
cd HunyuanVideo
# 推奨: H100 または A100 80GB GPU
python sample_video.py \
--prompt "A cat playing piano in a jazz bar, warm light" \
--video-length 65 \
--infer-steps 50 \
--save-path ./outputs
7B派生もあり、RTX 4090でも回せる。ただし品質は13Bが圧倒的。
9.4 ComfyUIで
ComfyUI(ノードベースのワークフロー・ツール)が公式にHunyuanVideoノードをサポート。
[Load HunyuanVideo Model] - [CLIP Text Encode] - [HunyuanVideo Sampler] - [Video Combine]
動画クリエイターが自分のワークフローに統合する事例が急増。クローズドモデルの価格と比べてGPU費用だけで済むため。
9.5 弱点
- 5秒の尺制限(単一生成)
- 日本語・韓国語テキストが画面に出ると崩れる
- VRAM 60GB+必要(フルモデル)。量子化・LoRAで回避
10章 · LTX-Video / Wan 2.1 / Open-Sora — オープン勢
10.1 LTX-Video (Lightricks, 2024年11月)
LightricksはイスラエルのモバイルビデオエディタアプリFacetune、Videoleapの企業。2024年11月にLTX-Videoを公開。
- 2Bパラメータ — 小さめ
- 高速 — RTX 4090で5秒クリップを4秒未満(リアルタイム未満)
- オープンウェイト — 自己ホスト可能
- 商用利用可能ライセンス
LTXの意義は 「コンシューマGPUで動くAI動画モデル」。HunyuanVideoがH100級を要求する中、LTXは4090一枚で動く。
from diffusers import LTXPipeline
import torch
pipe = LTXPipeline.from_pretrained(
"Lightricks/LTX-Video", torch_dtype=torch.bfloat16
).to("cuda")
video = pipe(
prompt="A woman walking in the rain at night, neon city",
num_frames=121,
guidance_scale=3.0,
).frames[0]
10.2 Wan 2.1 (Alibaba, 2025年2月)
AlibabaはLLMでQwen、動画でWanを運営。Wan 2.1は2025年2月公開。
- 14Bパラメータ
- text-to-videoとimage-to-video両対応
- flow matchingベース
- 多言語プロンプト — 中国語・英語ともに良好
品質はHunyuanVideo相当。両モデルは頻繁に比較される。
10.3 Open-Sora (HPC-AI Tech)
Open-SoraはシンガポールNUS・HPC-AI Techの学術オープンソースプロジェクト。Sora 1デモ直後に「Soraアーキテクチャを再実装してみよう」と始まった。
- MITライセンス
- 学習コード・データパイプライン全公開
- 品質はHunyuanVideo・Wanよりやや劣る
- 研究・教育目的に非常に有用
動画モデル学習パイプラインを学ぶには良いコードベース。
10.4 オープン勢比較表
| モデル | パラメータ | 最大尺 | 最小GPU | ライセンス | 特徴 |
|---|---|---|---|---|---|
| HunyuanVideo (13B) | 13B | 5s | 60GB | Apache 2.0互換 | 品質最高 |
| HunyuanVideo (7B) | 7B | 5s | 24GB | Apache 2.0互換 | 折衷 |
| LTX-Video | 2B | 5s | 12GB | 商用OK | 速い・小さい |
| Wan 2.1 | 14B | 5s | 60GB | 商用OK | Hunyuan競合 |
| Open-Sora v2 | 11B | 16s | 40GB | MIT | 学術、16秒 |
オープン勢は2025年に一度爆発し、2026年はクローズドSOTAとのギャップが縮まっている。ただしキャラクター一貫性・マルチカットのような高度な制御では1年程度の差が残る。
11章 · Diffusion Transformer (DiT) の技術背景
11.1 なぜDiTか
2014年にGANが登場して以来、動画生成はGAN・VAE・Diffusionの間を行き来した。画像では2022年のStable DiffusionがLatent Diffusionで決着をつけた。動画は少し遅れた。
ターニングポイントはWilliam PeeblesとSaining Xieによる**DiT (Diffusion Transformer, 2023)**論文。「UNetベースのdiffusion」を「Transformerベースのdiffusion」に置き換える試み。
11.2 UNet vs Transformer
| 軸 | UNet diffusion | DiT |
|---|---|---|
| バックボーン | CNN ベース UNet | Vision Transformer |
| スケーリング | 構造的制約で難しい | LLM同様のスケーリング則 |
| 動画適用 | 時間軸が不自然 | 自然 |
| 学習安定性 | 検証済み | 新しいが安定 |
動画は本質的に(height, width, time)の3Dテンソル。UNetに時間軸を後付けするのは自然でない。Transformerはシーケンス処理が本業なので時間軸は追加トークンになるだけ。
この発見以降、ほぼ全ての主要動画モデルがDiT(またはその派生)に移行。Sora、Veo、Kling、HunyuanVideo、Open-Sora全てDiT系列。
11.3 Latent Diffusionが重要な理由
動画の1フレームは1024x1024 = 100万ピクセル。1秒24fpsだと2400万ピクセル。これをraw でdiffusionするのは不可能。
Latent Diffusionの核心: VAEで動画をlatent空間(例: 128x128x8 ≈ 13万)に圧縮し、latentでdiffusion。計算量が100倍以上減る。
動画モデルの最初のステップはほぼ常に3D VAE(Causal VAE)。HunyuanVideo、Wan、Open-Sora全て自前の3D VAEを学習して使う。
11.4 Flow Matching — 新しい学習法
2022〜2023年にdiffusionの代替として浮上したのがFlow Matching。
- Diffusion: ノイズ→動画パスをSDEで学習
- Flow Matching: ノイズ→動画パスをODEで学習。学習がより安定、推論がより速い
HunyuanVideo、Wan 2.1、Stable Diffusion 3いずれもflow matchingを採用。2026年時点の標準と言える。
11.5 テキストエンコーダ — CLIP からLLMへ
動画モデルのテキストプロンプト・エンコーディングは伝統的にCLIPを使った。2024〜2025年に変化が起きた。
- Stable Diffusion 3 — T5-XXLをテキストエンコーダに追加
- HunyuanVideo — MLLM(マルチモーダルLLM)自体をテキストエンコーダに
- Veo 3 — Geminiのテキストエンコーダを活用
長いプロンプト、複雑なシーン記述、多言語処理ではLLMベースのエンコーダが圧倒的。CLIPの77トークン制限を超えるだけでも大きな前進。
12章 · 音声・音楽結合 — Lyria 2 / Suno / Udio / ElevenLabs SFX
12.1 動画はもう無音ではない
2024年まで、AI動画はほぼ無音だった。Sora 1、Kling 1、Runway Gen-3すべてビデオトラックのみ出力。ユーザーが別途BGM・SFX・ナレーション・リップシンクを合成する必要があった。
2025年以降これが変わった。
12.2 Lyria 2 (Google DeepMind, 2024)
LyriaはGoogle DeepMindの音楽生成モデル。2024年に2.0公開。
- テキスト→音楽生成
- YouTube Shorts Dream Trackなどに統合
- Veo 3と統合 — Veo 3が動画生成時、LyriaがBGMを同時生成
12.3 Suno v4 / Udio
Suno(マサチューセッツ州ケンブリッジ)とUdio(元Google DeepMind関係者創業)は音楽生成最強の二社。
- Suno v4 — 歌詞+メロディを一度に。4分のフルレングス曲が可能
- Udio — 同等品質、より精緻な制御
動画クリエイターがBGMを必要とする時はほぼこの二つのどちらか。無料枠も寛大。
12.4 ElevenLabs Sound Effects
ElevenLabsの本業はTTSだが、2024年にSFX(効果音)生成モデルを追加。
- テキスト→サウンド — 「footsteps in snow」「thunder rumble」「espresso machine」
- 0〜22秒の長さ
- 十分な無料枠
動画SFXライブラリで見つかりにくい効果音を即時生成できる。
12.5 HeyGen / Synthesia — リップシンク専門
HeyGenとSynthesiaは「AIアバター+リップシンク」市場の二強。
- ユーザーが自分の顔動画をアップロード → AIアバター生成
- テキスト入力 → そのテキストをアバターが自然に発話(多言語)
- 社内研修・カスタマーサポート・セールスデモに多用
エンタープライズ市場ではHeyGen・Synthesiaが事実上の標準。
12.6 統合ワークフロー
2026年の動画コンテンツ制作ワークフロー例:
[Sora 2 または Kling 2] メイン動画 8秒
|
[Suno v4] BGM 30秒(動画よりやや長く)
|
[ElevenLabs SFX] 効果音(足音、環境音)
|
[ElevenLabs TTS] ナレーション
|
[CapCut / DaVinci / Premiere] 合成
またはVeo 3一つで全て終わらせることもできる(動画+音声を同時生成)。
13章 · 日本・韓国 — Sakana AI、KAIST、Naver
13.1 日本 — Sakana AI
Sakana AIは元Google Brain・DeepMindのDavid HaとLlion Jones(Transformer論文共著者)が東京で創業した企業。
- 進化的モデル合成 (Evolutionary Model Merging) — 複数モデルを自動組合せて新モデル生成
- DiffusionPipe / Sakana AI Scientist — diffusionモデル自動設計
- 日本政府・企業と協力し、日本語特化マルチモーダルモデルを開発
直接動画生成SaaSは出していないが、他社が使うコア技術を作っている。
13.2 日本の動画・アニメーションAI
日本はアニメーション産業と結びついた動画AIが特に活発。
- Stability AI Japan — Japanese Stable Diffusion、アニメスタイル特化
- AniPortrait / EMO — 人物写真+音声からリップシンクアニメ
- VOICEVOX と結合 — 音声合成と動画の結合ワークフロー
日本市場は特に「キャラクター一貫性」のドメインノウハウが豊富。
13.3 韓国 — KAIST・Naver・生成型動画スタートアップ
韓国学界はAI動画で次のような流れを示す。
- KAIST — Diffusion・Flow Matching理論研究。Jong Chul Ye教授グループなど
- Naver AI Lab — HyperCLOVA Xのマルチモーダル拡張、動画理解(VLM)と生成の両方
- Kakao Brain — Karlo (画像生成)、Sketch2Video研究
- スタートアップ — Lablup(モデルインフラ)、Snowmind、Twelve Labs(動画検索)
特にTwelve Labsは「AIが動画を理解する検索」で国際的に評価された。生成より理解寄り。NVIDIAとの協業事例多数。
13.4 学習データ・著作権ポリシーの違い
| 国 | 学習データポリシー | 出力著作権 |
|---|---|---|
| 米国 | フェアユース論争継続中 | 人間創作部分のみ認定 |
| EU | AI Act、opt-out明示 | 同様 |
| 日本 | 学習は明示的に許容(著作権法30条の4) | 特殊ケースで認定 |
| 韓国 | 法整備進行中 | 同様 |
| 中国 | 検閲強化、出力責任明示 | 特殊ケースで認定 |
日本の学習データポリシーが最も寛容で、日本はAI動画・画像モデル学習に親和的な地域と評価されている。
14章 · 誰が何を選ぶべきか — ワークロード別推薦
14.1 広告・ブランドインサート
推薦: Sora 2 または Veo 3
- Sora 2: キャラクターメモリ、4K、120秒 — 短い広告シーケンスをそのまま
- Veo 3: 音声同時生成 — 後処理コスト削減
- 予算: 広告一本の動画生成コスト
$50〜$500
広告代理店はRunway Gen-4も併用する場合が多い。広告プリビズはSora/Veo、最終コンポジットはRunway + After Effects。
14.2 映画・ドラマのプリビズ
推薦: Sora 2 + Runway Gen-4
- Sora 2のキャラクターメモリでコンテ動画作成
- Runway Gen-4のリファレンス画像でキャラ一貫性維持
- 監督・VFXスーパーバイザのワークフローに直接統合
映画業界事例: 短編映画のプリビズコストが従来 $30,000 から $3,000 に下がったという報告が多数。
14.3 ソーシャルコンテンツ(TikTok、Reels、Shorts)
推薦: Pika 2 + Hailuo + Suno
- Pika 2のエフェクト・リップシンク
- Hailuoの寛大な無料枠
- SunoのBGM
- 予算: 月
$20〜$50でフルワークフロー
14.4 学習・教育コンテンツ
推薦: HeyGen + ElevenLabs
- HeyGenアバター + ElevenLabs TTS
- 社内研修・オンライン講義・チュートリアル
- 多言語字幕・吹替が自動
14.5 ゲーム / インタラクティブ
推薦: LTX-Video + 自己ホスト
- 高速生成が決定的(ゲーム内で動的にコンテンツ生成)
- ライセンス問題のないオープンウェイト
- RTX 4090一枚で可能
14.6 研究・実験・アカデミック
推薦: HunyuanVideo + Open-Sora
- 学習パイプラインコードが全公開
- 自前データでファインチューニング可能
- 論文用reproducibility
14.7 予算表(月額)
| 利用シナリオ | 推薦ツール | 月額 (USD) |
|---|---|---|
| 趣味・実験 | Kling/Hailuo無料 + Pika | $0 |
| 個人クリエイター | Pika Pro + Suno | $30〜$50 |
| ソーシャルマーケ | Kling + Hailuo + Suno + ElevenLabs | $50〜$150 |
| 広告代理店 | Sora 2 API + Runway Pro + Veo 3 | $500〜$5,000 |
| 映画プリビズ | Sora 2 + Runway Unlimited + Luma | $1,000〜$10,000 |
| 自己ホスト(オープン) | HunyuanVideo/LTX + GPU レンタル | GPU費用のみ |
14.8 モデル選択の意思決定ツリー
[音声同期が必要?]
/ \
Yes No
| \
[Veo 3] [キャラクター一貫性が重要?]
/ \
Yes No
| \
[尺 30s+?] [ソーシャル短尺?]
/ \ / \
Yes No Yes No
| \ | \
[Sora 2] [Runway Gen-4] [Pika 2] [Kling/Hailuo]
15章 · まとめ — 2026年AI動画の全体像
3つの大きな流れ。
第一に、動画・音声・リップシンクが一つのワークフローに統合された。 Veo 3が起点を作り、Sora 3またはSora 2の次バージョンでも同じ方向が予想される。2024年の「別々のツールを組み合わせて使う」段階は終わった。
第二に、オープンウェイトがクローズドSOTAを1年差で追いかけている。 HunyuanVideo、Wan 2.1、LTXの登場で自己ホスト・ファインチューニングが現実的な選択肢になった。LLMでLlama 3がGPT-4に追いついたパターンと類似。ただしキャラクター一貫性・マルチカットのような高度な制御ではクローズドが約1年先行。
第三に、動画生成は「面白いデモ」から「量産ワークフロー」に移った。 広告、映画プリビズ、ソーシャルコンテンツ、社内研修 — 全てに事例報告が多数。2024年の「これデモでしょ?」段階から、2026年には「これで締め切りに間に合わせる」段階になった。
今後1〜2年の見どころは(1)Sora 3が本当にキャラクター一貫性を解決するか、(2)HunyuanVideo級のオープンモデルが1年以内にもう一つ出るか、(3)動画・音声・リップシンクが本当に単一モデルに統合されるか、(4)C2PA・透かしが標準化されるか。
「AIが作った」事実はもうニュースにならない。「これをどう上手く作るか」が本当のゲームになった。
参考 / References
- OpenAI Sora — https://openai.com/sora
- Sora 1 system card (2024年2月) — https://openai.com/research/video-generation-models-as-world-simulators
- Google DeepMind Veo — https://deepmind.google/technologies/veo/
- Google Vertex AI Veo — https://cloud.google.com/vertex-ai/generative-ai/docs/video/overview
- Kling AI — https://klingai.com
- Kuaishou Kling 発表 — https://kling.kuaishou.com
- MiniMax Hailuo — https://hailuoai.video
- Runway Gen-4 — https://runwayml.com/research/introducing-runway-gen-4
- Luma AI Dream Machine / Ray — https://lumalabs.ai/dream-machine
- Pika Labs — https://pika.art
- Tencent HunyuanVideo GitHub — https://github.com/Tencent/HunyuanVideo
- HunyuanVideo 技術レポート — https://arxiv.org/abs/2412.03603
- Lightricks LTX-Video — https://github.com/Lightricks/LTX-Video
- Alibaba Wan-2.1 — https://github.com/Wan-Video/Wan2.1
- Open-Sora (HPC-AI Tech) — https://github.com/hpcaitech/Open-Sora
- DiT 論文 (Peebles & Xie, 2023) — https://arxiv.org/abs/2212.09748
- Latent Diffusion (Rombach et al.) — https://arxiv.org/abs/2112.10752
- Flow Matching 論文 — https://arxiv.org/abs/2210.02747
- Google Lyria — https://deepmind.google/discover/blog/transforming-music-creation-with-ai-and-human-creativity/
- Suno AI — https://suno.com
- Udio — https://udio.com
- ElevenLabs Sound Effects — https://elevenlabs.io/sound-effects
- HeyGen — https://heygen.com
- Synthesia — https://synthesia.io
- ComfyUI — https://github.com/comfyanonymous/ComfyUI
- Sakana AI — https://sakana.ai
- Twelve Labs — https://twelvelabs.io
- Naver AI Lab — https://clova.ai
- C2PA Content Credentials — https://c2pa.org
- AniPortrait — https://github.com/Zejun-Yang/AniPortrait
- EMO (Alibaba) — https://humanaigc.github.io/emote-portrait-alive/
- KAIST AI — https://gsai.kaist.ac.kr