AI動画生成 2026 — Sora 2 / Veo 3 / Kling 2 / Hailuo / Runway Gen-4 / Luma Ray 2 / HunyuanVideo 徹底ガイド

AI Video Generation 2026 — 2024年2月のSora 1デモから2年。2026年5月時点でAI動画生成市場はクローズドSOTA(OpenAI・Google・Kuaishou・MiniMax)、業界標準ツール(Runway・Luma・Pika)、本格的なオープンウェイト勢(Hunyuan・LTX・Wan・Open-Sora)の三極体制に固まった。本記事はその地形図である。

Prologue — 2年で何が変わったか
1章 · 2026年のAI動画地図 — クローズド/業界ツール/オープン
2章 · Sora 2 (OpenAI) — 第1世代から第2世代へ
3章 · Veo 3 (Google) — 合成音声+会話同期
4章 · Kling 2 (Kuaishou) — 中国の最強動画モデル
5章 · Hailuo (MiniMax) — 中国のもう一人の強者
6章 · Runway Gen-4 — 映像業界の標準
7章 · Luma Ray 2 — Dream Machineの後継
8章 · Pika 2 — Image-to-Videoへの転換
9章 · HunyuanVideo (Tencent, オープン) — 初の本格的なオープン対抗馬
10章 · LTX-Video / Wan 2.1 / Open-Sora — オープン勢
11章 · Diffusion Transformer (DiT) の技術背景
12章 · 音声・音楽結合 — Lyria 2 / Suno / Udio / ElevenLabs SFX
13章 · 日本・韓国 — Sakana AI、KAIST、Naver
14章 · 誰が何を選ぶべきか — ワークロード別推薦
15章 · まとめ — 2026年AI動画の全体像
参考 / References

Prologue — 2年で何が変わったか

2024年2月16日、OpenAIはSora 1のデモを公開した。東京の街を歩く女性、宇宙から見た地球、ジャングルの上を飛ぶ紙飛行機 — すべて1080p、最長60秒、テキストプロンプト一本から生成。同年11月にSora公式APIが開放されたものの、画質・尺・物理整合性にはまだ粗があった。

2年後の2026年5月、風景は完全に違う。

Sora 2 (OpenAI, 2025年10月) — 4K、120秒、キャラクター一貫性、精緻なカメラ制御。ChatGPT Plus内で直接利用可能。
Veo 3 (Google DeepMind, 2025年6月) — 映像と同期した音声・会話・音楽を生成する初の主要モデル。
Kling 2 (Kuaishou, 2025年4月) — 中国発の最強動画モデル。2024年6月のKling 1.0は、Sora 1デモから4ヶ月でほぼ同等の品質を一般公開した。
Hailuo (MiniMax, 2024年〜) — 中国のもう一つの強者。寛大な無料枠で広いユーザー層を獲得。
HunyuanVideo (Tencent, 2024年12月) — 初の本格的なオープンウェイト競合。13Bパラメータ、Apache 2.0互換ライセンス。
Runway Gen-4 (2025) — 映画・広告業界の事実上の標準。Adobe Creative・After Effectsとの深い統合。
Luma Ray 2 (2025) — Dream Machineの後継。カメラモーションと物理整合性を重視。
Pika 2 — image-to-videoへピボット。「写真を動かす」市場。
LTX-Video (Lightricks, 2024年11月) — リアルタイム未満のレイテンシ、オープンウェイト、コンシューマGPUで動作。
Wan-2.1 (Alibaba, 2025年2月) — もう一つの強力なオープンウェイト。
Open-Sora (HPC-AI Tech) — アカデミックなオープンソース、Sora風アーキテクチャの再実装。

ここに音声側が合流した。Google Lyria 2、Suno v4、Udioが音楽を、ElevenLabs SFXが効果音を、HeyGen・Synthesiaがリップシンクを担当する。2024年の「動画はここ、音楽はあっち、リップシンクは別」というバラバラなパイプラインが、2026年には単一ワークフローに統合された。

本記事は14章で地形図を整理し、最後に「誰が何を選ぶべきか」をまとめる。

1章 · 2026年のAI動画地図 — クローズド/業界ツール/オープン

1.1 三極構造

2026年5月時点、AI動画市場は三グループに分かれる。

陣営	代表	強み	弱み
クローズドSOTA	Sora 2, Veo 3, Kling 2, Hailuo	品質・尺・一貫性で圧倒	価格、制約、透かし
業界標準ツール	Runway Gen-4, Luma Ray 2, Pika 2	ワークフロー統合、細かな制御	純粋な品質ではSOTAに少し劣る
オープンウェイト	HunyuanVideo, LTX, Wan 2.1, Open-Sora	自己ホスト、ファインチューニング可	品質・尺のギャップは残る

これはLLM市場のGPT-4・Claude・Gemini / Anthropic API互換OSS / Llama・Qwen構造とほぼ同じ。動画は1〜2年遅れで同じパターンを辿っている。

1.2 評価4軸

品質(quality) — 解像度、ディテール、テクスチャの一貫性
時間的整合性(temporal coherence) — キャラクター・物体がフレーム間で一貫しているか
物理(physics) — 重力、衝突、液体、布の挙動が自然か
制御(control) — プロンプトだけでなく、カメラ・キャラクター・スタイルをどこまで細かく制御できるか

この4軸を全て満たすモデルはまだない。広告インサートか、短編映画のプリビズか、ソーシャル向けかによって優先する軸が変わる。

1.3 仕様表

モデル	最大解像度	最大尺	音声同期	ライセンス
Sora 2 (OpenAI)	4K	120s	別途	クローズド、API
Veo 3 (Google)	4K	60s	同時生成	クローズド、Vertex AI
Kling 2 (Kuaishou)	1080p	30s	なし	クローズド、Web
Hailuo (MiniMax)	1080p	10s	なし	クローズド、API
Runway Gen-4	1080p	16s	なし	クローズド、SaaS
Luma Ray 2	1080p	10s	なし	クローズド、API
Pika 2	720p〜1080p	10s	なし	クローズド、API
HunyuanVideo (Tencent)	720p	5s	なし	オープン、13B
LTX-Video (Lightricks)	720p	5s	なし	オープン、2B
Wan 2.1 (Alibaba)	720p	5s	なし	オープン、14B
Open-Sora	720p	16s	なし	オープン、MIT

短い尺は「単一生成での最大尺」。複数生成をつなげて長尺にするのは別ワークフロー。

2章 · Sora 2 (OpenAI) — 第1世代から第2世代へ

2.1 Sora 1 → Sora 2

Sora 1は2024年2月にデモ、11月に正式公開。当時のスペック:

最大尺: 60秒(当時最長級)
解像度: 1080p
弱点: 指がねじれる、カット間で衣装が変わる、歩行が不自然

2025年10月のSora 2で変わった点:

最大尺: 120秒まで
解像度: 4Kオプション
キャラクター一貫性: 同じプロンプト内でキャラ外見が維持される。「キャラクターメモリ」と呼ばれる
カメラ制御: 明示的なカメラモーション・トークン(zoom in, dolly out, orbit left)
物理: 液体・衝突・重力の処理が改善

OpenAIはSora 2をChatGPT Plus / Team / Enterpriseに直接統合した。APIは別申請。

2.2 価格と速度

2026年5月時点:

ChatGPT Plus ($20/mo): 標準解像度12秒まで含まれる、それ以上はクレジット
API: 1秒あたり約 $0.30〜$0.50 (解像度・尺による)
生成時間: 12秒クリップで1〜3分

動画生成はテキスト生成の100倍以上のコストがかかり、価格にそのまま反映されている。

2.3 プロンプト例

A close-up of a Korean street food vendor flipping hotteok on a hot grill,
steam rising, the camera slowly dollies in from the left.
Time of day: golden hour. Style: cinematic, shallow depth of field.
Duration: 8 seconds. Aspect ratio: 16:9.

Sora 2はカメラ動作、時刻、スタイル、尺/アスペクト比をメタデータとして明示的に認識する。

2.4 キャラクターメモリ

Sora 2の大きな進化の一つ。一つの生成で登場したキャラクターを次の生成でも同じ外見で維持できる。広告シーケンスや短編に非常に有用。

[Shot 1] A woman in a red coat walks into a Tokyo subway station at night.
[Shot 2] (Same woman, same coat) She buys a ticket from the machine.
[Shot 3] (Same woman) The train arrives, she steps in.

業界の反応は「これで絵コンテが描ける」。広告プリビズのコストが1/10になったという報告が多い。

2.5 弱点

日本語・韓国語テキストが画面に出るシーンは依然崩れる。英語テキストも時々揺れる
高速アクション(スポーツ、格闘)で手足が伸びる
ウォーターマークが常に入る(APIではオプションで外せる)
C2PAコンテンツ証明メタデータが全出力に埋め込まれる

3章 · Veo 3 (Google) — 合成音声+会話同期

3.1 Veo 1 → 2 → 3

Google DeepMindのVeoは2024年5月のGoogle I/OでVeo 1を発表。12月にVeo 2、2025年6月にVeo 3。最大の変化はVeo 3で導入された合成音声。

Veo 3は映像と同期した次の4つを同時に生成する。

動画(video)
環境音(ambient audio) — 街の音、雨、風
会話(dialogue) — キャラの口元と同期した音声
音楽(music) — Lyria 2と統合されたBGM

これが何を意味するかというと、2024年まで「AI動画」と言えば無音クリップだった。ユーザーが別途BGM・SFX・リップシンクを足す必要があった。Veo 3はこれを一つのプロンプトから同時生成する。

3.2 プロンプト例

A barista in a Tokyo cafe pours coffee while explaining the beans to a customer.
She says in Japanese: "これはエチオピアのイルガチェフェです、花のような香りがします。"
The customer nods. Background: light jazz, gentle espresso machine sounds.

Veo 3はこのプロンプトから、バリスタがコーヒーを注ぐ映像、日本語の自然な発音(リップシンク付き)、ジャズBGM+エスプレッソマシンの音、を全て同期して出力する。日本語・韓国語・中国語のような非英語もうまく処理する。

3.3 価格とアクセス

Google Vertex AI経由のAPI
Google AI Studio (aistudio.google.com) で無料枠内で試せる
価格: 音声付き8秒クリップで約 $0.50〜$1.00
Google Workspace Business / Enterpriseに直接統合

3.4 強みと弱み

強み

映像+音声を一度に。ワークフローが1段階に圧縮
多言語会話(英語、日本語、韓国語、中国語、スペイン語など)が自然
Google Workspace統合 — Slides/Docsに直接入る

弱み

60秒の尺制限(Sora 2の半分)
カメラ制御はSora 2より粗い
米国外で利用可能になるタイミングが遅れる時期があった

4章 · Kling 2 (Kuaishou) — 中国の最強動画モデル

4.1 Kling 1 → 2 — 4ヶ月の衝撃

2024年6月、Sora 1デモから4ヶ月後。中国の動画SNS企業Kuaishou(快手)がKling 1.0を一般公開した。衝撃だったのは:

Sora デモとほぼ同等の品質 — それまでOpenAIのデモしか見ていなかった世界に、似たものを出せる存在が突然現れた
誰でも無料で使えた — Sora がクローズドな待機リストに閉じられていた間に、Klingが圧倒的なユーザーベースを築いた

その後Klingは1.5、1.6、2.0(2025年4月)と高速にアップデート。2026年5月時点のKling 2:

1080p, 30秒
カメラモーション制御 — Sora 2同様の明示的トークン
Image-to-Video — 最初のフレームと最後のフレーム両方を指定可
Multi-shot — 一つのプロンプト内で複数カット自動分割

4.2 なぜ速いか

KuaishouはTikTokと競合する中国の動画SNS。自前の動画データが膨大(数百億時間レベル)。これがKlingの学習データ的アドバンテージ。

もう一つ、中国のAI企業はLLM同様、動画でも極端に速いイテレーションサイクルを示している。2024年6月〜2025年4月の間にKlingは1.0 → 1.5 → 1.6 → 2.0。同じ期間でSoraは1.0 → 2.0。

4.3 価格とアクセス

klingai.com (海外) / kling.kuaishou.com (中国)
毎日無料クレジット、有料は月 $10〜$60
グローバル登録可、クレジットカードがあれば誰でも

4.4 弱点

検閲・政治的にセンシティブなコンテンツの自動ブロック(中国企業特有のポリシー)
日本語・韓国語テキストが画面に出るシーンは崩れる
C2PAメタデータ非提供、出所追跡は難しい
価格が頻繁に変わる、無料枠もよく変わる

5章 · Hailuo (MiniMax) — 中国のもう一人の強者

5.1 MiniMaxとは

MiniMaxは上海本社の中国AI企業。2023年からLLMと動画・音声モデルを並行開発。Hailuo(海螺)が彼らの動画ブランド。

2024年8月にHailuoが公開された時、「Soraに直接アクセスできないユーザー向けの代替」というポジションだった。Klingほど強くはなかったが、無料枠が寛大だった。

2026年5月時点のHailuo:

1080p, 10秒
最初のフレーム・最後のフレーム両方を指定可能 (Image-to-Video)
寛大な毎日無料クレジット
Director Mode — カメラ動作トークン制御

5.2 強み

最も寛大な無料枠 — 学生・趣味用に最適
グローバル登録が簡単
生成が速い — 6秒クリップが30秒以内
Image-to-video品質 — 人物写真を動画にするシナリオで強い

5.3 弱み

最大10秒と短い
キャラクター一貫性はSora 2・Kling 2より弱い
利用規約・検閲面はKlingと同様、中国特有

5.4 Kling vs Hailuo

軸	Kling 2	Hailuo
最大尺	30s	10s
解像度	1080p	1080p
カメラ制御	強い	中程度
無料枠	普通	寛大
グローバルアクセス	容易	容易
価格	`$10`〜`$60`/mo	`$5`〜`$30`/mo

中国動画モデルではKlingがSOTA、Hailuoがコストパフォーマンス枠。両者とも進化が速い。

6章 · Runway Gen-4 — 映像業界の標準

6.1 Runwayの位置

Runwayは2018年創業の映像+ML ツール企業。2022年にStable Diffusionの共同発表に名を連ね、2023年にGen-1・Gen-2でAI動画市場を商業的に開いた。

2024年6月のGen-3 Alphaを経て、2025年Gen-4へ。Runwayの強みは生のモデル品質ではなく、ワークフロー。

Frames — キャラクター・スタイル・ロケーションの一貫性のためのリファレンス画像制御
Director Mode — カメラ動作の細密制御
Video-to-Video — 既存映像のスタイル変換
Motion Brush — 動かす領域だけマスキング
After Effectsプラグイン — コンポジット・パイプラインに直接統合

6.2 Gen-4のキャラクター一貫性

Gen-4最大の進化はリファレンス画像ベースのキャラクター一貫性。次のようなワークフローが簡単に。

[Reference image] character.png (顔写真)
[Prompt] Same character walking through Times Square at night, neon lights,
camera tracks behind.

これは広告・MV・短編で決定的。複数カットでキャラクターを維持するコストが劇的に下がる。

6.3 価格

Standard $15/mo — 625クレジット
Pro $35/mo — 2,250クレジット
Unlimited $95/mo
Enterprise — 相談

10秒クリップで約50クレジット(変動)。広告・メディア企業の規模では合理的。

6.4 誰が使うか

広告代理店(Ogilvy、Wieden+Kennedyなどが事例を公表)
MVディレクター
短編映画・ドキュメンタリー
After Effectsヘビーユーザー — プラグイン統合が深い

Sora 2が「画像一枚から天才的なクリップ」だとすれば、Runwayは「プロの映像ワークフローに自然に入る」。

7章 · Luma Ray 2 — Dream Machineの後継

7.1 Lumaの出自

Luma AIはNeRF(Neural Radiance Fields)研究出身の企業。2022〜2023年はNeRFベースの3DキャプチャアプリLuma AIで知られた。

2024年6月にDream Machineで動画生成市場に参入。Kling公開とほぼ同時。2025年にRay 1、2025年後半にRay 2へアップグレード。

7.2 Ray 2の特徴

物理整合性重視 — Lumaはカメラモーションと物理シミュレーション品質に集中。NeRF研究の背景が反映されている
Keyframes — 最初・中間・最後のフレームを指定可
カメラモーション制御 — orbit, dolly, zoom など映画的カメラ動作トークン
API が整備されている — 開発者が自分のアプリに統合しやすい

7.3 価格

Free — 毎日30クレジット
Standard $9.99/mo
Pro $29.99/mo
Premier $94.99/mo
API — 5秒クリップで約 $0.50

7.4 Runway vs Luma

軸	Runway Gen-4	Luma Ray 2
映像品質	同等	同等
カメラ制御	強い (Director Mode)	強い (映画的トークン)
キャラ一貫性	強い (Frames, ref)	普通
ワークフロー統合	After Effects、自社エディタ	API ファースト
価格	やや高め	安め

業界標準はRunway、API統合・物理整合性はLuma。両方とも有力な選択肢。

8章 · Pika 2 — Image-to-Videoへの転換

8.1 Pikaの変遷

Pika Labsは2023年にDiscordボットとしてスタート。Runwayと並んでAI動画市場の初期を開いた。

2024年後半のPika 2で戦略が変わった。「Sora・Veo・Klingのt2v市場で正面から戦う」のではなく、画像・キャラクター・短いソーシャルコンテンツにポジショニング。

Pika 2のコア機能:

Pikaffects — 写真一枚から特殊効果動画を作る(「溶ける」「爆発」「圧縮」など)
Pikascenes — 人物写真をシナリオに自然に挿入
Lip-sync — 写真を喋らせる
Image-to-videoが速い — 8秒クリップが30秒以内

8.2 誰が使うか

ソーシャルメディアクリエイター(TikTok、Instagram Reels)
ミーム制作者
カジュアルユーザー — 「写真を動かす」

Sora 2の「70秒の短編映画」市場ではなく、8秒ソーシャル市場で強い。

8.3 価格

Free — 毎日の枠
Standard $10/mo
Pro $35/mo
Fancy $95/mo

動画系インフルエンサー・ソーシャルマーケでコスパが良い。

9章 · HunyuanVideo (Tencent, オープン) — 初の本格的なオープン対抗馬

9.1 何が初めてだったか

2024年12月3日、TencentがHunyuanVideoを公開。それが事件だった理由:

13Bパラメータ — それまでに公開されたオープン動画モデルで圧倒的に大きい
品質がRunway Gen-3・Luma Dream Machineに匹敵 — クローズドSOTAに迫る初のオープンウェイト
Apache 2.0互換ライセンス(いくつか制約あり) — 商用利用可能

LLMでLlama 2が「オープンウェイトでGPT-3.5に追いついた」瞬間を作ったのと同様に、動画ではHunyuanVideoがその瞬間だった。

9.2 アーキテクチャ

HunyuanVideoはDiT(Diffusion Transformer)とLatent Diffusionを組み合わせた構造。

3D VAE — 動画をlatent空間に圧縮
DiTエンコーダ — 圧縮表現にdiffusionを適用
MLLMテキストエンコーダ — マルチモーダルLLMをテキストエンコーダに(CLIPより豊かな表現)
Flow matching — 学習段階でノイズ→動画マッピングをより効率的に

技術レポートが公開されているため、学界での引用も多い。

9.3 使い方

git clone https://github.com/Tencent/HunyuanVideo
cd HunyuanVideo

# 推奨: H100 または A100 80GB GPU
python sample_video.py \
  --prompt "A cat playing piano in a jazz bar, warm light" \
  --video-length 65 \
  --infer-steps 50 \
  --save-path ./outputs

7B派生もあり、RTX 4090でも回せる。ただし品質は13Bが圧倒的。

9.4 ComfyUIで

ComfyUI(ノードベースのワークフロー・ツール)が公式にHunyuanVideoノードをサポート。

[Load HunyuanVideo Model] - [CLIP Text Encode] - [HunyuanVideo Sampler] - [Video Combine]

動画クリエイターが自分のワークフローに統合する事例が急増。クローズドモデルの価格と比べてGPU費用だけで済むため。

9.5 弱点

5秒の尺制限(単一生成)
日本語・韓国語テキストが画面に出ると崩れる
VRAM 60GB+必要(フルモデル)。量子化・LoRAで回避

10章 · LTX-Video / Wan 2.1 / Open-Sora — オープン勢

10.1 LTX-Video (Lightricks, 2024年11月)

LightricksはイスラエルのモバイルビデオエディタアプリFacetune、Videoleapの企業。2024年11月にLTX-Videoを公開。

2Bパラメータ — 小さめ
高速 — RTX 4090で5秒クリップを4秒未満(リアルタイム未満)
オープンウェイト — 自己ホスト可能
商用利用可能ライセンス

LTXの意義は 「コンシューマGPUで動くAI動画モデル」。HunyuanVideoがH100級を要求する中、LTXは4090一枚で動く。

from diffusers import LTXPipeline
import torch

pipe = LTXPipeline.from_pretrained(
    "Lightricks/LTX-Video", torch_dtype=torch.bfloat16
).to("cuda")

video = pipe(
    prompt="A woman walking in the rain at night, neon city",
    num_frames=121,
    guidance_scale=3.0,
).frames[0]

10.2 Wan 2.1 (Alibaba, 2025年2月)

AlibabaはLLMでQwen、動画でWanを運営。Wan 2.1は2025年2月公開。

14Bパラメータ
text-to-videoとimage-to-video両対応
flow matchingベース
多言語プロンプト — 中国語・英語ともに良好

品質はHunyuanVideo相当。両モデルは頻繁に比較される。

10.3 Open-Sora (HPC-AI Tech)

Open-SoraはシンガポールNUS・HPC-AI Techの学術オープンソースプロジェクト。Sora 1デモ直後に「Soraアーキテクチャを再実装してみよう」と始まった。

MITライセンス
学習コード・データパイプライン全公開
品質はHunyuanVideo・Wanよりやや劣る
研究・教育目的に非常に有用

動画モデル学習パイプラインを学ぶには良いコードベース。

10.4 オープン勢比較表

モデル	パラメータ	最大尺	最小GPU	ライセンス	特徴
HunyuanVideo (13B)	13B	5s	60GB	Apache 2.0互換	品質最高
HunyuanVideo (7B)	7B	5s	24GB	Apache 2.0互換	折衷
LTX-Video	2B	5s	12GB	商用OK	速い・小さい
Wan 2.1	14B	5s	60GB	商用OK	Hunyuan競合
Open-Sora v2	11B	16s	40GB	MIT	学術、16秒

オープン勢は2025年に一度爆発し、2026年はクローズドSOTAとのギャップが縮まっている。ただしキャラクター一貫性・マルチカットのような高度な制御では1年程度の差が残る。

11章 · Diffusion Transformer (DiT) の技術背景

11.1 なぜDiTか

2014年にGANが登場して以来、動画生成はGAN・VAE・Diffusionの間を行き来した。画像では2022年のStable DiffusionがLatent Diffusionで決着をつけた。動画は少し遅れた。

ターニングポイントはWilliam PeeblesとSaining Xieによる**DiT (Diffusion Transformer, 2023)**論文。「UNetベースのdiffusion」を「Transformerベースのdiffusion」に置き換える試み。

11.2 UNet vs Transformer

軸	UNet diffusion	DiT
バックボーン	CNN ベース UNet	Vision Transformer
スケーリング	構造的制約で難しい	LLM同様のスケーリング則
動画適用	時間軸が不自然	自然
学習安定性	検証済み	新しいが安定

動画は本質的に(height, width, time)の3Dテンソル。UNetに時間軸を後付けするのは自然でない。Transformerはシーケンス処理が本業なので時間軸は追加トークンになるだけ。

この発見以降、ほぼ全ての主要動画モデルがDiT(またはその派生)に移行。Sora、Veo、Kling、HunyuanVideo、Open-Sora全てDiT系列。

11.3 Latent Diffusionが重要な理由

動画の1フレームは1024x1024 = 100万ピクセル。1秒24fpsだと2400万ピクセル。これをraw でdiffusionするのは不可能。

Latent Diffusionの核心: VAEで動画をlatent空間(例: 128x128x8 ≈ 13万)に圧縮し、latentでdiffusion。計算量が100倍以上減る。

動画モデルの最初のステップはほぼ常に3D VAE(Causal VAE)。HunyuanVideo、Wan、Open-Sora全て自前の3D VAEを学習して使う。

11.4 Flow Matching — 新しい学習法

2022〜2023年にdiffusionの代替として浮上したのがFlow Matching。

Diffusion: ノイズ→動画パスをSDEで学習
Flow Matching: ノイズ→動画パスをODEで学習。学習がより安定、推論がより速い

HunyuanVideo、Wan 2.1、Stable Diffusion 3いずれもflow matchingを採用。2026年時点の標準と言える。

11.5 テキストエンコーダ — CLIP からLLMへ

動画モデルのテキストプロンプト・エンコーディングは伝統的にCLIPを使った。2024〜2025年に変化が起きた。

Stable Diffusion 3 — T5-XXLをテキストエンコーダに追加
HunyuanVideo — MLLM(マルチモーダルLLM)自体をテキストエンコーダに
Veo 3 — Geminiのテキストエンコーダを活用

長いプロンプト、複雑なシーン記述、多言語処理ではLLMベースのエンコーダが圧倒的。CLIPの77トークン制限を超えるだけでも大きな前進。

12章 · 音声・音楽結合 — Lyria 2 / Suno / Udio / ElevenLabs SFX

12.1 動画はもう無音ではない

2024年まで、AI動画はほぼ無音だった。Sora 1、Kling 1、Runway Gen-3すべてビデオトラックのみ出力。ユーザーが別途BGM・SFX・ナレーション・リップシンクを合成する必要があった。

2025年以降これが変わった。

12.2 Lyria 2 (Google DeepMind, 2024)

LyriaはGoogle DeepMindの音楽生成モデル。2024年に2.0公開。

テキスト→音楽生成
YouTube Shorts Dream Trackなどに統合
Veo 3と統合 — Veo 3が動画生成時、LyriaがBGMを同時生成

12.3 Suno v4 / Udio

Suno(マサチューセッツ州ケンブリッジ)とUdio(元Google DeepMind関係者創業)は音楽生成最強の二社。

Suno v4 — 歌詞+メロディを一度に。4分のフルレングス曲が可能
Udio — 同等品質、より精緻な制御

動画クリエイターがBGMを必要とする時はほぼこの二つのどちらか。無料枠も寛大。

12.4 ElevenLabs Sound Effects

ElevenLabsの本業はTTSだが、2024年にSFX(効果音)生成モデルを追加。

テキスト→サウンド — 「footsteps in snow」「thunder rumble」「espresso machine」
0〜22秒の長さ
十分な無料枠

動画SFXライブラリで見つかりにくい効果音を即時生成できる。

12.5 HeyGen / Synthesia — リップシンク専門

HeyGenとSynthesiaは「AIアバター+リップシンク」市場の二強。

ユーザーが自分の顔動画をアップロード → AIアバター生成
テキスト入力 → そのテキストをアバターが自然に発話(多言語)
社内研修・カスタマーサポート・セールスデモに多用

エンタープライズ市場ではHeyGen・Synthesiaが事実上の標準。

12.6 統合ワークフロー

2026年の動画コンテンツ制作ワークフロー例:

[Sora 2 または Kling 2] メイン動画 8秒
  |
[Suno v4] BGM 30秒(動画よりやや長く)
  |
[ElevenLabs SFX] 効果音(足音、環境音)
  |
[ElevenLabs TTS] ナレーション
  |
[CapCut / DaVinci / Premiere] 合成

またはVeo 3一つで全て終わらせることもできる(動画+音声を同時生成)。

13章 · 日本・韓国 — Sakana AI、KAIST、Naver

13.1 日本 — Sakana AI

Sakana AIは元Google Brain・DeepMindのDavid HaとLlion Jones(Transformer論文共著者)が東京で創業した企業。

進化的モデル合成 (Evolutionary Model Merging) — 複数モデルを自動組合せて新モデル生成
DiffusionPipe / Sakana AI Scientist — diffusionモデル自動設計
日本政府・企業と協力し、日本語特化マルチモーダルモデルを開発

直接動画生成SaaSは出していないが、他社が使うコア技術を作っている。

13.2 日本の動画・アニメーションAI

日本はアニメーション産業と結びついた動画AIが特に活発。

Stability AI Japan — Japanese Stable Diffusion、アニメスタイル特化
AniPortrait / EMO — 人物写真+音声からリップシンクアニメ
VOICEVOX と結合 — 音声合成と動画の結合ワークフロー

日本市場は特に「キャラクター一貫性」のドメインノウハウが豊富。

13.3 韓国 — KAIST・Naver・生成型動画スタートアップ

韓国学界はAI動画で次のような流れを示す。

KAIST — Diffusion・Flow Matching理論研究。Jong Chul Ye教授グループなど
Naver AI Lab — HyperCLOVA Xのマルチモーダル拡張、動画理解(VLM)と生成の両方
Kakao Brain — Karlo (画像生成)、Sketch2Video研究
スタートアップ — Lablup(モデルインフラ)、Snowmind、Twelve Labs(動画検索)

特にTwelve Labsは「AIが動画を理解する検索」で国際的に評価された。生成より理解寄り。NVIDIAとの協業事例多数。

13.4 学習データ・著作権ポリシーの違い

国	学習データポリシー	出力著作権
米国	フェアユース論争継続中	人間創作部分のみ認定
EU	AI Act、opt-out明示	同様
日本	学習は明示的に許容(著作権法30条の4)	特殊ケースで認定
韓国	法整備進行中	同様
中国	検閲強化、出力責任明示	特殊ケースで認定

日本の学習データポリシーが最も寛容で、日本はAI動画・画像モデル学習に親和的な地域と評価されている。

14章 · 誰が何を選ぶべきか — ワークロード別推薦

14.1 広告・ブランドインサート

推薦: Sora 2 または Veo 3

Sora 2: キャラクターメモリ、4K、120秒 — 短い広告シーケンスをそのまま
Veo 3: 音声同時生成 — 後処理コスト削減
予算: 広告一本の動画生成コスト $50〜$500

広告代理店はRunway Gen-4も併用する場合が多い。広告プリビズはSora/Veo、最終コンポジットはRunway + After Effects。

14.2 映画・ドラマのプリビズ

推薦: Sora 2 + Runway Gen-4

Sora 2のキャラクターメモリでコンテ動画作成
Runway Gen-4のリファレンス画像でキャラ一貫性維持
監督・VFXスーパーバイザのワークフローに直接統合

映画業界事例: 短編映画のプリビズコストが従来 $30,000 から $3,000 に下がったという報告が多数。

14.3 ソーシャルコンテンツ(TikTok、Reels、Shorts)

推薦: Pika 2 + Hailuo + Suno

Pika 2のエフェクト・リップシンク
Hailuoの寛大な無料枠
SunoのBGM
予算: 月 $20〜$50 でフルワークフロー

14.4 学習・教育コンテンツ

推薦: HeyGen + ElevenLabs

HeyGenアバター + ElevenLabs TTS
社内研修・オンライン講義・チュートリアル
多言語字幕・吹替が自動

14.5 ゲーム / インタラクティブ

推薦: LTX-Video + 自己ホスト

高速生成が決定的(ゲーム内で動的にコンテンツ生成)
ライセンス問題のないオープンウェイト
RTX 4090一枚で可能

14.6 研究・実験・アカデミック

推薦: HunyuanVideo + Open-Sora

学習パイプラインコードが全公開
自前データでファインチューニング可能
論文用reproducibility

14.7 予算表(月額)

利用シナリオ	推薦ツール	月額 (USD)
趣味・実験	Kling/Hailuo無料 + Pika	`$0`
個人クリエイター	Pika Pro + Suno	`$30`〜`$50`
ソーシャルマーケ	Kling + Hailuo + Suno + ElevenLabs	`$50`〜`$150`
広告代理店	Sora 2 API + Runway Pro + Veo 3	`$500`〜`$5,000`
映画プリビズ	Sora 2 + Runway Unlimited + Luma	`$1,000`〜`$10,000`
自己ホスト(オープン)	HunyuanVideo/LTX + GPU レンタル	GPU費用のみ

14.8 モデル選択の意思決定ツリー

              [音声同期が必要?]
              /              \
           Yes               No
            |                  \
        [Veo 3]         [キャラクター一貫性が重要?]
                          /              \
                        Yes               No
                         |                  \
                     [尺 30s+?]        [ソーシャル短尺?]
                      /        \         /         \
                    Yes        No      Yes          No
                     |          \       |            \
                 [Sora 2]   [Runway Gen-4]  [Pika 2]  [Kling/Hailuo]

15章 · まとめ — 2026年AI動画の全体像

3つの大きな流れ。

第一に、動画・音声・リップシンクが一つのワークフローに統合された。 Veo 3が起点を作り、Sora 3またはSora 2の次バージョンでも同じ方向が予想される。2024年の「別々のツールを組み合わせて使う」段階は終わった。

第二に、オープンウェイトがクローズドSOTAを1年差で追いかけている。 HunyuanVideo、Wan 2.1、LTXの登場で自己ホスト・ファインチューニングが現実的な選択肢になった。LLMでLlama 3がGPT-4に追いついたパターンと類似。ただしキャラクター一貫性・マルチカットのような高度な制御ではクローズドが約1年先行。

第三に、動画生成は「面白いデモ」から「量産ワークフロー」に移った。 広告、映画プリビズ、ソーシャルコンテンツ、社内研修 — 全てに事例報告が多数。2024年の「これデモでしょ?」段階から、2026年には「これで締め切りに間に合わせる」段階になった。

今後1〜2年の見どころは(1)Sora 3が本当にキャラクター一貫性を解決するか、(2)HunyuanVideo級のオープンモデルが1年以内にもう一つ出るか、(3)動画・音声・リップシンクが本当に単一モデルに統合されるか、(4)C2PA・透かしが標準化されるか。

「AIが作った」事実はもうニュースにならない。「これをどう上手く作るか」が本当のゲームになった。

参考 / References

OpenAI Sora — https://openai.com/sora
Sora 1 system card (2024年2月) — https://openai.com/research/video-generation-models-as-world-simulators
Google DeepMind Veo — https://deepmind.google/technologies/veo/
Google Vertex AI Veo — https://cloud.google.com/vertex-ai/generative-ai/docs/video/overview
Kling AI — https://klingai.com
Kuaishou Kling 発表 — https://kling.kuaishou.com
MiniMax Hailuo — https://hailuoai.video
Runway Gen-4 — https://runwayml.com/research/introducing-runway-gen-4
Luma AI Dream Machine / Ray — https://lumalabs.ai/dream-machine
Pika Labs — https://pika.art
Tencent HunyuanVideo GitHub — https://github.com/Tencent/HunyuanVideo
HunyuanVideo 技術レポート — https://arxiv.org/abs/2412.03603
Lightricks LTX-Video — https://github.com/Lightricks/LTX-Video
Alibaba Wan-2.1 — https://github.com/Wan-Video/Wan2.1
Open-Sora (HPC-AI Tech) — https://github.com/hpcaitech/Open-Sora
DiT 論文 (Peebles & Xie, 2023) — https://arxiv.org/abs/2212.09748
Latent Diffusion (Rombach et al.) — https://arxiv.org/abs/2112.10752
Flow Matching 論文 — https://arxiv.org/abs/2210.02747
Google Lyria — https://deepmind.google/discover/blog/transforming-music-creation-with-ai-and-human-creativity/
Suno AI — https://suno.com
Udio — https://udio.com
ElevenLabs Sound Effects — https://elevenlabs.io/sound-effects
HeyGen — https://heygen.com
Synthesia — https://synthesia.io
ComfyUI — https://github.com/comfyanonymous/ComfyUI
Sakana AI — https://sakana.ai
Twelve Labs — https://twelvelabs.io
Naver AI Lab — https://clova.ai
C2PA Content Credentials — https://c2pa.org
AniPortrait — https://github.com/Zejun-Yang/AniPortrait
EMO (Alibaba) — https://humanaigc.github.io/emote-portrait-alive/
KAIST AI — https://gsai.kaist.ac.kr