💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

> **AI Video Generation 2026** — 2024年2月のSora 1デモから2年。2026年5月時点でAI動画生成市場はクローズドSOTA(OpenAI・Google・Kuaishou・MiniMax)、業界標準ツール(Runway・Luma・Pika)、本格的なオープンウェイト勢(Hunyuan・LTX・Wan・Open-Sora)の三極体制に固まった。本記事はその地形図である。

Prologue — 2年で何が変わったか

2024年2月16日、OpenAIはSora 1のデモを公開した。東京の街を歩く女性、宇宙から見た地球、ジャングルの上を飛ぶ紙飛行機 — すべて1080p、最長60秒、テキストプロンプト一本から生成。同年11月にSora公式APIが開放されたものの、画質・尺・物理整合性にはまだ粗があった。

2年後の2026年5月、風景は完全に違う。

1. **Sora 2 (OpenAI, 2025年10月)** — 4K、120秒、キャラクター一貫性、精緻なカメラ制御。ChatGPT Plus内で直接利用可能。

2. **Veo 3 (Google DeepMind, 2025年6月)** — 映像と同期した音声・会話・音楽を生成する初の主要モデル。

3. **Kling 2 (Kuaishou, 2025年4月)** — 中国発の最強動画モデル。2024年6月のKling 1.0は、Sora 1デモから4ヶ月でほぼ同等の品質を一般公開した。

4. **Hailuo (MiniMax, 2024年〜)** — 中国のもう一つの強者。寛大な無料枠で広いユーザー層を獲得。

5. **HunyuanVideo (Tencent, 2024年12月)** — 初の本格的なオープンウェイト競合。13Bパラメータ、Apache 2.0互換ライセンス。

6. **Runway Gen-4 (2025)** — 映画・広告業界の事実上の標準。Adobe Creative・After Effectsとの深い統合。

7. **Luma Ray 2 (2025)** — Dream Machineの後継。カメラモーションと物理整合性を重視。

8. **Pika 2** — image-to-videoへピボット。「写真を動かす」市場。

9. **LTX-Video (Lightricks, 2024年11月)** — リアルタイム未満のレイテンシ、オープンウェイト、コンシューマGPUで動作。

10. **Wan-2.1 (Alibaba, 2025年2月)** — もう一つの強力なオープンウェイト。

11. **Open-Sora (HPC-AI Tech)** — アカデミックなオープンソース、Sora風アーキテクチャの再実装。

ここに音声側が合流した。Google Lyria 2、Suno v4、Udioが音楽を、ElevenLabs SFXが効果音を、HeyGen・Synthesiaがリップシンクを担当する。2024年の「動画はここ、音楽はあっち、リップシンクは別」というバラバラなパイプラインが、2026年には単一ワークフローに統合された。

本記事は14章で地形図を整理し、最後に「誰が何を選ぶべきか」をまとめる。

1章 · 2026年のAI動画地図 — クローズド/業界ツール/オープン

1.1 三極構造

2026年5月時点、AI動画市場は三グループに分かれる。

| 陣営 | 代表 | 強み | 弱み |

| --- | --- | --- | --- |

これはLLM市場のGPT-4・Claude・Gemini / Anthropic API互換OSS / Llama・Qwen構造とほぼ同じ。動画は1〜2年遅れで同じパターンを辿っている。

1.2 評価4軸

- **品質(quality)** — 解像度、ディテール、テクスチャの一貫性

- **時間的整合性(temporal coherence)** — キャラクター・物体がフレーム間で一貫しているか

- **物理(physics)** — 重力、衝突、液体、布の挙動が自然か

- **制御(control)** — プロンプトだけでなく、カメラ・キャラクター・スタイルをどこまで細かく制御できるか

この4軸を全て満たすモデルはまだない。広告インサートか、短編映画のプリビズか、ソーシャル向けかによって優先する軸が変わる。

1.3 仕様表

| --- | --- | --- | --- | --- |

| Sora 2 (OpenAI) | 4K | 120s | 別途 | クローズド、API |

| Kling 2 (Kuaishou) | 1080p | 30s | なし | クローズド、Web |

| Hailuo (MiniMax) | 1080p | 10s | なし | クローズド、API |

| Runway Gen-4 | 1080p | 16s | なし | クローズド、SaaS |

| Luma Ray 2 | 1080p | 10s | なし | クローズド、API |

| Pika 2 | 720p〜1080p | 10s | なし | クローズド、API |

| HunyuanVideo (Tencent) | 720p | 5s | なし | オープン、13B |

| LTX-Video (Lightricks) | 720p | 5s | なし | オープン、2B |

| Wan 2.1 (Alibaba) | 720p | 5s | なし | オープン、14B |

| Open-Sora | 720p | 16s | なし | オープン、MIT |

短い尺は「単一生成での最大尺」。複数生成をつなげて長尺にするのは別ワークフロー。

2章 · Sora 2 (OpenAI) — 第1世代から第2世代へ

2.1 Sora 1 → Sora 2

Sora 1は2024年2月にデモ、11月に正式公開。当時のスペック:

- **最大尺**: 60秒(当時最長級)

- **解像度**: 1080p

- **弱点**: 指がねじれる、カット間で衣装が変わる、歩行が不自然

2025年10月のSora 2で変わった点:

- **最大尺**: 120秒まで

- **解像度**: 4Kオプション

- **キャラクター一貫性**: 同じプロンプト内でキャラ外見が維持される。「キャラクターメモリ」と呼ばれる

- **カメラ制御**: 明示的なカメラモーション・トークン(zoom in, dolly out, orbit left)

- **物理**: 液体・衝突・重力の処理が改善

OpenAIはSora 2をChatGPT Plus / Team / Enterpriseに直接統合した。APIは別申請。

2.2 価格と速度

2026年5月時点:

- ChatGPT Plus (`$20/mo`): 標準解像度12秒まで含まれる、それ以上はクレジット

- API: 1秒あたり約 `$0.30`〜`$0.50` (解像度・尺による)

- 生成時間: 12秒クリップで1〜3分

動画生成はテキスト生成の100倍以上のコストがかかり、価格にそのまま反映されている。

2.3 プロンプト例

A close-up of a Korean street food vendor flipping hotteok on a hot grill,

steam rising, the camera slowly dollies in from the left.

Time of day: golden hour. Style: cinematic, shallow depth of field.

Duration: 8 seconds. Aspect ratio: 16:9.

Sora 2はカメラ動作、時刻、スタイル、尺/アスペクト比をメタデータとして明示的に認識する。

2.4 キャラクターメモリ

Sora 2の大きな進化の一つ。一つの生成で登場したキャラクターを次の生成でも同じ外見で維持できる。広告シーケンスや短編に非常に有用。

[Shot 1] A woman in a red coat walks into a Tokyo subway station at night.

[Shot 2] (Same woman, same coat) She buys a ticket from the machine.

[Shot 3] (Same woman) The train arrives, she steps in.

業界の反応は「これで絵コンテが描ける」。広告プリビズのコストが1/10になったという報告が多い。

2.5 弱点

- 日本語・韓国語テキストが画面に出るシーンは依然崩れる。英語テキストも時々揺れる

- 高速アクション(スポーツ、格闘)で手足が伸びる

- ウォーターマークが常に入る(APIではオプションで外せる)

- C2PAコンテンツ証明メタデータが全出力に埋め込まれる

3章 · Veo 3 (Google) — 合成音声+会話同期

3.1 Veo 1 → 2 → 3

Google DeepMindのVeoは2024年5月のGoogle I/OでVeo 1を発表。12月にVeo 2、2025年6月にVeo 3。最大の変化はVeo 3で導入された合成音声。

Veo 3は映像と同期した次の4つを同時に生成する。

1. **動画(video)**

2. **環境音(ambient audio)** — 街の音、雨、風

3. **会話(dialogue)** — キャラの口元と同期した音声

4. **音楽(music)** — Lyria 2と統合されたBGM

これが何を意味するかというと、2024年まで「AI動画」と言えば無音クリップだった。ユーザーが別途BGM・SFX・リップシンクを足す必要があった。Veo 3はこれを一つのプロンプトから同時生成する。

3.2 プロンプト例

A barista in a Tokyo cafe pours coffee while explaining the beans to a customer.

She says in Japanese: "これはエチオピアのイルガチェフェです、花のような香りがします。"

The customer nods. Background: light jazz, gentle espresso machine sounds.

Veo 3はこのプロンプトから、バリスタがコーヒーを注ぐ映像、日本語の自然な発音(リップシンク付き)、ジャズBGM+エスプレッソマシンの音、を全て同期して出力する。日本語・韓国語・中国語のような非英語もうまく処理する。

3.3 価格とアクセス

- Google Vertex AI経由のAPI

- Google AI Studio (`aistudio.google.com`) で無料枠内で試せる

- 価格: 音声付き8秒クリップで約 `$0.50`〜`$1.00`

- Google Workspace Business / Enterpriseに直接統合

3.4 強みと弱み

**強み**

- 映像+音声を一度に。ワークフローが1段階に圧縮

- 多言語会話(英語、日本語、韓国語、中国語、スペイン語など)が自然

- Google Workspace統合 — Slides/Docsに直接入る

**弱み**

- 60秒の尺制限(Sora 2の半分)

- カメラ制御はSora 2より粗い

- 米国外で利用可能になるタイミングが遅れる時期があった

4章 · Kling 2 (Kuaishou) — 中国の最強動画モデル

4.1 Kling 1 → 2 — 4ヶ月の衝撃

2024年6月、Sora 1デモから4ヶ月後。中国の動画SNS企業Kuaishou(快手)がKling 1.0を一般公開した。衝撃だったのは:

1. **Sora デモとほぼ同等の品質** — それまでOpenAIのデモしか見ていなかった世界に、似たものを出せる存在が突然現れた

2. **誰でも無料で使えた** — Sora がクローズドな待機リストに閉じられていた間に、Klingが圧倒的なユーザーベースを築いた

その後Klingは1.5、1.6、2.0(2025年4月)と高速にアップデート。2026年5月時点のKling 2:

- **1080p, 30秒**

- **カメラモーション制御** — Sora 2同様の明示的トークン

- **Image-to-Video** — 最初のフレームと最後のフレーム両方を指定可

- **Multi-shot** — 一つのプロンプト内で複数カット自動分割

4.2 なぜ速いか

KuaishouはTikTokと競合する中国の動画SNS。自前の動画データが膨大(数百億時間レベル)。これがKlingの学習データ的アドバンテージ。

もう一つ、中国のAI企業はLLM同様、動画でも極端に速いイテレーションサイクルを示している。2024年6月〜2025年4月の間にKlingは1.0 → 1.5 → 1.6 → 2.0。同じ期間でSoraは1.0 → 2.0。

4.3 価格とアクセス

- `klingai.com` (海外) / `kling.kuaishou.com` (中国)

- 毎日無料クレジット、有料は月 `$10`〜`$60`

- グローバル登録可、クレジットカードがあれば誰でも

4.4 弱点

- 検閲・政治的にセンシティブなコンテンツの自動ブロック(中国企業特有のポリシー)

- 日本語・韓国語テキストが画面に出るシーンは崩れる

- C2PAメタデータ非提供、出所追跡は難しい

- 価格が頻繁に変わる、無料枠もよく変わる

5章 · Hailuo (MiniMax) — 中国のもう一人の強者

5.1 MiniMaxとは

MiniMaxは上海本社の中国AI企業。2023年からLLMと動画・音声モデルを並行開発。Hailuo(海螺)が彼らの動画ブランド。

2024年8月にHailuoが公開された時、「Soraに直接アクセスできないユーザー向けの代替」というポジションだった。Klingほど強くはなかったが、無料枠が寛大だった。

2026年5月時点のHailuo:

- **1080p, 10秒**

- **最初のフレーム・最後のフレーム両方を指定可能 (Image-to-Video)**

- **寛大な毎日無料クレジット**

- **Director Mode** — カメラ動作トークン制御

5.2 強み

- **最も寛大な無料枠** — 学生・趣味用に最適

- **グローバル登録が簡単**

- **生成が速い** — 6秒クリップが30秒以内

- **Image-to-video品質** — 人物写真を動画にするシナリオで強い

5.3 弱み

- 最大10秒と短い

- キャラクター一貫性はSora 2・Kling 2より弱い

- 利用規約・検閲面はKlingと同様、中国特有

5.4 Kling vs Hailuo

| 軸 | Kling 2 | Hailuo |

| --- | --- | --- |

| 最大尺 | 30s | 10s |

| 解像度 | 1080p | 1080p |

| カメラ制御 | 強い | 中程度 |

| 無料枠 | 普通 | 寛大 |

| グローバルアクセス | 容易 | 容易 |

| 価格 | `$10`〜`$60`/mo | `$5`〜`$30`/mo |

中国動画モデルではKlingがSOTA、Hailuoがコストパフォーマンス枠。両者とも進化が速い。

6章 · Runway Gen-4 — 映像業界の標準

6.1 Runwayの位置

Runwayは2018年創業の映像+ML ツール企業。2022年にStable Diffusionの共同発表に名を連ね、2023年にGen-1・Gen-2でAI動画市場を商業的に開いた。

2024年6月のGen-3 Alphaを経て、2025年Gen-4へ。Runwayの強みは生のモデル品質ではなく、ワークフロー。

- **Frames** — キャラクター・スタイル・ロケーションの一貫性のためのリファレンス画像制御

- **Director Mode** — カメラ動作の細密制御

- **Video-to-Video** — 既存映像のスタイル変換

- **Motion Brush** — 動かす領域だけマスキング

- **After Effectsプラグイン** — コンポジット・パイプラインに直接統合

6.2 Gen-4のキャラクター一貫性

Gen-4最大の進化はリファレンス画像ベースのキャラクター一貫性。次のようなワークフローが簡単に。

[Reference image] character.png (顔写真)

[Prompt] Same character walking through Times Square at night, neon lights,

camera tracks behind.

これは広告・MV・短編で決定的。複数カットでキャラクターを維持するコストが劇的に下がる。

6.3 価格

- Standard `$15/mo` — 625クレジット

- Pro `$35/mo` — 2,250クレジット

- Unlimited `$95/mo`

- Enterprise — 相談

10秒クリップで約50クレジット(変動)。広告・メディア企業の規模では合理的。

6.4 誰が使うか

- 広告代理店(Ogilvy、Wieden+Kennedyなどが事例を公表)

- MVディレクター

- 短編映画・ドキュメンタリー

- After Effectsヘビーユーザー — プラグイン統合が深い

Sora 2が「画像一枚から天才的なクリップ」だとすれば、Runwayは「プロの映像ワークフローに自然に入る」。

7章 · Luma Ray 2 — Dream Machineの後継

7.1 Lumaの出自

Luma AIはNeRF(Neural Radiance Fields)研究出身の企業。2022〜2023年はNeRFベースの3DキャプチャアプリLuma AIで知られた。

2024年6月にDream Machineで動画生成市場に参入。Kling公開とほぼ同時。2025年にRay 1、2025年後半にRay 2へアップグレード。

7.2 Ray 2の特徴

- **物理整合性重視** — Lumaはカメラモーションと物理シミュレーション品質に集中。NeRF研究の背景が反映されている

- **Keyframes** — 最初・中間・最後のフレームを指定可

- **カメラモーション制御** — orbit, dolly, zoom など映画的カメラ動作トークン

- **API が整備されている** — 開発者が自分のアプリに統合しやすい

7.3 価格

- Free — 毎日30クレジット

- Standard `$9.99/mo`

- Pro `$29.99/mo`

- Premier `$94.99/mo`

- API — 5秒クリップで約 `$0.50`

7.4 Runway vs Luma

| 軸 | Runway Gen-4 | Luma Ray 2 |

| --- | --- | --- |

| 映像品質 | 同等 | 同等 |

| カメラ制御 | 強い (Director Mode) | 強い (映画的トークン) |

| キャラ一貫性 | 強い (Frames, ref) | 普通 |

| ワークフロー統合 | After Effects、自社エディタ | API ファースト |

| 価格 | やや高め | 安め |

業界標準はRunway、API統合・物理整合性はLuma。両方とも有力な選択肢。

8章 · Pika 2 — Image-to-Videoへの転換

8.1 Pikaの変遷

Pika Labsは2023年にDiscordボットとしてスタート。Runwayと並んでAI動画市場の初期を開いた。

2024年後半のPika 2で戦略が変わった。「Sora・Veo・Klingのt2v市場で正面から戦う」のではなく、**画像・キャラクター・短いソーシャルコンテンツ**にポジショニング。

Pika 2のコア機能:

- **Pikaffects** — 写真一枚から特殊効果動画を作る(「溶ける」「爆発」「圧縮」など)

- **Pikascenes** — 人物写真をシナリオに自然に挿入

- **Lip-sync** — 写真を喋らせる

- **Image-to-videoが速い** — 8秒クリップが30秒以内

8.2 誰が使うか

- ソーシャルメディアクリエイター(TikTok、Instagram Reels)

- ミーム制作者

- カジュアルユーザー — 「写真を動かす」

Sora 2の「70秒の短編映画」市場ではなく、**8秒ソーシャル**市場で強い。

8.3 価格

- Free — 毎日の枠

- Standard `$10/mo`

- Pro `$35/mo`

- Fancy `$95/mo`

動画系インフルエンサー・ソーシャルマーケでコスパが良い。

9章 · HunyuanVideo (Tencent, オープン) — 初の本格的なオープン対抗馬

9.1 何が初めてだったか

2024年12月3日、TencentがHunyuanVideoを公開。それが事件だった理由:

- **13Bパラメータ** — それまでに公開されたオープン動画モデルで圧倒的に大きい

- **品質がRunway Gen-3・Luma Dream Machineに匹敵** — クローズドSOTAに迫る初のオープンウェイト

- **Apache 2.0互換ライセンス**(いくつか制約あり) — 商用利用可能

LLMでLlama 2が「オープンウェイトでGPT-3.5に追いついた」瞬間を作ったのと同様に、動画ではHunyuanVideoがその瞬間だった。

9.2 アーキテクチャ

HunyuanVideoはDiT(Diffusion Transformer)とLatent Diffusionを組み合わせた構造。

- **3D VAE** — 動画をlatent空間に圧縮

- **DiTエンコーダ** — 圧縮表現にdiffusionを適用

- **MLLMテキストエンコーダ** — マルチモーダルLLMをテキストエンコーダに(CLIPより豊かな表現)

- **Flow matching** — 学習段階でノイズ→動画マッピングをより効率的に

技術レポートが公開されているため、学界での引用も多い。

9.3 使い方

git clone https://github.com/Tencent/HunyuanVideo

cd HunyuanVideo

推奨: H100 または A100 80GB GPU

python sample_video.py \

--prompt "A cat playing piano in a jazz bar, warm light" \

--video-length 65 \

--infer-steps 50 \

--save-path ./outputs

7B派生もあり、RTX 4090でも回せる。ただし品質は13Bが圧倒的。

9.4 ComfyUIで

ComfyUI(ノードベースのワークフロー・ツール)が公式にHunyuanVideoノードをサポート。

[Load HunyuanVideo Model] - [CLIP Text Encode] - [HunyuanVideo Sampler] - [Video Combine]

動画クリエイターが自分のワークフローに統合する事例が急増。クローズドモデルの価格と比べてGPU費用だけで済むため。

9.5 弱点

- 5秒の尺制限(単一生成)

- 日本語・韓国語テキストが画面に出ると崩れる

- VRAM 60GB+必要(フルモデル)。量子化・LoRAで回避

10章 · LTX-Video / Wan 2.1 / Open-Sora — オープン勢

10.1 LTX-Video (Lightricks, 2024年11月)

LightricksはイスラエルのモバイルビデオエディタアプリFacetune、Videoleapの企業。2024年11月にLTX-Videoを公開。

- **2Bパラメータ** — 小さめ

- **高速** — RTX 4090で5秒クリップを4秒未満(リアルタイム未満)

- **オープンウェイト** — 自己ホスト可能

- **商用利用可能ライセンス**

LTXの意義は **「コンシューマGPUで動くAI動画モデル」**。HunyuanVideoがH100級を要求する中、LTXは4090一枚で動く。

from diffusers import LTXPipeline

pipe = LTXPipeline.from_pretrained(

"Lightricks/LTX-Video", torch_dtype=torch.bfloat16

).to("cuda")

video = pipe(

prompt="A woman walking in the rain at night, neon city",

num_frames=121,

guidance_scale=3.0,

).frames[0]

10.2 Wan 2.1 (Alibaba, 2025年2月)

AlibabaはLLMでQwen、動画でWanを運営。Wan 2.1は2025年2月公開。

- **14Bパラメータ**

- **text-to-videoとimage-to-video両対応**

- **flow matchingベース**

- **多言語プロンプト** — 中国語・英語ともに良好

品質はHunyuanVideo相当。両モデルは頻繁に比較される。

10.3 Open-Sora (HPC-AI Tech)

Open-SoraはシンガポールNUS・HPC-AI Techの学術オープンソースプロジェクト。Sora 1デモ直後に「Soraアーキテクチャを再実装してみよう」と始まった。

- **MITライセンス**

- **学習コード・データパイプライン全公開**

- **品質はHunyuanVideo・Wanよりやや劣る**

- **研究・教育目的に非常に有用**

動画モデル学習パイプラインを学ぶには良いコードベース。

10.4 オープン勢比較表

| モデル | パラメータ | 最大尺 | 最小GPU | ライセンス | 特徴 |

| --- | --- | --- | --- | --- | --- |

| HunyuanVideo (13B) | 13B | 5s | 60GB | Apache 2.0互換 | 品質最高 |

| HunyuanVideo (7B) | 7B | 5s | 24GB | Apache 2.0互換 | 折衷 |

| LTX-Video | 2B | 5s | 12GB | 商用OK | 速い・小さい |

| Wan 2.1 | 14B | 5s | 60GB | 商用OK | Hunyuan競合 |

| Open-Sora v2 | 11B | 16s | 40GB | MIT | 学術、16秒 |

オープン勢は2025年に一度爆発し、2026年はクローズドSOTAとのギャップが縮まっている。ただしキャラクター一貫性・マルチカットのような高度な制御では1年程度の差が残る。

11章 · Diffusion Transformer (DiT) の技術背景

11.1 なぜDiTか

2014年にGANが登場して以来、動画生成はGAN・VAE・Diffusionの間を行き来した。画像では2022年のStable DiffusionがLatent Diffusionで決着をつけた。動画は少し遅れた。

ターニングポイントはWilliam PeeblesとSaining Xieによる**DiT (Diffusion Transformer, 2023)**論文。「UNetベースのdiffusion」を「Transformerベースのdiffusion」に置き換える試み。

11.2 UNet vs Transformer

| 軸 | UNet diffusion | DiT |

| --- | --- | --- |

| バックボーン | CNN ベース UNet | Vision Transformer |

| スケーリング | 構造的制約で難しい | LLM同様のスケーリング則 |

| 動画適用 | 時間軸が不自然 | 自然 |

| 学習安定性 | 検証済み | 新しいが安定 |

動画は本質的に(height, width, time)の3Dテンソル。UNetに時間軸を後付けするのは自然でない。Transformerはシーケンス処理が本業なので時間軸は追加トークンになるだけ。

この発見以降、ほぼ全ての主要動画モデルがDiT(またはその派生)に移行。Sora、Veo、Kling、HunyuanVideo、Open-Sora全てDiT系列。

11.3 Latent Diffusionが重要な理由

動画の1フレームは1024x1024 = 100万ピクセル。1秒24fpsだと2400万ピクセル。これをraw でdiffusionするのは不可能。

**Latent Diffusion**の核心: VAEで動画をlatent空間(例: 128x128x8 ≈ 13万)に圧縮し、latentでdiffusion。計算量が100倍以上減る。

動画モデルの最初のステップはほぼ常に**3D VAE**(Causal VAE)。HunyuanVideo、Wan、Open-Sora全て自前の3D VAEを学習して使う。

11.4 Flow Matching — 新しい学習法

2022〜2023年にdiffusionの代替として浮上したのが**Flow Matching**。

- Diffusion: ノイズ→動画パスをSDEで学習

- Flow Matching: ノイズ→動画パスをODEで学習。学習がより安定、推論がより速い

HunyuanVideo、Wan 2.1、Stable Diffusion 3いずれもflow matchingを採用。2026年時点の標準と言える。

11.5 テキストエンコーダ — CLIP からLLMへ

動画モデルのテキストプロンプト・エンコーディングは伝統的にCLIPを使った。2024〜2025年に変化が起きた。

- **Stable Diffusion 3** — T5-XXLをテキストエンコーダに追加

- **HunyuanVideo** — MLLM(マルチモーダルLLM)自体をテキストエンコーダに

- **Veo 3** — Geminiのテキストエンコーダを活用

長いプロンプト、複雑なシーン記述、多言語処理ではLLMベースのエンコーダが圧倒的。CLIPの77トークン制限を超えるだけでも大きな前進。

12章 · 音声・音楽結合 — Lyria 2 / Suno / Udio / ElevenLabs SFX

12.1 動画はもう無音ではない

2024年まで、AI動画はほぼ無音だった。Sora 1、Kling 1、Runway Gen-3すべてビデオトラックのみ出力。ユーザーが別途BGM・SFX・ナレーション・リップシンクを合成する必要があった。

2025年以降これが変わった。

12.2 Lyria 2 (Google DeepMind, 2024)

LyriaはGoogle DeepMindの音楽生成モデル。2024年に2.0公開。

- **テキスト→音楽**生成

- **YouTube Shorts Dream Track**などに統合

- **Veo 3と統合** — Veo 3が動画生成時、LyriaがBGMを同時生成

12.3 Suno v4 / Udio

Suno(マサチューセッツ州ケンブリッジ)とUdio(元Google DeepMind関係者創業)は音楽生成最強の二社。

- **Suno v4** — 歌詞+メロディを一度に。4分のフルレングス曲が可能

- **Udio** — 同等品質、より精緻な制御

動画クリエイターがBGMを必要とする時はほぼこの二つのどちらか。無料枠も寛大。

12.4 ElevenLabs Sound Effects

ElevenLabsの本業はTTSだが、2024年にSFX(効果音)生成モデルを追加。

- **テキスト→サウンド** — 「footsteps in snow」「thunder rumble」「espresso machine」

- **0〜22秒の長さ**

- **十分な無料枠**

動画SFXライブラリで見つかりにくい効果音を即時生成できる。

12.5 HeyGen / Synthesia — リップシンク専門

HeyGenとSynthesiaは「AIアバター+リップシンク」市場の二強。

- **ユーザーが自分の顔動画をアップロード** → AIアバター生成

- **テキスト入力** → そのテキストをアバターが自然に発話(多言語)

- **社内研修・カスタマーサポート・セールスデモ**に多用

エンタープライズ市場ではHeyGen・Synthesiaが事実上の標準。

12.6 統合ワークフロー

2026年の動画コンテンツ制作ワークフロー例:

[Sora 2 または Kling 2] メイン動画 8秒

[Suno v4] BGM 30秒(動画よりやや長く)

[ElevenLabs SFX] 効果音(足音、環境音)

[ElevenLabs TTS] ナレーション

[CapCut / DaVinci / Premiere] 合成

またはVeo 3一つで全て終わらせることもできる(動画+音声を同時生成)。

13章 · 日本・韓国 — Sakana AI、KAIST、Naver

13.1 日本 — Sakana AI

Sakana AIは元Google Brain・DeepMindのDavid HaとLlion Jones(Transformer論文共著者)が東京で創業した企業。

- **進化的モデル合成 (Evolutionary Model Merging)** — 複数モデルを自動組合せて新モデル生成

- **DiffusionPipe / Sakana AI Scientist** — diffusionモデル自動設計

- 日本政府・企業と協力し、日本語特化マルチモーダルモデルを開発

直接動画生成SaaSは出していないが、他社が使うコア技術を作っている。

13.2 日本の動画・アニメーションAI

日本はアニメーション産業と結びついた動画AIが特に活発。

- **Stability AI Japan** — Japanese Stable Diffusion、アニメスタイル特化

- **AniPortrait / EMO** — 人物写真+音声からリップシンクアニメ

- **VOICEVOX と結合** — 音声合成と動画の結合ワークフロー

日本市場は特に「キャラクター一貫性」のドメインノウハウが豊富。

13.3 韓国 — KAIST・Naver・生成型動画スタートアップ

韓国学界はAI動画で次のような流れを示す。

- **KAIST** — Diffusion・Flow Matching理論研究。Jong Chul Ye教授グループなど

- **Naver AI Lab** — HyperCLOVA Xのマルチモーダル拡張、動画理解(VLM)と生成の両方

- **Kakao Brain** — Karlo (画像生成)、Sketch2Video研究

- **スタートアップ** — Lablup(モデルインフラ)、Snowmind、Twelve Labs(動画検索)

特にTwelve Labsは「AIが動画を理解する検索」で国際的に評価された。生成より理解寄り。NVIDIAとの協業事例多数。

13.4 学習データ・著作権ポリシーの違い

| 国 | 学習データポリシー | 出力著作権 |

| --- | --- | --- |

| 米国 | フェアユース論争継続中 | 人間創作部分のみ認定 |

| EU | AI Act、opt-out明示 | 同様 |

| 日本 | 学習は明示的に許容(著作権法30条の4) | 特殊ケースで認定 |

| 韓国 | 法整備進行中 | 同様 |

| 中国 | 検閲強化、出力責任明示 | 特殊ケースで認定 |

日本の学習データポリシーが最も寛容で、日本はAI動画・画像モデル学習に親和的な地域と評価されている。

14章 · 誰が何を選ぶべきか — ワークロード別推薦

14.1 広告・ブランドインサート

**推薦: Sora 2 または Veo 3**

- Sora 2: キャラクターメモリ、4K、120秒 — 短い広告シーケンスをそのまま

- Veo 3: 音声同時生成 — 後処理コスト削減

- 予算: 広告一本の動画生成コスト `$50`〜`$500`

広告代理店はRunway Gen-4も併用する場合が多い。広告プリビズはSora/Veo、最終コンポジットはRunway + After Effects。

14.2 映画・ドラマのプリビズ

**推薦: Sora 2 + Runway Gen-4**

- Sora 2のキャラクターメモリでコンテ動画作成

- Runway Gen-4のリファレンス画像でキャラ一貫性維持

- 監督・VFXスーパーバイザのワークフローに直接統合

映画業界事例: 短編映画のプリビズコストが従来 `$30,000` から `$3,000` に下がったという報告が多数。

14.3 ソーシャルコンテンツ(TikTok、Reels、Shorts)

**推薦: Pika 2 + Hailuo + Suno**

- Pika 2のエフェクト・リップシンク

- Hailuoの寛大な無料枠

- SunoのBGM

- 予算: 月 `$20`〜`$50` でフルワークフロー

14.4 学習・教育コンテンツ

**推薦: HeyGen + ElevenLabs**

- HeyGenアバター + ElevenLabs TTS

- 社内研修・オンライン講義・チュートリアル

- 多言語字幕・吹替が自動

14.5 ゲーム / インタラクティブ

**推薦: LTX-Video + 自己ホスト**

- 高速生成が決定的(ゲーム内で動的にコンテンツ生成)

- ライセンス問題のないオープンウェイト

- RTX 4090一枚で可能

14.6 研究・実験・アカデミック

**推薦: HunyuanVideo + Open-Sora**

- 学習パイプラインコードが全公開

- 自前データでファインチューニング可能

- 論文用reproducibility

14.7 予算表(月額)

| 利用シナリオ | 推薦ツール | 月額 (USD) |

| --- | --- | --- |

| 趣味・実験 | Kling/Hailuo無料 + Pika | `$0` |

| 個人クリエイター | Pika Pro + Suno | `$30`〜`$50` |

| ソーシャルマーケ | Kling + Hailuo + Suno + ElevenLabs | `$50`〜`$150` |

| 広告代理店 | Sora 2 API + Runway Pro + Veo 3 | `$500`〜`$5,000` |

| 映画プリビズ | Sora 2 + Runway Unlimited + Luma | `$1,000`〜`$10,000` |

| 自己ホスト(オープン) | HunyuanVideo/LTX + GPU レンタル | GPU費用のみ |

14.8 モデル選択の意思決定ツリー

[音声同期が必要?]

/ \

Yes No

| \

[Veo 3] [キャラクター一貫性が重要?]

/ \

Yes No

| \

[尺 30s+?] [ソーシャル短尺?]

/ \ / \

Yes No Yes No

| \ | \

[Sora 2] [Runway Gen-4] [Pika 2] [Kling/Hailuo]

15章 · まとめ — 2026年AI動画の全体像

3つの大きな流れ。

**第一に、動画・音声・リップシンクが一つのワークフローに統合された。** Veo 3が起点を作り、Sora 3またはSora 2の次バージョンでも同じ方向が予想される。2024年の「別々のツールを組み合わせて使う」段階は終わった。

**第二に、オープンウェイトがクローズドSOTAを1年差で追いかけている。** HunyuanVideo、Wan 2.1、LTXの登場で自己ホスト・ファインチューニングが現実的な選択肢になった。LLMでLlama 3がGPT-4に追いついたパターンと類似。ただしキャラクター一貫性・マルチカットのような高度な制御ではクローズドが約1年先行。

**第三に、動画生成は「面白いデモ」から「量産ワークフロー」に移った。** 広告、映画プリビズ、ソーシャルコンテンツ、社内研修 — 全てに事例報告が多数。2024年の「これデモでしょ?」段階から、2026年には「これで締め切りに間に合わせる」段階になった。

今後1〜2年の見どころは(1)Sora 3が本当にキャラクター一貫性を解決するか、(2)HunyuanVideo級のオープンモデルが1年以内にもう一つ出るか、(3)動画・音声・リップシンクが本当に単一モデルに統合されるか、(4)C2PA・透かしが標準化されるか。

「AIが作った」事実はもうニュースにならない。「これをどう上手く作るか」が本当のゲームになった。

参考 / References

- OpenAI Sora — https://openai.com/sora

- Sora 1 system card (2024年2月) — https://openai.com/research/video-generation-models-as-world-simulators

- Google DeepMind Veo — https://deepmind.google/technologies/veo/

- Google Vertex AI Veo — https://cloud.google.com/vertex-ai/generative-ai/docs/video/overview

- Kling AI — https://klingai.com

- Kuaishou Kling 発表 — https://kling.kuaishou.com

- MiniMax Hailuo — https://hailuoai.video

- Runway Gen-4 — https://runwayml.com/research/introducing-runway-gen-4

- Luma AI Dream Machine / Ray — https://lumalabs.ai/dream-machine

- Pika Labs — https://pika.art

- Tencent HunyuanVideo GitHub — https://github.com/Tencent/HunyuanVideo

- HunyuanVideo 技術レポート — https://arxiv.org/abs/2412.03603

- Lightricks LTX-Video — https://github.com/Lightricks/LTX-Video

- Alibaba Wan-2.1 — https://github.com/Wan-Video/Wan2.1

- Open-Sora (HPC-AI Tech) — https://github.com/hpcaitech/Open-Sora

- DiT 論文 (Peebles & Xie, 2023) — https://arxiv.org/abs/2212.09748

- Latent Diffusion (Rombach et al.) — https://arxiv.org/abs/2112.10752

- Flow Matching 論文 — https://arxiv.org/abs/2210.02747

- Google Lyria — https://deepmind.google/discover/blog/transforming-music-creation-with-ai-and-human-creativity/

- Suno AI — https://suno.com

- Udio — https://udio.com

- ElevenLabs Sound Effects — https://elevenlabs.io/sound-effects

- HeyGen — https://heygen.com

- Synthesia — https://synthesia.io

- ComfyUI — https://github.com/comfyanonymous/ComfyUI

- Sakana AI — https://sakana.ai

- Twelve Labs — https://twelvelabs.io

- Naver AI Lab — https://clova.ai

- C2PA Content Credentials — https://c2pa.org

- AniPortrait — https://github.com/Zejun-Yang/AniPortrait

- EMO (Alibaba) — https://humanaigc.github.io/emote-portrait-alive/

- KAIST AI — https://gsai.kaist.ac.kr