Skip to content
Published on

AI動画生成 2026 — Sora 2 / Veo 3 / Kling 2 / Hailuo / Runway Gen-4 / Luma Ray 2 / HunyuanVideo 徹底ガイド

Authors

AI Video Generation 2026 — 2024年2月のSora 1デモから2年。2026年5月時点でAI動画生成市場はクローズドSOTA(OpenAI・Google・Kuaishou・MiniMax)、業界標準ツール(Runway・Luma・Pika)、本格的なオープンウェイト勢(Hunyuan・LTX・Wan・Open-Sora)の三極体制に固まった。本記事はその地形図である。

Prologue — 2年で何が変わったか

2024年2月16日、OpenAIはSora 1のデモを公開した。東京の街を歩く女性、宇宙から見た地球、ジャングルの上を飛ぶ紙飛行機 — すべて1080p、最長60秒、テキストプロンプト一本から生成。同年11月にSora公式APIが開放されたものの、画質・尺・物理整合性にはまだ粗があった。

2年後の2026年5月、風景は完全に違う。

  1. Sora 2 (OpenAI, 2025年10月) — 4K、120秒、キャラクター一貫性、精緻なカメラ制御。ChatGPT Plus内で直接利用可能。
  2. Veo 3 (Google DeepMind, 2025年6月) — 映像と同期した音声・会話・音楽を生成する初の主要モデル。
  3. Kling 2 (Kuaishou, 2025年4月) — 中国発の最強動画モデル。2024年6月のKling 1.0は、Sora 1デモから4ヶ月でほぼ同等の品質を一般公開した。
  4. Hailuo (MiniMax, 2024年〜) — 中国のもう一つの強者。寛大な無料枠で広いユーザー層を獲得。
  5. HunyuanVideo (Tencent, 2024年12月) — 初の本格的なオープンウェイト競合。13Bパラメータ、Apache 2.0互換ライセンス。
  6. Runway Gen-4 (2025) — 映画・広告業界の事実上の標準。Adobe Creative・After Effectsとの深い統合。
  7. Luma Ray 2 (2025) — Dream Machineの後継。カメラモーションと物理整合性を重視。
  8. Pika 2 — image-to-videoへピボット。「写真を動かす」市場。
  9. LTX-Video (Lightricks, 2024年11月) — リアルタイム未満のレイテンシ、オープンウェイト、コンシューマGPUで動作。
  10. Wan-2.1 (Alibaba, 2025年2月) — もう一つの強力なオープンウェイト。
  11. Open-Sora (HPC-AI Tech) — アカデミックなオープンソース、Sora風アーキテクチャの再実装。

ここに音声側が合流した。Google Lyria 2、Suno v4、Udioが音楽を、ElevenLabs SFXが効果音を、HeyGen・Synthesiaがリップシンクを担当する。2024年の「動画はここ、音楽はあっち、リップシンクは別」というバラバラなパイプラインが、2026年には単一ワークフローに統合された。

本記事は14章で地形図を整理し、最後に「誰が何を選ぶべきか」をまとめる。


1章 · 2026年のAI動画地図 — クローズド/業界ツール/オープン

1.1 三極構造

2026年5月時点、AI動画市場は三グループに分かれる。

陣営代表強み弱み
クローズドSOTASora 2, Veo 3, Kling 2, Hailuo品質・尺・一貫性で圧倒価格、制約、透かし
業界標準ツールRunway Gen-4, Luma Ray 2, Pika 2ワークフロー統合、細かな制御純粋な品質ではSOTAに少し劣る
オープンウェイトHunyuanVideo, LTX, Wan 2.1, Open-Sora自己ホスト、ファインチューニング可品質・尺のギャップは残る

これはLLM市場のGPT-4・Claude・Gemini / Anthropic API互換OSS / Llama・Qwen構造とほぼ同じ。動画は1〜2年遅れで同じパターンを辿っている。

1.2 評価4軸

  • 品質(quality) — 解像度、ディテール、テクスチャの一貫性
  • 時間的整合性(temporal coherence) — キャラクター・物体がフレーム間で一貫しているか
  • 物理(physics) — 重力、衝突、液体、布の挙動が自然か
  • 制御(control) — プロンプトだけでなく、カメラ・キャラクター・スタイルをどこまで細かく制御できるか

この4軸を全て満たすモデルはまだない。広告インサートか、短編映画のプリビズか、ソーシャル向けかによって優先する軸が変わる。

1.3 仕様表

モデル最大解像度最大尺音声同期ライセンス
Sora 2 (OpenAI)4K120s別途クローズド、API
Veo 3 (Google)4K60s同時生成クローズド、Vertex AI
Kling 2 (Kuaishou)1080p30sなしクローズド、Web
Hailuo (MiniMax)1080p10sなしクローズド、API
Runway Gen-41080p16sなしクローズド、SaaS
Luma Ray 21080p10sなしクローズド、API
Pika 2720p〜1080p10sなしクローズド、API
HunyuanVideo (Tencent)720p5sなしオープン、13B
LTX-Video (Lightricks)720p5sなしオープン、2B
Wan 2.1 (Alibaba)720p5sなしオープン、14B
Open-Sora720p16sなしオープン、MIT

短い尺は「単一生成での最大尺」。複数生成をつなげて長尺にするのは別ワークフロー。


2章 · Sora 2 (OpenAI) — 第1世代から第2世代へ

2.1 Sora 1 → Sora 2

Sora 1は2024年2月にデモ、11月に正式公開。当時のスペック:

  • 最大尺: 60秒(当時最長級)
  • 解像度: 1080p
  • 弱点: 指がねじれる、カット間で衣装が変わる、歩行が不自然

2025年10月のSora 2で変わった点:

  • 最大尺: 120秒まで
  • 解像度: 4Kオプション
  • キャラクター一貫性: 同じプロンプト内でキャラ外見が維持される。「キャラクターメモリ」と呼ばれる
  • カメラ制御: 明示的なカメラモーション・トークン(zoom in, dolly out, orbit left)
  • 物理: 液体・衝突・重力の処理が改善

OpenAIはSora 2をChatGPT Plus / Team / Enterpriseに直接統合した。APIは別申請。

2.2 価格と速度

2026年5月時点:

  • ChatGPT Plus ($20/mo): 標準解像度12秒まで含まれる、それ以上はクレジット
  • API: 1秒あたり約 $0.30$0.50 (解像度・尺による)
  • 生成時間: 12秒クリップで1〜3分

動画生成はテキスト生成の100倍以上のコストがかかり、価格にそのまま反映されている。

2.3 プロンプト例

A close-up of a Korean street food vendor flipping hotteok on a hot grill,
steam rising, the camera slowly dollies in from the left.
Time of day: golden hour. Style: cinematic, shallow depth of field.
Duration: 8 seconds. Aspect ratio: 16:9.

Sora 2はカメラ動作、時刻、スタイル、尺/アスペクト比をメタデータとして明示的に認識する。

2.4 キャラクターメモリ

Sora 2の大きな進化の一つ。一つの生成で登場したキャラクターを次の生成でも同じ外見で維持できる。広告シーケンスや短編に非常に有用。

[Shot 1] A woman in a red coat walks into a Tokyo subway station at night.
[Shot 2] (Same woman, same coat) She buys a ticket from the machine.
[Shot 3] (Same woman) The train arrives, she steps in.

業界の反応は「これで絵コンテが描ける」。広告プリビズのコストが1/10になったという報告が多い。

2.5 弱点

  • 日本語・韓国語テキストが画面に出るシーンは依然崩れる。英語テキストも時々揺れる
  • 高速アクション(スポーツ、格闘)で手足が伸びる
  • ウォーターマークが常に入る(APIではオプションで外せる)
  • C2PAコンテンツ証明メタデータが全出力に埋め込まれる

3章 · Veo 3 (Google) — 合成音声+会話同期

3.1 Veo 1 → 2 → 3

Google DeepMindのVeoは2024年5月のGoogle I/OでVeo 1を発表。12月にVeo 2、2025年6月にVeo 3。最大の変化はVeo 3で導入された合成音声。

Veo 3は映像と同期した次の4つを同時に生成する。

  1. 動画(video)
  2. 環境音(ambient audio) — 街の音、雨、風
  3. 会話(dialogue) — キャラの口元と同期した音声
  4. 音楽(music) — Lyria 2と統合されたBGM

これが何を意味するかというと、2024年まで「AI動画」と言えば無音クリップだった。ユーザーが別途BGM・SFX・リップシンクを足す必要があった。Veo 3はこれを一つのプロンプトから同時生成する。

3.2 プロンプト例

A barista in a Tokyo cafe pours coffee while explaining the beans to a customer.
She says in Japanese: "これはエチオピアのイルガチェフェです、花のような香りがします。"
The customer nods. Background: light jazz, gentle espresso machine sounds.

Veo 3はこのプロンプトから、バリスタがコーヒーを注ぐ映像、日本語の自然な発音(リップシンク付き)、ジャズBGM+エスプレッソマシンの音、を全て同期して出力する。日本語・韓国語・中国語のような非英語もうまく処理する。

3.3 価格とアクセス

  • Google Vertex AI経由のAPI
  • Google AI Studio (aistudio.google.com) で無料枠内で試せる
  • 価格: 音声付き8秒クリップで約 $0.50$1.00
  • Google Workspace Business / Enterpriseに直接統合

3.4 強みと弱み

強み

  • 映像+音声を一度に。ワークフローが1段階に圧縮
  • 多言語会話(英語、日本語、韓国語、中国語、スペイン語など)が自然
  • Google Workspace統合 — Slides/Docsに直接入る

弱み

  • 60秒の尺制限(Sora 2の半分)
  • カメラ制御はSora 2より粗い
  • 米国外で利用可能になるタイミングが遅れる時期があった

4章 · Kling 2 (Kuaishou) — 中国の最強動画モデル

4.1 Kling 1 → 2 — 4ヶ月の衝撃

2024年6月、Sora 1デモから4ヶ月後。中国の動画SNS企業Kuaishou(快手)がKling 1.0を一般公開した。衝撃だったのは:

  1. Sora デモとほぼ同等の品質 — それまでOpenAIのデモしか見ていなかった世界に、似たものを出せる存在が突然現れた
  2. 誰でも無料で使えた — Sora がクローズドな待機リストに閉じられていた間に、Klingが圧倒的なユーザーベースを築いた

その後Klingは1.5、1.6、2.0(2025年4月)と高速にアップデート。2026年5月時点のKling 2:

  • 1080p, 30秒
  • カメラモーション制御 — Sora 2同様の明示的トークン
  • Image-to-Video — 最初のフレームと最後のフレーム両方を指定可
  • Multi-shot — 一つのプロンプト内で複数カット自動分割

4.2 なぜ速いか

KuaishouはTikTokと競合する中国の動画SNS。自前の動画データが膨大(数百億時間レベル)。これがKlingの学習データ的アドバンテージ。

もう一つ、中国のAI企業はLLM同様、動画でも極端に速いイテレーションサイクルを示している。2024年6月〜2025年4月の間にKlingは1.0 → 1.5 → 1.6 → 2.0。同じ期間でSoraは1.0 → 2.0。

4.3 価格とアクセス

  • klingai.com (海外) / kling.kuaishou.com (中国)
  • 毎日無料クレジット、有料は月 $10$60
  • グローバル登録可、クレジットカードがあれば誰でも

4.4 弱点

  • 検閲・政治的にセンシティブなコンテンツの自動ブロック(中国企業特有のポリシー)
  • 日本語・韓国語テキストが画面に出るシーンは崩れる
  • C2PAメタデータ非提供、出所追跡は難しい
  • 価格が頻繁に変わる、無料枠もよく変わる

5章 · Hailuo (MiniMax) — 中国のもう一人の強者

5.1 MiniMaxとは

MiniMaxは上海本社の中国AI企業。2023年からLLMと動画・音声モデルを並行開発。Hailuo(海螺)が彼らの動画ブランド。

2024年8月にHailuoが公開された時、「Soraに直接アクセスできないユーザー向けの代替」というポジションだった。Klingほど強くはなかったが、無料枠が寛大だった。

2026年5月時点のHailuo:

  • 1080p, 10秒
  • 最初のフレーム・最後のフレーム両方を指定可能 (Image-to-Video)
  • 寛大な毎日無料クレジット
  • Director Mode — カメラ動作トークン制御

5.2 強み

  • 最も寛大な無料枠 — 学生・趣味用に最適
  • グローバル登録が簡単
  • 生成が速い — 6秒クリップが30秒以内
  • Image-to-video品質 — 人物写真を動画にするシナリオで強い

5.3 弱み

  • 最大10秒と短い
  • キャラクター一貫性はSora 2・Kling 2より弱い
  • 利用規約・検閲面はKlingと同様、中国特有

5.4 Kling vs Hailuo

Kling 2Hailuo
最大尺30s10s
解像度1080p1080p
カメラ制御強い中程度
無料枠普通寛大
グローバルアクセス容易容易
価格$10$60/mo$5$30/mo

中国動画モデルではKlingがSOTA、Hailuoがコストパフォーマンス枠。両者とも進化が速い。


6章 · Runway Gen-4 — 映像業界の標準

6.1 Runwayの位置

Runwayは2018年創業の映像+ML ツール企業。2022年にStable Diffusionの共同発表に名を連ね、2023年にGen-1・Gen-2でAI動画市場を商業的に開いた。

2024年6月のGen-3 Alphaを経て、2025年Gen-4へ。Runwayの強みは生のモデル品質ではなく、ワークフロー。

  • Frames — キャラクター・スタイル・ロケーションの一貫性のためのリファレンス画像制御
  • Director Mode — カメラ動作の細密制御
  • Video-to-Video — 既存映像のスタイル変換
  • Motion Brush — 動かす領域だけマスキング
  • After Effectsプラグイン — コンポジット・パイプラインに直接統合

6.2 Gen-4のキャラクター一貫性

Gen-4最大の進化はリファレンス画像ベースのキャラクター一貫性。次のようなワークフローが簡単に。

[Reference image] character.png (顔写真)
[Prompt] Same character walking through Times Square at night, neon lights,
camera tracks behind.

これは広告・MV・短編で決定的。複数カットでキャラクターを維持するコストが劇的に下がる。

6.3 価格

  • Standard $15/mo — 625クレジット
  • Pro $35/mo — 2,250クレジット
  • Unlimited $95/mo
  • Enterprise — 相談

10秒クリップで約50クレジット(変動)。広告・メディア企業の規模では合理的。

6.4 誰が使うか

  • 広告代理店(Ogilvy、Wieden+Kennedyなどが事例を公表)
  • MVディレクター
  • 短編映画・ドキュメンタリー
  • After Effectsヘビーユーザー — プラグイン統合が深い

Sora 2が「画像一枚から天才的なクリップ」だとすれば、Runwayは「プロの映像ワークフローに自然に入る」。


7章 · Luma Ray 2 — Dream Machineの後継

7.1 Lumaの出自

Luma AIはNeRF(Neural Radiance Fields)研究出身の企業。2022〜2023年はNeRFベースの3DキャプチャアプリLuma AIで知られた。

2024年6月にDream Machineで動画生成市場に参入。Kling公開とほぼ同時。2025年にRay 1、2025年後半にRay 2へアップグレード。

7.2 Ray 2の特徴

  • 物理整合性重視 — Lumaはカメラモーションと物理シミュレーション品質に集中。NeRF研究の背景が反映されている
  • Keyframes — 最初・中間・最後のフレームを指定可
  • カメラモーション制御 — orbit, dolly, zoom など映画的カメラ動作トークン
  • API が整備されている — 開発者が自分のアプリに統合しやすい

7.3 価格

  • Free — 毎日30クレジット
  • Standard $9.99/mo
  • Pro $29.99/mo
  • Premier $94.99/mo
  • API — 5秒クリップで約 $0.50

7.4 Runway vs Luma

Runway Gen-4Luma Ray 2
映像品質同等同等
カメラ制御強い (Director Mode)強い (映画的トークン)
キャラ一貫性強い (Frames, ref)普通
ワークフロー統合After Effects、自社エディタAPI ファースト
価格やや高め安め

業界標準はRunway、API統合・物理整合性はLuma。両方とも有力な選択肢。


8章 · Pika 2 — Image-to-Videoへの転換

8.1 Pikaの変遷

Pika Labsは2023年にDiscordボットとしてスタート。Runwayと並んでAI動画市場の初期を開いた。

2024年後半のPika 2で戦略が変わった。「Sora・Veo・Klingのt2v市場で正面から戦う」のではなく、画像・キャラクター・短いソーシャルコンテンツにポジショニング。

Pika 2のコア機能:

  • Pikaffects — 写真一枚から特殊効果動画を作る(「溶ける」「爆発」「圧縮」など)
  • Pikascenes — 人物写真をシナリオに自然に挿入
  • Lip-sync — 写真を喋らせる
  • Image-to-videoが速い — 8秒クリップが30秒以内

8.2 誰が使うか

  • ソーシャルメディアクリエイター(TikTok、Instagram Reels)
  • ミーム制作者
  • カジュアルユーザー — 「写真を動かす」

Sora 2の「70秒の短編映画」市場ではなく、8秒ソーシャル市場で強い。

8.3 価格

  • Free — 毎日の枠
  • Standard $10/mo
  • Pro $35/mo
  • Fancy $95/mo

動画系インフルエンサー・ソーシャルマーケでコスパが良い。


9章 · HunyuanVideo (Tencent, オープン) — 初の本格的なオープン対抗馬

9.1 何が初めてだったか

2024年12月3日、TencentがHunyuanVideoを公開。それが事件だった理由:

  • 13Bパラメータ — それまでに公開されたオープン動画モデルで圧倒的に大きい
  • 品質がRunway Gen-3・Luma Dream Machineに匹敵 — クローズドSOTAに迫る初のオープンウェイト
  • Apache 2.0互換ライセンス(いくつか制約あり) — 商用利用可能

LLMでLlama 2が「オープンウェイトでGPT-3.5に追いついた」瞬間を作ったのと同様に、動画ではHunyuanVideoがその瞬間だった。

9.2 アーキテクチャ

HunyuanVideoはDiT(Diffusion Transformer)とLatent Diffusionを組み合わせた構造。

  • 3D VAE — 動画をlatent空間に圧縮
  • DiTエンコーダ — 圧縮表現にdiffusionを適用
  • MLLMテキストエンコーダ — マルチモーダルLLMをテキストエンコーダに(CLIPより豊かな表現)
  • Flow matching — 学習段階でノイズ→動画マッピングをより効率的に

技術レポートが公開されているため、学界での引用も多い。

9.3 使い方

git clone https://github.com/Tencent/HunyuanVideo
cd HunyuanVideo

# 推奨: H100 または A100 80GB GPU
python sample_video.py \
  --prompt "A cat playing piano in a jazz bar, warm light" \
  --video-length 65 \
  --infer-steps 50 \
  --save-path ./outputs

7B派生もあり、RTX 4090でも回せる。ただし品質は13Bが圧倒的。

9.4 ComfyUIで

ComfyUI(ノードベースのワークフロー・ツール)が公式にHunyuanVideoノードをサポート。

[Load HunyuanVideo Model] - [CLIP Text Encode] - [HunyuanVideo Sampler] - [Video Combine]

動画クリエイターが自分のワークフローに統合する事例が急増。クローズドモデルの価格と比べてGPU費用だけで済むため。

9.5 弱点

  • 5秒の尺制限(単一生成)
  • 日本語・韓国語テキストが画面に出ると崩れる
  • VRAM 60GB+必要(フルモデル)。量子化・LoRAで回避

10章 · LTX-Video / Wan 2.1 / Open-Sora — オープン勢

10.1 LTX-Video (Lightricks, 2024年11月)

LightricksはイスラエルのモバイルビデオエディタアプリFacetune、Videoleapの企業。2024年11月にLTX-Videoを公開。

  • 2Bパラメータ — 小さめ
  • 高速 — RTX 4090で5秒クリップを4秒未満(リアルタイム未満)
  • オープンウェイト — 自己ホスト可能
  • 商用利用可能ライセンス

LTXの意義は 「コンシューマGPUで動くAI動画モデル」。HunyuanVideoがH100級を要求する中、LTXは4090一枚で動く。

from diffusers import LTXPipeline
import torch

pipe = LTXPipeline.from_pretrained(
    "Lightricks/LTX-Video", torch_dtype=torch.bfloat16
).to("cuda")

video = pipe(
    prompt="A woman walking in the rain at night, neon city",
    num_frames=121,
    guidance_scale=3.0,
).frames[0]

10.2 Wan 2.1 (Alibaba, 2025年2月)

AlibabaはLLMでQwen、動画でWanを運営。Wan 2.1は2025年2月公開。

  • 14Bパラメータ
  • text-to-videoとimage-to-video両対応
  • flow matchingベース
  • 多言語プロンプト — 中国語・英語ともに良好

品質はHunyuanVideo相当。両モデルは頻繁に比較される。

10.3 Open-Sora (HPC-AI Tech)

Open-SoraはシンガポールNUS・HPC-AI Techの学術オープンソースプロジェクト。Sora 1デモ直後に「Soraアーキテクチャを再実装してみよう」と始まった。

  • MITライセンス
  • 学習コード・データパイプライン全公開
  • 品質はHunyuanVideo・Wanよりやや劣る
  • 研究・教育目的に非常に有用

動画モデル学習パイプラインを学ぶには良いコードベース。

10.4 オープン勢比較表

モデルパラメータ最大尺最小GPUライセンス特徴
HunyuanVideo (13B)13B5s60GBApache 2.0互換品質最高
HunyuanVideo (7B)7B5s24GBApache 2.0互換折衷
LTX-Video2B5s12GB商用OK速い・小さい
Wan 2.114B5s60GB商用OKHunyuan競合
Open-Sora v211B16s40GBMIT学術、16秒

オープン勢は2025年に一度爆発し、2026年はクローズドSOTAとのギャップが縮まっている。ただしキャラクター一貫性・マルチカットのような高度な制御では1年程度の差が残る。


11章 · Diffusion Transformer (DiT) の技術背景

11.1 なぜDiTか

2014年にGANが登場して以来、動画生成はGAN・VAE・Diffusionの間を行き来した。画像では2022年のStable DiffusionがLatent Diffusionで決着をつけた。動画は少し遅れた。

ターニングポイントはWilliam PeeblesとSaining Xieによる**DiT (Diffusion Transformer, 2023)**論文。「UNetベースのdiffusion」を「Transformerベースのdiffusion」に置き換える試み。

11.2 UNet vs Transformer

UNet diffusionDiT
バックボーンCNN ベース UNetVision Transformer
スケーリング構造的制約で難しいLLM同様のスケーリング則
動画適用時間軸が不自然自然
学習安定性検証済み新しいが安定

動画は本質的に(height, width, time)の3Dテンソル。UNetに時間軸を後付けするのは自然でない。Transformerはシーケンス処理が本業なので時間軸は追加トークンになるだけ。

この発見以降、ほぼ全ての主要動画モデルがDiT(またはその派生)に移行。Sora、Veo、Kling、HunyuanVideo、Open-Sora全てDiT系列。

11.3 Latent Diffusionが重要な理由

動画の1フレームは1024x1024 = 100万ピクセル。1秒24fpsだと2400万ピクセル。これをraw でdiffusionするのは不可能。

Latent Diffusionの核心: VAEで動画をlatent空間(例: 128x128x8 ≈ 13万)に圧縮し、latentでdiffusion。計算量が100倍以上減る。

動画モデルの最初のステップはほぼ常に3D VAE(Causal VAE)。HunyuanVideo、Wan、Open-Sora全て自前の3D VAEを学習して使う。

11.4 Flow Matching — 新しい学習法

2022〜2023年にdiffusionの代替として浮上したのがFlow Matching

  • Diffusion: ノイズ→動画パスをSDEで学習
  • Flow Matching: ノイズ→動画パスをODEで学習。学習がより安定、推論がより速い

HunyuanVideo、Wan 2.1、Stable Diffusion 3いずれもflow matchingを採用。2026年時点の標準と言える。

11.5 テキストエンコーダ — CLIP からLLMへ

動画モデルのテキストプロンプト・エンコーディングは伝統的にCLIPを使った。2024〜2025年に変化が起きた。

  • Stable Diffusion 3 — T5-XXLをテキストエンコーダに追加
  • HunyuanVideo — MLLM(マルチモーダルLLM)自体をテキストエンコーダに
  • Veo 3 — Geminiのテキストエンコーダを活用

長いプロンプト、複雑なシーン記述、多言語処理ではLLMベースのエンコーダが圧倒的。CLIPの77トークン制限を超えるだけでも大きな前進。


12章 · 音声・音楽結合 — Lyria 2 / Suno / Udio / ElevenLabs SFX

12.1 動画はもう無音ではない

2024年まで、AI動画はほぼ無音だった。Sora 1、Kling 1、Runway Gen-3すべてビデオトラックのみ出力。ユーザーが別途BGM・SFX・ナレーション・リップシンクを合成する必要があった。

2025年以降これが変わった。

12.2 Lyria 2 (Google DeepMind, 2024)

LyriaはGoogle DeepMindの音楽生成モデル。2024年に2.0公開。

  • テキスト→音楽生成
  • YouTube Shorts Dream Trackなどに統合
  • Veo 3と統合 — Veo 3が動画生成時、LyriaがBGMを同時生成

12.3 Suno v4 / Udio

Suno(マサチューセッツ州ケンブリッジ)とUdio(元Google DeepMind関係者創業)は音楽生成最強の二社。

  • Suno v4 — 歌詞+メロディを一度に。4分のフルレングス曲が可能
  • Udio — 同等品質、より精緻な制御

動画クリエイターがBGMを必要とする時はほぼこの二つのどちらか。無料枠も寛大。

12.4 ElevenLabs Sound Effects

ElevenLabsの本業はTTSだが、2024年にSFX(効果音)生成モデルを追加。

  • テキスト→サウンド — 「footsteps in snow」「thunder rumble」「espresso machine」
  • 0〜22秒の長さ
  • 十分な無料枠

動画SFXライブラリで見つかりにくい効果音を即時生成できる。

12.5 HeyGen / Synthesia — リップシンク専門

HeyGenとSynthesiaは「AIアバター+リップシンク」市場の二強。

  • ユーザーが自分の顔動画をアップロード → AIアバター生成
  • テキスト入力 → そのテキストをアバターが自然に発話(多言語)
  • 社内研修・カスタマーサポート・セールスデモに多用

エンタープライズ市場ではHeyGen・Synthesiaが事実上の標準。

12.6 統合ワークフロー

2026年の動画コンテンツ制作ワークフロー例:

[Sora 2 または Kling 2] メイン動画 8秒
  |
[Suno v4] BGM 30秒(動画よりやや長く)
  |
[ElevenLabs SFX] 効果音(足音、環境音)
  |
[ElevenLabs TTS] ナレーション
  |
[CapCut / DaVinci / Premiere] 合成

またはVeo 3一つで全て終わらせることもできる(動画+音声を同時生成)。


13章 · 日本・韓国 — Sakana AI、KAIST、Naver

13.1 日本 — Sakana AI

Sakana AIは元Google Brain・DeepMindのDavid HaとLlion Jones(Transformer論文共著者)が東京で創業した企業。

  • 進化的モデル合成 (Evolutionary Model Merging) — 複数モデルを自動組合せて新モデル生成
  • DiffusionPipe / Sakana AI Scientist — diffusionモデル自動設計
  • 日本政府・企業と協力し、日本語特化マルチモーダルモデルを開発

直接動画生成SaaSは出していないが、他社が使うコア技術を作っている。

13.2 日本の動画・アニメーションAI

日本はアニメーション産業と結びついた動画AIが特に活発。

  • Stability AI Japan — Japanese Stable Diffusion、アニメスタイル特化
  • AniPortrait / EMO — 人物写真+音声からリップシンクアニメ
  • VOICEVOX と結合 — 音声合成と動画の結合ワークフロー

日本市場は特に「キャラクター一貫性」のドメインノウハウが豊富。

13.3 韓国 — KAIST・Naver・生成型動画スタートアップ

韓国学界はAI動画で次のような流れを示す。

  • KAIST — Diffusion・Flow Matching理論研究。Jong Chul Ye教授グループなど
  • Naver AI Lab — HyperCLOVA Xのマルチモーダル拡張、動画理解(VLM)と生成の両方
  • Kakao Brain — Karlo (画像生成)、Sketch2Video研究
  • スタートアップ — Lablup(モデルインフラ)、Snowmind、Twelve Labs(動画検索)

特にTwelve Labsは「AIが動画を理解する検索」で国際的に評価された。生成より理解寄り。NVIDIAとの協業事例多数。

13.4 学習データ・著作権ポリシーの違い

学習データポリシー出力著作権
米国フェアユース論争継続中人間創作部分のみ認定
EUAI Act、opt-out明示同様
日本学習は明示的に許容(著作権法30条の4)特殊ケースで認定
韓国法整備進行中同様
中国検閲強化、出力責任明示特殊ケースで認定

日本の学習データポリシーが最も寛容で、日本はAI動画・画像モデル学習に親和的な地域と評価されている。


14章 · 誰が何を選ぶべきか — ワークロード別推薦

14.1 広告・ブランドインサート

推薦: Sora 2 または Veo 3

  • Sora 2: キャラクターメモリ、4K、120秒 — 短い広告シーケンスをそのまま
  • Veo 3: 音声同時生成 — 後処理コスト削減
  • 予算: 広告一本の動画生成コスト $50$500

広告代理店はRunway Gen-4も併用する場合が多い。広告プリビズはSora/Veo、最終コンポジットはRunway + After Effects。

14.2 映画・ドラマのプリビズ

推薦: Sora 2 + Runway Gen-4

  • Sora 2のキャラクターメモリでコンテ動画作成
  • Runway Gen-4のリファレンス画像でキャラ一貫性維持
  • 監督・VFXスーパーバイザのワークフローに直接統合

映画業界事例: 短編映画のプリビズコストが従来 $30,000 から $3,000 に下がったという報告が多数。

14.3 ソーシャルコンテンツ(TikTok、Reels、Shorts)

推薦: Pika 2 + Hailuo + Suno

  • Pika 2のエフェクト・リップシンク
  • Hailuoの寛大な無料枠
  • SunoのBGM
  • 予算: 月 $20$50 でフルワークフロー

14.4 学習・教育コンテンツ

推薦: HeyGen + ElevenLabs

  • HeyGenアバター + ElevenLabs TTS
  • 社内研修・オンライン講義・チュートリアル
  • 多言語字幕・吹替が自動

14.5 ゲーム / インタラクティブ

推薦: LTX-Video + 自己ホスト

  • 高速生成が決定的(ゲーム内で動的にコンテンツ生成)
  • ライセンス問題のないオープンウェイト
  • RTX 4090一枚で可能

14.6 研究・実験・アカデミック

推薦: HunyuanVideo + Open-Sora

  • 学習パイプラインコードが全公開
  • 自前データでファインチューニング可能
  • 論文用reproducibility

14.7 予算表(月額)

利用シナリオ推薦ツール月額 (USD)
趣味・実験Kling/Hailuo無料 + Pika$0
個人クリエイターPika Pro + Suno$30$50
ソーシャルマーケKling + Hailuo + Suno + ElevenLabs$50$150
広告代理店Sora 2 API + Runway Pro + Veo 3$500$5,000
映画プリビズSora 2 + Runway Unlimited + Luma$1,000$10,000
自己ホスト(オープン)HunyuanVideo/LTX + GPU レンタルGPU費用のみ

14.8 モデル選択の意思決定ツリー

              [音声同期が必要?]
              /              \
           Yes               No
            |                  \
        [Veo 3]         [キャラクター一貫性が重要?]
                          /              \
                        Yes               No
                         |                  \
                     [尺 30s+?]        [ソーシャル短尺?]
                      /        \         /         \
                    Yes        No      Yes          No
                     |          \       |            \
                 [Sora 2]   [Runway Gen-4]  [Pika 2]  [Kling/Hailuo]

15章 · まとめ — 2026年AI動画の全体像

3つの大きな流れ。

第一に、動画・音声・リップシンクが一つのワークフローに統合された。 Veo 3が起点を作り、Sora 3またはSora 2の次バージョンでも同じ方向が予想される。2024年の「別々のツールを組み合わせて使う」段階は終わった。

第二に、オープンウェイトがクローズドSOTAを1年差で追いかけている。 HunyuanVideo、Wan 2.1、LTXの登場で自己ホスト・ファインチューニングが現実的な選択肢になった。LLMでLlama 3がGPT-4に追いついたパターンと類似。ただしキャラクター一貫性・マルチカットのような高度な制御ではクローズドが約1年先行。

第三に、動画生成は「面白いデモ」から「量産ワークフロー」に移った。 広告、映画プリビズ、ソーシャルコンテンツ、社内研修 — 全てに事例報告が多数。2024年の「これデモでしょ?」段階から、2026年には「これで締め切りに間に合わせる」段階になった。

今後1〜2年の見どころは(1)Sora 3が本当にキャラクター一貫性を解決するか、(2)HunyuanVideo級のオープンモデルが1年以内にもう一つ出るか、(3)動画・音声・リップシンクが本当に単一モデルに統合されるか、(4)C2PA・透かしが標準化されるか。

「AIが作った」事実はもうニュースにならない。「これをどう上手く作るか」が本当のゲームになった。


参考 / References