Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

プロローグ — 生成メディアの 3 本目の脚

2022 年の晩夏、私たちは Stable Diffusion で初めて写真のような画像を生成した。2023 年初頭、ChatGPT が書く行為を揺さぶった。2024 年春、Suno と Udio が音楽を渡した。そして 2024 年 12 月、OpenAI が Sora を一般公開し、最後の一脚 — 動画 — が到着した。

動画が最後だったのには単純な理由がある。時間という次元が一つ追加されると、1 フレームのリアリティを確保したモデルでも、シーケンスを通じて一貫性を維持しなければならない。同じ人物の顔、同じ背景の家具、同じ手の指の数。24fps なら 6 秒で 144 フレームだ。その 144 フレームを通り抜けても、人間の目はまだ違和感を覚える — 手が突然増えたり、コップがそっと椅子に変わったり、物理的に不可能なカメラの回転が混じったり。

2026 年春、その問題は「完全に解けた」のではなく、「実用域に入った」。 6 秒の SNS クリップは、ほぼ人の手を介さずに出荷品質に到達する。60 秒の広告は、カット単位で生成し人が編集すれば、1 週間の仕事が 1 日に圧縮される。キャラクターの一貫性は Runway Gen-4 と Sora 2 が「References」を標準化したことで安定し、Veo 3 はネイティブ音声を載せて「無音クリップ → 後付け音響」のワークフロー自体を作り変えた。

本稿は 2026 年 5 月時点の AI ビデオ生成市場全体を — 誰が何を得意とし、何が苦手か、いくらか、どこで使うべきか — 一息で整理する。8 つの主要モデルを 11 の能力ベクトルで比較し、実務的な意思決定フレームワークと著作権論争までを扱う。

1. 生成メディア・トライフェクタ — 動画はなぜ最後だったのか

3 つのメディアのモデル収束タイムラインを並べると、動画が遅れた理由がよくわかる。

メディア	最初の「実用域」リリース	決定的な変曲点	6 秒 vs 60 秒の差
テキスト	2022-11 ChatGPT	2023-03 GPT-4	実質ない
画像	2022-08 SD 1.4	2023-07 SDXL、2024-08 FLUX	1 枚は 1 枚
音楽	2024-04 Suno v3	2024-12 Suno v4、Udio	30 秒 → 4 分は難しくない
動画	2024-06 Runway Gen-3	2024-12 Sora、2025-05 Veo 3	6 秒は簡単、60 秒は難しい

動画は本質的に難しい理由が 3 つある。

時間的一貫性 — 同じ物体がフレーム間で同一の外形と位置分布を維持しなければならない。キャラクターの顔がカット間で微妙にずれると、視聴者は瞬時に気づく。
モーションのリアルさ — 服、髪、液体、爆発など非剛体モーションが物理法則を破ってはいけない。モデルが「物理直感」を持っている必要がある。
カメラ制御 — 意図したカメラムーブ(ドリー・トラック・ズーム・クレーン)を指令として渡せなければならない。これがないと映画用ツールにはならない。

3 つすべてを解いたモデルはまだない。だが部分的に解いたモデルは多く、どの問題をどう解いたかが各モデルの個性そのものになった。

2. コンシューマー第 1 段 — Sora 2・Veo 3・Runway Gen-4

2.1 OpenAI Sora 2 — OG の帰還

2024 年 2 月、OpenAI が Sora を発表して全員を驚かせた。最初のデモ(東京を歩く女性)は事実上の映画クリップだった。だが一般公開は遅く、2024-12-09 になってようやく ChatGPT Plus・Pro ユーザー向けに開放され、専用アプリ sora.com も同時に出た。

2026 年春の Sora 2 はそれから大きな更新を 2 回経た。要点:

最大 20 秒(Pro 60 秒)、1080p 30fps。
Storyboard — 1 つのプロンプトから複数カットを同時設計する UI。Sora の象徴。
Remix・Re-cut・Loop・Blend — 既存クリップに変奏・拡張・結合を加えるツール群。
Character References — 1 枚の写真または過去クリップからキャラクターを抽出し、次のカットに一貫して登場させる。
C2PA メタデータ — 出力に出自情報が埋め込まれる。

価格は ChatGPT Plus(20 USD/月)に一定量バンドル、Pro(200 USD/月)で大量バンドル、使用量ベースの追加課金もある。公式 API は 2026 年春時点で一部パートナー限定ベータ。 Sora の強みはプロンプト理解度 — 長く文学的なプロンプトでも意図が崩れない。

弱点はモーションが保守的であること。激しいアクション、爆発、速いカメラムーブで Kling や Hailuo ほど派手に出ない。OpenAI の安全方針がモーションの粗さを削っているとの観測が多い。

2.2 Google Veo 3 — 音声を載せた一撃

2024 年 5 月の Google I/O で Veo 2 が発表され、2025 年 5 月の I/O で Veo 3 が登場した。Veo 3 のヘッドラインは単純だった — 「ビデオに同期音声がネイティブで一緒に生成される」。

これがなぜ大きいか。他のすべてのモデルは無音クリップを吐き、ユーザーが ElevenLabs や Suno で別途音声を作って後編集で合成していた。Veo 3 はシングルパスで:

環境音 — 雨音、街の喧騒、風。
前景音 — 足音、カップがぶつかる音。
対話 — キャラクターの口の動きに同期した音声。

これらを全部生成する。「Pure Imagination」デモ(少年が 1 カットで都市・海・宇宙・恐竜まで移動しながら歌う)が全部を見せた — カメラ・映像・歌が同時生成された。

Veo 3 仕様:

8 秒デフォルト、一部経路で 60 秒まで拡張。
Veo 3.1(2025-10) — 音声品質改善、モーション自然度向上、キャラクター保存強化。
Gemini アプリ・Vertex AI・Flow からアクセス。Flow は映画監督向け統合ワークフローツール。
価格は Gemini Advanced サブスクリプションまたは Vertex AI 使用量ベース。

弱点はプロンプト忠実度 — Sora ほど長く繊細なプロンプトのディテールを全部拾わないという評。また YouTube 出自表示など Google エコシステムに紐付いていて、ChatGPT 中心のユーザーには手が届きにくい。

2.3 Runway Gen-4 — 映像制作の標準ツール

Runway は 2023 年 Gen-1、2024 年 Gen-3 Alpha、そして 2025 年春に Gen-4 を出荷した。Sora と Veo がコンシューマーと B2B の両巨人なら、Runway は現役の映像制作者のツールだ。

Gen-4 の強み:

References — 人物・ロケーション・オブジェクトの一貫性を保つ標準機能。Sora 2 の Character References より先行し、より成熟。
Aleph(2025-07) — テキストから動画ではなく、既存動画を編集するモデル。オブジェクトの追加・削除、カメラ角度変更、スタイル変換など。
Act-Two(2025-07) — 人の短い演技クリップを入力し、その動きをキャラクターに転写するモーションキャプチャー型モデル。
5 秒・10 秒標準、1080p、クレジットベース価格。

Runway が現場で根付いた理由は単純だ — 「ワークフローに馴染む」。 Premiere・DaVinci・FCP と相性のよい出力、色空間保存、マスク・キーフレームのインターフェース、そして何より API。広告代理店はパイプラインの最初に Runway を呼ぶ。

弱点はコンシューマー価格。無料枠は事実上ウォーターマーク付きサンプル、本格利用は月 35 USD から始まりすぐ上がる。Sora の「Plus 20 USD で何でもできる」と比較される点。

3. コンシューマー第 2 段 — Pika・Luma

3.1 Pika Labs — Pikaffects の楽しさ

Pika は 2024 年春に Pika 1.0、2024 年秋に Pika 2.0、その後一連のマイナー更新を続けた。2025 年に Pika 2.2、2026 年春時点で Pika 2.5 に到達。

Pika の差別化:

Pikaffects — モノが爆発したり、ケーキになったり、風船のように膨らんだり、溶けたり、圧縮されたりする視覚効果プリセット群。SNS とミームで爆発的人気。
Pikadditions — 既存動画に新オブジェクトを合成(友人の隣に犬を追加)。
Pikaswap — 動画内の 1 オブジェクトを別のものに交換。
Ingredients — 1 カットに複数のキャラクター・ロケーション・オブジェクト入力を同時に与え、Pika が合成シーンを作る。一貫性の要。

価格は無料枠あり、有料は月 8 USD から。コンシューマー親和性は一番高い。ただしモーション一貫性とフルなフォトリアリズムでは Sora・Veo・Runway より一段落ちる。

3.2 Luma Dream Machine — Ray2/Ray3 + Photon

Luma AI はもともと 3D キャプチャ(Gaussian Splatting) の会社だった。その空間理解の遺産が動画に運ばれて、2024-06 Dream Machine 初出荷、2025-01 Ray2、2025-08 Ray3、同じラインに画像モデル Photon も追加された。

Ray3 の特徴:

HDR 動画出力 — 通常の SDR ではなく HDR を吐く。後編集のグレーディング余地が広い。
Frames — 始点フレームと終点フレームを写真で渡し、間を補間する。広告カットに最適。
Camera Motion — カメラムーブを名前で明示(orbit、dolly、push-in など)。

Photon は Luma の画像モデルで、Dream Machine と連携して「画像 → 動画」のワークフローがきれい。価格は無料枠 + 月 9.99 USD から。

Luma の強みはモーション自然度とカメラムーブ — 3D キャプチャ会社の出自にふさわしい。弱点はプロンプト理解度 — Sora や Veo ほど長く文学的な指示を拾えない。

4. Veo 3 の音声 — 本当に盤を揺らした一手

2025-05 の Google I/O デモで Veo 3 が示したのは一点だ — 「ビデオと音声が同じモデルから一度に出る」。 そこから他の全ベンダーが追走を始めた。

4.1 ネイティブ同期音声がなぜ重要か

旧ワークフロー:

プロンプト -> 動画モデル -> 無音クリップ
                       -> 音声モデル(Suno、ElevenLabs)
                       -> 後編集で合成

問題は、足音のタイミング、口の動き、カメラムーブのインパクトを事後に音と合わせるには人間の耳が要ること。6 秒クリップでも人の時間がかかる。

Veo 3 ワークフロー:

プロンプト -> Veo 3 -> ビデオ + 同期音声(1 パス)

足音、ドアを閉める音、環境音、短い対話まで、映像と自動同期した状態で出る。「一人で 60 秒の広告を丸ごと作る」 が可能になった最初の時点。

4.2 他社の対応

Sora 2: 2025 年秋の更新で部分的な音声生成を開始。まだ環境音中心で対話は限定的。
Runway: 2025-08 Act-Two で音声・リップシンク機能を一部導入。Veo 3 ほどの完成度はまだ。
Kling: 2025 年後半に Kling Audio を発表。環境音寄り。
Hailuo: 効果音ライブラリと統合されたが同期生成ではない。

要約: 2026 年春時点、「ネイティブ同期音声」は Veo 3 の独占的強み。 他社は 1-2 年で追いつくと見られるが、現時点では Veo 3 が広告・コンテンツマーケティング市場の一角を静かに取りに行っている。

5. 中国モデルの波 — Kling・Hailuo

西側メディアの視点から 2024-2025 年で最も衝撃的だったのは、中国モデルがモーションとキャラクターで西側を抜いたという事実だった。

5.1 Kuaishou Kling AI

Kuaishou(快手、中国のショートビデオプラットフォーム)が運営する Kling は 2024-06 にデビュー、2025 年春 Kling 1.6、秋 Kling 2.0、2026 年春時点 Kling 2.1 までに到達。

Kling の強み:

激しいモーション — 戦闘、爆発、ビジュアル・エフェクトが派手に出る。Sora が保守的なら Kling は積極的。
キャラクター一貫性 — 顔の保存が非常に優れ、複数キャラのシーンでも安定。
長いクリップ — 5 秒・10 秒標準、Pro で最大 30 秒。
物理表現 — 液体・布・髪の非剛体モーションが自然。

価格は無料枠 + 有料(中国国内は CNY、グローバルは USD)。英語 UI が整備され、グローバルユーザーが急増中。

リスク: データ・プライバシー懸念。 米国・EU 企業が社内ワークフローに中国ホストモデルを統合するのは政策的にハードル高め。だが個人クリエイター、インディー映像、SNS 市場では無視できないシェアを取った。

5.2 MiniMax Hailuo AI

MiniMax は 2024 年後半 Hailuo を出して、SNS で短期間に爆発的に広がった。無料枠の寛大さと出力品質のバランスが良かったから。

Hailuo の特徴:

ミームフレンドリー — キャラクターをコミカルなアクションに乗せるのが強い。TikTok・X に Hailuo クリップが絶え間なく流れた。
物理リアリズム — アクションシーンでカメラのインパクトが自然に響く。
無料ウォーターマーククリップ — 参入障壁が低い。

2026 年時点で Hailuo は MiniMax-Video-01 シリーズと T2V-01-Director(カメラ明示制御の監督モード)に拡張。価格は無料 + 使用量ベース + サブスクリプションの混成。

5.3 その他の中国モデル

ByteDance Doubao Seedance — TikTok 親会社の動画モデル。自社プラットフォームに深く統合。
Alibaba Wan — 一部重みをオープンソース公開。研究者・開発者に影響力。
Tencent Hunyuan Video — モデルカードと重みを揃えてオープンソース公開。LTX-Video と並びオープンソース陣営の二大柱。

要約: 中国陣営は「オープンソース + 強力な自社クローズドモデル」の両軸で西側を急速に追い上げた。 一部の能力ベクトルでは既に先行している。

6. オープンソース・ローカル現実 — LTX・Mochi・Hunyuan・Wan

2024 年までのオープンソース動画モデルは「楽しいが出荷品質ではない」状態だった。Stable Video Diffusion は 4 秒程度の短いクリップを、AnimateDiff はより短いループを作れたが、実務に乗るレベルではなかった。

2024-12 から風景が変わった。

6.1 Lightricks LTX-Video — オープンソースの反撃

Lightricks は 2024-11 に LTX-Video を公開。最初のインパクトは 2 つだった:

速度 — 6 秒クリップを H100 で4 秒で生成。事実上のリアルタイム。
品質 — 768p 24fps の出力が Pika や初期 Runway と肩を並べる。

2025 年春に LTX-Video 0.9.5、秋に LTX-Video 13B、2026 年春時点では LoRA・ControlNet を備えたエコシステムが形成された。ComfyUI に標準ノードとして統合され、ゲームスタジオ・アバター企業・VFX 会社が社内ツールに取り込んだ。

6.2 Genmo Mochi 1

Genmo の 2024-10 公開 Mochi 1、2025 年後継 Mochi 1 Plus は 480p 5.4 秒の短いが強いモーションを示した。Apache 2.0 ライセンスで商用利用自由。

6.3 Tencent HunyuanVideo

2024-12 にテンセントが HunyuanVideo の 13B モデル重みを公開。24fps、5 秒出力。クローズドモデル水準に肉薄するリアリズムで衝撃を与えた。

6.4 Alibaba Wan2.1・Wan2.2

2025 年にアリババが Wan 2.1、Wan 2.2 の重みを公開。テキスト・画像・動画のマルチモーダル群で、動画側はクローズドモデルと比べて弱点が少ない。

6.5 Stability AI — オープンソースの先駆者、だが

Stability AI の Stable Video Diffusion は 2023 年 11 月公開で一時オープンソース動画の代表だったが、2026 年時点では事実上 LTX・Hunyuan・Mochi・Wan に席を譲った。Stability の事業上の苦境と新モデル出荷の鈍化が重なった。

6.6 ローカル実行の現実

オープンソースモデルを実際に自宅 PC で回すなら:

モデル	VRAM(最低)	VRAM(推奨)	クリップ長	生成時間(H100)
LTX-Video 13B	16GB	24GB	6 秒	4-8 秒
Mochi 1	24GB	48GB	5.4 秒	60-120 秒
HunyuanVideo	60GB	80GB	5 秒	60-180 秒
Wan 2.2	24GB	48GB	5 秒	30-90 秒

コンシューマー GPU(RTX 4090 24GB)で実用域にあるのは事実上 LTX-Video のみ。他は H100・A100 クラスのサーバーを借りる必要がある。だから ComfyUI を RunPod・Modal・Replicate に立てて時間課金するワークフローが標準になった。

7. 特殊用途 — トーキングヘッド・リップシンクの専門家

動画生成市場には一般モデルと別の流れが一本ある。人の顔・リップシンク・アバター動画だけを専門にするツール群だ。

7.1 HeyGen

200 を超えるアバター、40+ 言語の音声。
自分の写真と音声サンプルからデジタル・ツインを作れる。
動画の口を別言語に再リップシンク(翻訳ダビング)。
企業マーケティング・トレーニング動画で圧倒的シェア。

7.2 D-ID

静止人物写真を喋るヘッドに変換。
高速・低価格・API フレンドリー。
e ラーニング素材・説明動画の定番。

7.3 Synthesia

企業の社員教育・オンボーディング動画の標準。
スクリプト入力 → アバターがそのスクリプトを演じる。
B2B SaaS として定着、価格帯も企業向け。

このカテゴリは Sora・Veo・Runway などの一般モデルが侵入しにくい。 理由はドメイン特化 — リップシンク精度、多言語ダビングワークフロー、企業セキュリティ認証(SOC 2、HIPAA)、ブランド一貫性ツール — これらが一般モデルには無い。

8. 能力・製品マトリックス — 1 ページ比較

能力 / モデル	Sora 2	Veo 3	Gen-4	Pika 2.5	Kling 2.1	Luma Ray3	Hailuo	LTX 13B
最大長	60s	60s	10s	10s	30s	10s	10s	8s
解像度	1080p	1080p	1080p	1080p	1080p	HDR	720p	768p
ネイティブ音声	部分	強力	部分	部分	部分	なし	ライブラリ	なし
モーション強度	中	中	中	中	強	中	強	中
キャラクター一貫性	強	強	非常強	中	非常強	中	中	弱
カメラ制御	強	中	非常強	弱	中	非常強	強	中
プロンプト忠実度	非常強	強	強	中	中	中	中	中
コンテキスト内編集	Storyboard	Flow	Aleph	Pikaffects	弱	Frames	弱	LoRA
API 提供	ベータ	Vertex AI	正式	正式	正式	正式	正式	セルフホスト
無料枠	なし	限定	ウォーターマーク	あり	あり	あり	あり	無料
開始価格(USD/月)	20	Gemini Adv.	35	8	使用量	9.99	使用量	0

「非常強 / 強 / 中 / 弱」は 2026 年 5 月時点の一般評価の定性的サマリ。モデル更新が頻繁で 1-2 リリースで順位が変わる。

9. 意思決定フレームワーク — どの道具をいつ使うか

9.1 一行回答

6-10 秒の SNS クリップ、キャラクター一貫性重要 -> Kling または Sora 2。
30-60 秒の広告・マーケ動画、音声込み -> Veo 3。
映画・CF の後編集パイプライン統合ツール -> Runway Gen-4。
友人・家族と遊ぶコンシューマー動画、価格敏感 -> Pika。
トーキングヘッド、多言語ダビング -> HeyGen。
社内データセキュリティ必須、ローカル実行 -> LTX-Video。
個人実験・ハッカソン・研究 -> Hunyuan / Wan / Mochi(オープンソース)。
3D 空間感・HDR 出力が重要 -> Luma Ray3。

9.2 意思決定ツリー

Q1. 社内セキュリティ・著作権の理由で外部 API が使えないか?
  Yes -> LTX・Hunyuan・Wan セルフホスト(課題: GPU コスト)
  No -> Q2

Q2. 音声が動画と同期して一度に出る必要があるか?
  Yes -> Veo 3(現状ほぼ独占)
  No -> Q3

Q3. 同じキャラクター/場所が複数カットに登場するか?
  Yes -> Runway Gen-4(References)または Sora 2(Character Refs)または Kling
  No -> Q4

Q4. 激しいアクション・物理モーションが核心か?
  Yes -> Kling または Hailuo
  No -> Q5

Q5. トーキングヘッド・多言語ダビングか?
  Yes -> HeyGen / Synthesia
  No -> Q6

Q6. 価格が最大の制約か?
  Yes -> Pika / Hailuo 無料枠 / LTX-Video ローカル
  No -> Sora 2 または Runway Gen-4(デフォルト安全選択)

9.3 ワークフロー・パターン

実務で 1 モデルだけ使うことはほぼない。よく見る組み合わせ:

30 秒広告 — Veo 3 でメインカット、Runway Aleph で色味補正・ロゴ合成、ElevenLabs でダブを補強。
3 分ミュージックビデオ — Suno で曲、Midjourney でコンセプト静止画、Runway Gen-4 で 5-10 秒カット × 20 本、DaVinci Resolve で編集。
インフルエンサーのデイリー動画 — 本人セルフィー動画 + HeyGen 多言語ダブ + Pika でカット間トランジション。
インディー短編映画 — Sora Storyboard でカット設計、Runway Gen-4 でメインカット + キャラクター一貫性、Hunyuan で補助カット(コスト削減)、Adobe Premiere で編集。

10. 著作権・表現倫理 — まだ解けない結び目

10.1 学習データ論争

音楽(Suno と Udio が RIAA に提訴された)と画像(Getty Images vs Stability)に続き、動画モデル会社も学習データの出自を追及されている。2025 年の 1 年で:

米国・EU の複数の映像コンテンツ企業が OpenAI・Runway・Pika を相手にディスカバリ・法的レビューを開始。
一部企業(特に広告代理店)が 「学習データの出自が同意済みのモデルのみ使用」 ポリシーを導入。
Adobe Firefly Video は 「Adobe Stock + ライセンス済みコンテンツのみで学習」 をマーケポイントとして強調。

10.2 ディープフェイクと人格権

動画は画像・音声よりも人格権侵害ポテンシャルが大きい。2024-2025 年の政治家・芸能人ディープフェイク事件が続き、EU AI Act は 「AI 生成動画のラベリング義務」 を明記。米国は州ごとに異なる法が整備されつつある。

主要モデル会社の対応:

C2PA メタデータ埋め込み — Sora、Veo、Runway がすべて出力に出自を刻む。
顔認識制限 — 著名人名を含むプロンプトを拒否。
選挙関連フィルター — 候補者名・政治スローガンの動作を制限。

10.3 労働市場への影響

VFX アーティスト、アニメーター、広告映像制作者が最速で影響を受けた。2024-2025 年米国広告業界の一部下請けで 30-40% の外注カット単価下落 が報告された。一方で新職種 — 「AI 映像ディレクター」「動画用プロンプトエンジニア」 — も生まれた。

10.4 我々がすべきこと

出自明示 — 自社コンテンツに AI 使用を明確に表示。
人格権尊重 — 本人同意なしの顔使用は禁止。
著作権クリーンモデル優先 — Adobe Firefly Video、もしくは明確にライセンスされたデータで学習されたモデルを優先。
C2PA 保全 — 出力に刻まれたメタデータを後編集で意図的に消さない。

エピローグ — 映像が言語になった

出荷前チェックリスト

アンチパターン 10

1 モデル 1 ツールだけに固執して弱点補完をしない。
キャラクター一貫性ツール(References)を使わず毎カットで同じ人物を再生成。
無音クリップを作って毎回後編集で音を別合成(Veo 3 を使わない)。
6 秒クリップを 24 本繋いで 1 分に — カット間のジャンプが視聴者に見える。
激しいモーションが必要なのに Sora に固執して保守的出力を受ける。
トーキングヘッドに一般モデルを使う — HeyGen の方がはるかに正確。
オープンソースをノート PC で回そうとして時間を浪費 — クラウド GPU を借りるべき。
学習データのライセンスを確認せず広告に使い、クライアントから拒否される。
カメラムーブをテキストで明示せず、モデル任せのモーションに依存。
最初の出力が気に入らなくてもシード・プロンプトを丹念に回さない。

次の記事予告

次の記事候補: Veo 3 広告ワークフロー — 60 秒の広告を一人で作る、Runway Gen-4 References 実戦 — キャラクター一貫性を掴む 5 つのコツ、ローカル動画生成セットアップガイド — ComfyUI + LTX-Video を RTX 4090 で。

「テキストで書かれた物語が絵になり、絵に音がつき、いまそれが動く。映像は言語になった — そして私たちは新しい文法を学んでいる。」

— AI ビデオ生成 2026、終わり。