Skip to content
Published on

AI動画生成 2026 完全ガイド — Sora 2 · Veo 3 · Runway Gen-4 · Pika · Luma Dream Machine · Kling · Hailuo · Hunyuan Video 徹底解剖

Authors

プロローグ — SoraプレビューからSora 2アプリへ、2年の圧縮

2024年2月15日、OpenAIがSoraプレビューを公開したとき、映像業界は一瞬止まった。60秒の1080pクリップが「プロンプトだけで」出てきたという事実が衝撃だった。だがそのSoraは1年経っても一般公開されなかった。

そして2025年9月30日、OpenAIはSora 2を発表すると同時に、iOS専用のSoraアプリをローンチした。4K · 25秒 · ネイティブオーディオ · Cameos(自分の顔と声をモデルに登録)、ソーシャルフィードまで。ChatGPT Proサブスクライバーには専用枠が付いた。並行してGoogleはVeo 2(2024-12)、Veo 3(2025-05 I/O)の順でGemini AppとVertex AIに統合し、RunwayはGen-3 Alphaを経てGen-4(2025-03)で映画制作ワークフローに深く踏み込んだ。

その間、中国陣営ではKuaishou Kling、MiniMax Hailuo、Tencent Hunyuan Video、Alibaba Wan 2.1が一気にギャップを詰めた。そしてオープンソース側 — Genmo Mochi 1(2024-10, Apache 2.0)、Lightricks LTX-Video(2024-11, リアルタイム2B)、CogVideoX(清華) — がComfyUIワークフローの上に載り、RTX 4090一枚でもcinematicな映像が可能になった。

本稿はその2年の圧縮を — クローズドとオープン、価格とライセンス、そして日本と韓国の市場まで — 一息に整理する。


第1章 · テキスト、画像、動画 — 三つの入力分岐

AI動画モデルを選ぶときに最初に問うのは「何を入力に取るか」だ。三つの分岐がある。

  • Text-to-video (T2V) — プロンプトだけで新規クリップを作る。Sora 2 · Veo 3 · Runway Gen-4 · Kling · Hailuo · Hunyuan · Wan · Mochi · CogVideoXが対応。最も普遍的だが制御が難しい。
  • Image-to-video (I2V) — 静止画(絵コンテ、キャラシート、製品写真)を最初のフレームとして受けて動かす。Runway Gen-4、Luma Dream Machine、Pika、Kling、Hailuo、LTX-Videoが強い。キャラクター一貫性とブランド資産の保持が肝。
  • Video-to-video (V2V) — 既存の映像を受け取ってスタイル/モーション/視点を変える。RunwayのGen-3 Video-to-Video、PikaのPikaffects、ComfyUIのAnimateDiffワークフローがここに該当。

ほとんどのプロのワークフローはこの三つを混ぜる。T2Vで初稿 → I2Vでキャラ固定 → V2Vでスタイル統一 → リップシンクツールで口形同期。最後にPremiere/DaVinciで切って繋ぐ。


第2章 · OpenAI Sora 2 — 4K · 25秒 · Cameos · iOSアプリ

2025-09-30、OpenAIはSora 2を発表すると同時に、モデルとアプリの二つを解放した。

  • モデル側 — 4K出力、最大25秒クリップ、ネイティブの同期オーディオ(セリフ · 効果音 · 環境音をビデオと一緒に生成)、物理 · 重力 · 接触の一貫性がSora 1プレビュー比で大きく改善された。
  • アプリ側 — iOS専用Soraアプリが同時にローンチ。TikTok風の縦型フィード、「Cameos」(自分の顔をライブセルフィーで安全に登録する機能)、友人のCameoを自分の動画に挟む共同編集まで。
  • 価格 — ChatGPT Pro($200/month)に一定の使用量が含まれる。追加はクレジット制。ChatGPT Plus($20/month)にも限定的なSora 2アクセスが付く。
  • ウォーターマーク — すべての出力に可視のSoraロゴウォーターマークとC2PAメタデータが入る。Proプランのみ可視マーク除去可、ただしC2PAは常に残る。
  • API — 2025-11にSora 2 APIがベータ提供。一部パートナーのみアクセス可能。

Sora 2の真の差別化点は二つ。第一に、他モデルが無音動画を出力してElevenLabs/Sunoで別途音を付けるのに対し、Sora 2はネイティブで同期したオーディオを一緒に出す。第二に、Cameos機能は事実上「ディープフェイク同意モデル」を標準化した — 本人が明示登録した顔のみ、しかも友人に共有権を与えた場合のみ使える。


第3章 · Google Veo 2 · Veo 3 — GeminiとVertex AIの二本立て

GoogleのビデオモデルはVeoシリーズに統合された。

  • Veo 2 — 2024-12、Vertex AI StudioとVideoFX(パブリックベータ)に登場。4K、最大2分、シネマティックなカメラワーク命令(dollycranezoom)を自然言語で受ける。
  • Veo 3 — 2025-05 Google I/Oで発表。Veo 2の欠点だった無音出力を解決 — ネイティブのダイアログ、効果音、環境音を一緒に生成する。Sora 2と事実上同じ時期に同じ方向に動いた。
  • アクセスチャネル — Gemini App(Gemini Advanced/Ultraサブスクライバー)、Vertex AI(エンタープライズ)、そしてFlow(Googleの映画制作専用ツール)。
  • Flow — 2025-05 I/Oで同時公開。シーン単位の一貫性、キャラクター一貫性、カメラコントロールを映画制作者向けUIにまとめた。

Veo 3の強みはGoogleインフラ — DeepMindの音声モデルと結合したネイティブサウンド — とエンタープライズチャネル(Vertex AI)だ。Sora 2がソーシャルフィード中心なら、Veo 3は制作パイプラインに近い。


第4章 · Runway Gen-4 — 映画制作ワークフローへの浸透

Runwayの道は最初から明確だった。「映像編集会社が作るAI動画ツール」。

  • Gen-1(2023-02) — Video-to-Videoのみ、スタイル転送。
  • Gen-2(2023-06) — Text-to-Video、Image-to-Videoに拡張。
  • Gen-3 Alpha(2024-06) — 画質が本格cinematicレベルに到達。
  • Gen-3 Alpha Turbo(2024-07) — 推論が7倍高速化、価格半額。
  • Gen-4(2025-03) — リファレンス画像(References)機能とマルチショット一貫性が中核。同じキャラを複数ショットにわたって維持し、同じルックと照明をシリーズ通しで持続させる。

Gen-4のReferences機能は映画制作者が最も望んでいた機能だ。キャラシート、衣装リファレンス、環境ムードボードを入力に入れると、その一貫性を保ったまま複数ショットを作れる。

  • 価格 — クレジット制。Standard($15/month、625 credits)、Pro($35/month)、Unlimited($95/month)。Gen-4は一般にクリップあたり高めだ。
  • Act-One(2024-10) — 顔の演技キャプチャをキャラクターにマッピングする機能。俳優の演技をデジタルキャラに移す。

第5章 · Pika 2.2 · 2.5 — Pikadditions · Pikaffects · Pikaframes

Pikaの戦略は「機能名を覚えやすくする」ことだ。

  • Pika 1.0(2023-12) — 初GA、短いクリップ中心。
  • Pika 1.5(2024-10) — Pikaffects(爆発/溶解/押し潰しといった非現実エフェクト)とPika Scenes(複数キャラ合成)を導入。
  • Pika 2.0(2024-12) — 信頼性のあるキャラ/オブジェクト合成。
  • Pika 2.2(2025-02) — Pikaframes(最初と最後のフレームを受けて間を埋めるトランジションモード)と10秒クリップ対応。
  • Pika 2.5(2025年後半) — Pikadditions(既存動画に新しいオブジェクトを挿入)、画質向上。

Pikaの魅力は映画的一貫性よりも「一行で説明できるエフェクト」にある。Pikaffectsは広告 · ソーシャル制作者にとって非常に強力だ。

  • 価格 — Basic(無料、ウォーターマーク)、Standard($8/month)、Pro($28/month)、Fancy($58/month)。

第6章 · Luma Dream Machine · Ray 2 — 速くてループ型

Luma AIのDream Machineは「速くて日常的」というポジションを取った。

  • Dream Machine 1.0(2024-06) — Text-to-Video、Image-to-Video、約5秒クリップ。
  • Ray 2(2025-01) — より大きなモデル、より長いクリップ、より正確なモーション。
  • Ray 2 Flash(2025年中盤) — 小型・高速版。

Lumaの強みは二つ。第一に、Image-to-Videoの品質が非常に高い — 静止画から自然なモーションを作る。第二に、Loop機能(切れ目なく繰り返すクリップ)がソーシャルGIFや背景映像に強い。

  • APIが最も早く解放されたモデルの一つ。開発者統合が容易。
  • 価格 — Free(制限あり)、Standard($9.99/month)、Plus($29.99/month)、Unlimited($94.99/month)。

第7章 · Kling 1.6 · 2.0 — Kuaishouのグローバル進出

中国Kuaishou(快手、TikTokのグローバル競合)が2024-06に公開したKlingは、急速にグローバルユーザーを集めた。

  • Kling 1.0(2024-06) — 初リリース、1080p · 最大10秒。
  • Kling 1.5(2024-09) — Motion Brush(特定領域だけ動きを指定)、Camera Control。
  • Kling 1.6(2024-12) — 品質大幅向上、英語プロンプト強化。
  • Kling 2.0(2025年) — より長いクリップ、より正確な物理。

Klingの差別化点はMotion Brush — 映像内の特定領域を選んで動きの方向を指定できる。例:「この人物の髪だけ風で揺らす」。

  • 価格 — klingai.comでクレジット購入。約$10/100 credits。100クレジットで約5秒クリップ1本。

第8章 · MiniMax Hailuo — 高速テキスト-動画

MiniMaxのHailuo(海螺)は2024-09公開。初期は無料、その後有料化された。

  • Hailuo Video 01(2024-09) — Text-to-Video、6秒720pから開始。
  • Hailuo I2V-01(2024-11) — Image-to-Video別モデル。
  • Hailuo MiniMax-01(2025年) — より大きなマルチモーダルモデル、動画も含む。

Hailuoは英語プロンプトに非常に強く、推論時間が速い(短いクリップで約30秒~1分)のが利点。ただし25秒まで伸びるSora 2と比べると尺は短い。

  • APIも別途提供。

第9章 · Tencent Hunyuan Video — 13Bオープンソースの夜明け

2024-12-03、TencentがHunyuan Videoを公開した。13Bパラメータ、事実上のオープンライセンス(商用利用可、一部制限あり)。オープンソース動画モデルの版図を変えた事件だ。

  • モデルサイズ — 13B。テキスト-動画、5秒クリップ、720pがデフォルト。
  • アーキテクチャ — Diffusion Transformer(DiT)。テキストエンコーダはMLLMベース。
  • ライセンス — Tencent Hunyuan Community License。月間アクティブユーザー100M以下の商用利用は自由、それ以上は別途協議。
  • ハードウェア要件 — 720p · 5秒クリップのフル推論に約60GB VRAM。H100 80GB、H200 141GB推奨。RTX 4090(24GB)では量子化 + オフローディング(GGUF Q4/Q8 variantが速やかに登場)で動かせる。
  • ComfyUI統合 — 公開から1週間以内にラッパーノードが登場。ドロップインで使える。

Hunyuan Videoの登場は、オープンソース動画陣営を「実用可能」領域に引き上げた。それまでのオープンモデルはデモレベルだった。


第10章 · Alibaba Wan 2.1 — 14Bのオープンライセンス

2025-01、AlibabaがWan 2.1を公開した。

  • Wan 2.1 T2V-14B — 14Bパラメータ、テキスト-動画、720p · 5秒。
  • Wan 2.1 I2V-14B — 同サイズのimage-to-video派生。
  • Wan 2.1 T2V-1.3B — 小型版、RTX 4090シングルGPUでも動作可能。
  • ライセンス — Apache 2.0(Wan 2.1 1.3B)とTongyi Qianwen License(14B)。

Wan 2.1の本当の魅力は1.3B版にある。Apache 2.0で完全に自由、コンシューマGPU一枚で回る。ただし品質は14BあるいはHunyuanには及ばない。


第11章 · Genmo Mochi 1 — Apache 2.0 10Bの登場

2024-10、GenmoがMochi 1をApache 2.0で公開した。

  • モデルサイズ — 10Bパラメータ(AsymmDiTアーキテクチャ)。
  • 出力 — 480p、約5.4秒。
  • ライセンス — Apache 2.0。完全自由。
  • ハードウェア要件 — フル推論には4x H100推奨。量子化/オフローディングで単一H100 80GBやRTX 4090でも動作。

Mochi 1は「完全に自由なオープン動画モデル」という枠を初めて埋めた。ライセンスの観点からはHunyuanよりクリーンだ。


第12章 · Lightricks LTX-Video — リアルタイム2Bモデル

2024-11、Lightricks(Facetune · Videoleapを作る会社)がLTX-Videoを公開した。

  • モデルサイズ — 2Bパラメータ。非常に小さい。
  • 速度 — 4秒720pクリップを約4秒で生成(H100基準)。事実上リアルタイム。
  • ライセンス — RAIL-S(研究・個人利用は自由、商用は制限的だが可能)。
  • ワークフロー — ComfyUIノードが速やかに登場。Wan/Hunyuan比で約10倍速い。

LTX-Videoは「品質 vs 速度」のバランスを速度側に寄せた。高速プロトタイピング · 反復作業に強い。


第13章 · CogVideoX 5B — 清華のオープンベース

2024-09、清華大学KEG LabとZhipuAIがCogVideoXを公開した。

  • CogVideoX-2B / CogVideoX-5B — 2サイズ。
  • ライセンス — CogVideoX License(Apache風だが一部制約)。
  • 品質 — 2024年後半時点ではMochi 1よりやや劣るが、参入障壁が低く研究 · 教育用途で多く使われた。

CogVideoXはModelScope · Hugging Faceで配布されており、速やかにComfyUIワークフローに統合された。


第14章 · Stable Video Diffusion · その前の遺産

動画モデルの「前史」を一段落で整理する。

  • Stable Video Diffusion(2023-11、Stability AI) — 最初の本格的オープン動画モデル。約2~4秒、576x1024。品質は今日の基準ではデモレベルだが、ComfyUI · AUTOMATIC1111ワークフローはこの上に最初に根を下ろした。
  • AnimateDiff(2023-07) — Stable Diffusion画像モデルにモーションモジュールを付けて短いアニメを作る手法。今もComfyUIのV2Vワークフローの標準だ。
  • VideoCrafter / ModelScope T2V — 同時期の同種の試み。

これらがなければComfyUIエコシステムも、オープンソース動画モデルも今のような姿にはなっていない。


第15章 · ComfyUIワークフロー — Wan · Hunyuan · Mochiを一つに

ComfyUIはノードベースのワークフローエディタで、オープン動画モデルの標準インターフェースになった。

代表的なノードパッケージ:

  • ComfyUI-HunyuanVideoWrapper — Hunyuan Video統合。
  • ComfyUI-WanVideoWrapper — Wan 2.1統合。
  • ComfyUI-MochiWrapper — Mochi 1統合。
  • ComfyUI-LTXVideo — LTX-Video統合。
  • ComfyUI-CogVideoXWrapper — CogVideoX統合。

典型的なワークフローはこのように流れる。

[Text Prompt]
   |
   v
[CLIP/T5 Text Encoder] --+
                          |
[Empty Latent Video] -----+--> [Diffusion Model (Hunyuan/Wan/Mochi)] --> [Latent Video]
                          |                                                  |
[Negative Prompt] --------+                                                  v
                                                                    [VAE Decode]
                                                                              |
                                                                              v
                                                                       [Video Output]

I2VワークフローはここにImage EncoderノードとConditioningノードを追加する。V2Vは入力動画をlatentに再エンコードして起点として使う。

ComfyUIの本当の長所はノード単位でLoRA · ControlNet · IPAdapter · アップスケーラを差し込めることだ。クローズドモデルでは出来ない細粒度の制御が可能になる。


第16章 · リップシンク — HeyGen · Synthesia · D-ID · Hedra

動画生成とリップシンクは別問題だ。リップシンクツールは別カテゴリを成す。

  • HeyGen — アバター動画 + リップシンクの事実上の標準。自分の顔/声を登録するか、ライブラリのアバターを使う。$24/monthから。
  • Synthesia — エンタープライズ向け研修 · マーケティング動画中心。140以上の言語に対応。Starter $22/monthから。
  • D-ID — 静止画に話す顔のアニメーションを乗せる。APIが強い。Studioプラン$5.9/monthから。
  • Hedra Character-1(2024-06) — AIキャラの表情と口元を一緒に生成。$10/monthから。
  • Sync.so(旧Wav2Lipの後継) — オープンソース側のリップシンクモデル。

Sora 2 · Veo 3は動画とオーディオを一緒に生成するが、既存映像に別の音声を乗せる作業は依然として上記ツールの領域だ。


第17章 · 絵コンテ · 長尺 — LTX Studio · Showrunner · Wonder

5秒~25秒のクリップを束ねてもっと長い映像を作るツールは別にある。

  • LTX Studio(Lightricks) — 絵コンテ · キャラ一貫性 · シーン管理を統合したツール。単一の動画モデルではなくワークフロー自体を売る。
  • Showrunner(Fable Simulation) — TVシリーズエピソードを生成。South Park風シミュレーションで有名。
  • Wonder Dynamics(Autodeskが買収) — 実写映像にCGキャラを自動合成。VFXパイプラインに統合。
  • Krea AI — 画像 · 動画 · 3Dを束ねたクリエイティブツール。

これらの共通点は「単一クリップではなくシーケンス」を作ることだ。なのでSora 2 · Veo 3 · Runway Gen-4をAPIで引っ張ってきて上に載せるケースが多い。


第18章 · ウォーターマークとC2PA — 真正性証明の新標準

2024-2025年に最も速く根を下ろした標準はC2PA(Coalition for Content Provenance and Authenticity)だ。

  • C2PAはコンテンツの出所 · 編集履歴を暗号学的に署名したメタデータとして埋め込む標準。
  • Adobe、Microsoft、OpenAI、Google、BBC、Metaがすべて参加。
  • 画像(JPEG XMP)、動画(MP4メタデータ)に埋め込まれる。

2026年時点の状況:

  • OpenAI Sora 2 — 可視ウォーターマーク + C2PAメタデータ。Proプランのみ可視マーク除去可、C2PAは常に維持。
  • Google Veo 3SynthID(DeepMindの非可視ウォーターマーク) + C2PA。
  • Meta — Facebook · Instagramが生成コンテンツを自動ラベリング。
  • EU AI Act — 2026年から生成AIコンテンツのラベリングが法的要件に。

ウォーターマークはコンテンツ信頼の最後の防衛線だ。だがオープンソースで作られた映像にはC2PAが入らないため、この標準はクローズドエコシステム内でのみ作動する。


第19章 · 韓国 — VARCO · HyperCLOVA X 動画

韓国陣営の状況はテキスト · 画像モデルに比べて動画は一拍遅いが、急速に追い上げている。

  • NCsoft VARCO Vision — VARCOモデル群のマルチモーダル派生。画像/動画理解(VLM)が先、本格生成はまだ。
  • Naver HyperCLOVA X — テキストが主力、動画生成は別ラインナップとして準備中。
  • Kakao Karlo — 画像生成モデルはあったが動画は未公開。
  • ローカルワークフロー — 韓国クリエイターの多くがHunyuan/Wan/LTXをComfyUIで韓国語プロンプト(翻訳器経由)で使っている。広告制作会社が急速に導入中。

韓国市場の特殊性はKコンテンツ IPだ。ドラマ · K-POP · ウェブトゥーンのキャラ一貫性を保ったまま動画を生成するワークフロー(LoRA学習 + Runway References + リップシンク)が急速に実験されている。


第20章 · 日本 — NTT Tsuzumi · Pikalmer · Sakana

日本陣営も動画モデルの直接開発は少ないが、隣接分野は活発だ。

  • NTT Tsuzumi — NTTのLLMラインナップ。日本語に強い。動画はまだ別ラインがない。
  • Sony Pikalmer(仮称、内部プロジェクト群) — Sonyのメディアalpha挑戦。
  • Sakana AI — 進化的モデル合成で有名。動画モデルの直接開発ではないが、モデルマージ技法がLoRA領域で応用可能。
  • Stability AI Japan — Stable Diffusionの日本語派生で活動。
  • AIアニメ — 日本のアニメスタジオがRunway Gen-4 · Pika 2.5を一部の制作パイプラインに試験導入中。ただし労働組合の問題で本格導入には慎重。

日本はIP一貫性と労働組合の問題から、クローズドモデルよりもコントロール可能なオープンソースワークフローに重みが乗っている。


第21章 · コスト — クリップ1本の本当の価格

比較可能な価格表を一段落にまとめる。

  • Sora 2 — ChatGPT Pro $200/monthに一定の使用量含む。追加はクレジット。
  • Veo 3 — Vertex AI基準で約$0.35-0.75/sec(ベータ価格、変動の可能性あり)。Gemini Advanced/Ultraの一部サブスクに一定の使用量含む。
  • Runway Gen-4 — Standard $15/month(625 credits、約41秒分)、Pro $35/month
  • Pika 2.5 — Standard $8/month、Pro $28/month
  • Luma Dream Machine / Ray 2 — Standard $9.99/month、Unlimited $94.99/month
  • Kling$10/100 credits。5秒クリップで約100クレジット。
  • Hailuo — クレジット制、$10から。
  • HeyGen — Creator $24/monthから。
  • ローカルGPU(Hunyuan/Wan/Mochi) — H100クラウドが時間あたり$2-3なら、5秒クリップ1本で約$0.5-1。RTX 4090(約$1,800)を一枚買えば無制限生成(電気代別)。

最も安く作る道は二つ。一つはオープンソースモデル + 自前のGPU。もう一つはPika · Lumaの低価格サブスク + 無理しないクリップ数。


第22章 · 限界 — モーション一貫性、物理、テキスト

2026年の動画モデルは強いが、弱点も明確だ。

  • シーン一貫性 — 一人のキャラを複数の5秒クリップにわたって同一に保つのは依然として難しい。Runway Gen-4のReferences、ComfyUIのLoRAがこれを緩和する。
  • 物理シミュレーション — 液体 · 布 · 関節の正確な運動は依然として弱い。Sora 2が最良だが完璧ではない。
  • テキストレンダリング — 動画内の文字(看板、本の表紙等)はしばしば崩れる。Veo 3とSora 2が最も正確。
  • 5秒を超える一貫性 — 25秒まで伸びるSora 2でも後半に違和感が増える。
  • 著作権/顔の使用 — Cameosのような合意モデル外の顔は拒否される。ただしオープンソースではガードが弱いため、倫理 · 法的責任がユーザーに渡る。

これらの限界が消える速度は世代ごとに違う。テキストレンダリングは速く改善されたが、物理はゆっくり改善中だ。


第23章 · 活用事例 — 広告 · ソーシャル · 絵コンテ · R&D

2026年現在で最も活発な4つの活用:

  • 広告/マーケティング — 30秒のSNS広告。PikaのPikaffects、Runway Gen-4のReferences、HeyGenアバターを組み合わせたパイプライン。コストは従来制作の1/10以下。
  • ソーシャルコンテンツ — TikTok · Reels · Shorts。Sora App · Luma · Klingが強い。「アグロ気味の短いクリップ」で恐ろしいほど強くなった。
  • 映画事前ビジュアライゼーション(Previz) · 絵コンテ — Runway Gen-4 · LTX Studioが制作会社のワークフローに浸透。本撮影前にシーンの流れを先に見る。
  • R&D / シミュレーション — NVIDIA · 自動運転企業が動画モデルを合成学習データ生成に使い始めた。道路状況シナリオを無限生成。

本格的な長編映画 · ドラマ制作にはまだ到達していない。ただし短編 · MV · 広告 · 予告編にはすでに入り込んでいる。


第24章 · 意思決定ツリー — どのモデルを使うか

最後に、状況別のおすすめを1ページにまとめる。

  • ソーシャル用の短いクリップ、速い反復 → Pika 2.5、Luma Ray 2、Kling。
  • 映画的なトーン、キャラ一貫性 → Runway Gen-4 + References。高いが最も制御可能。
  • ネイティブの同期オーディオ、ダイアログ → Sora 2あるいはVeo 3。
  • エンタープライズ統合(Vertex AI、GCPデータガバナンス) → Veo 3。
  • 研修動画、多言語リップシンク → HeyGen、Synthesia。
  • 低コスト · 反復作業、オープンソースワークフロー → Hunyuan Video、Wan 2.1、Mochi 1、LTX-VideoをComfyUIで。
  • 個人GPU一枚で始める → Wan 2.1 1.3BあるいはLTX-Video。
  • 商用利用ライセンス100%クリーン → Mochi 1(Apache 2.0)。

このツリーは半年以内に更新される可能性が高い。AI動画は依然として最も速く動く分野の一つだ。


エピローグ — 次の1年の問い

2年で60秒1080pから25秒4K同期オーディオまで来た。2027年の動画モデルは何を解くべきか。

  • 長尺一貫性 — 1分以上のシーケンスを切れ目なく。
  • インタラクティブ動画 — ユーザーが途中で介入して分岐。
  • リアルタイム動画生成 — ゲームレンダリングのように即座に応答。
  • 3D一貫性 — カメラが自由に回る間も世界が崩れないように。
  • 著作権/合意フレームワーク — 顔 · 声 · スタイルの明示的合意をどう標準化するか。

答えを持っている人はまだいない。だが2024-2026の速度ならば、その答えはさらに2年以内に出てくる可能性が高い。


参考資料