- Published on
AI動画生成 2026 完全ガイド — Sora 2 · Veo 3 · Runway Gen-4 · Pika · Luma Dream Machine · Kling · Hailuo · Hunyuan Video 徹底解剖
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — SoraプレビューからSora 2アプリへ、2年の圧縮
2024年2月15日、OpenAIがSoraプレビューを公開したとき、映像業界は一瞬止まった。60秒の1080pクリップが「プロンプトだけで」出てきたという事実が衝撃だった。だがそのSoraは1年経っても一般公開されなかった。
そして2025年9月30日、OpenAIはSora 2を発表すると同時に、iOS専用のSoraアプリをローンチした。4K · 25秒 · ネイティブオーディオ · Cameos(自分の顔と声をモデルに登録)、ソーシャルフィードまで。ChatGPT Proサブスクライバーには専用枠が付いた。並行してGoogleはVeo 2(2024-12)、Veo 3(2025-05 I/O)の順でGemini AppとVertex AIに統合し、RunwayはGen-3 Alphaを経てGen-4(2025-03)で映画制作ワークフローに深く踏み込んだ。
その間、中国陣営ではKuaishou Kling、MiniMax Hailuo、Tencent Hunyuan Video、Alibaba Wan 2.1が一気にギャップを詰めた。そしてオープンソース側 — Genmo Mochi 1(2024-10, Apache 2.0)、Lightricks LTX-Video(2024-11, リアルタイム2B)、CogVideoX(清華) — がComfyUIワークフローの上に載り、RTX 4090一枚でもcinematicな映像が可能になった。
本稿はその2年の圧縮を — クローズドとオープン、価格とライセンス、そして日本と韓国の市場まで — 一息に整理する。
第1章 · テキスト、画像、動画 — 三つの入力分岐
AI動画モデルを選ぶときに最初に問うのは「何を入力に取るか」だ。三つの分岐がある。
- Text-to-video (T2V) — プロンプトだけで新規クリップを作る。Sora 2 · Veo 3 · Runway Gen-4 · Kling · Hailuo · Hunyuan · Wan · Mochi · CogVideoXが対応。最も普遍的だが制御が難しい。
- Image-to-video (I2V) — 静止画(絵コンテ、キャラシート、製品写真)を最初のフレームとして受けて動かす。Runway Gen-4、Luma Dream Machine、Pika、Kling、Hailuo、LTX-Videoが強い。キャラクター一貫性とブランド資産の保持が肝。
- Video-to-video (V2V) — 既存の映像を受け取ってスタイル/モーション/視点を変える。RunwayのGen-3 Video-to-Video、PikaのPikaffects、ComfyUIのAnimateDiffワークフローがここに該当。
ほとんどのプロのワークフローはこの三つを混ぜる。T2Vで初稿 → I2Vでキャラ固定 → V2Vでスタイル統一 → リップシンクツールで口形同期。最後にPremiere/DaVinciで切って繋ぐ。
第2章 · OpenAI Sora 2 — 4K · 25秒 · Cameos · iOSアプリ
2025-09-30、OpenAIはSora 2を発表すると同時に、モデルとアプリの二つを解放した。
- モデル側 — 4K出力、最大25秒クリップ、ネイティブの同期オーディオ(セリフ · 効果音 · 環境音をビデオと一緒に生成)、物理 · 重力 · 接触の一貫性がSora 1プレビュー比で大きく改善された。
- アプリ側 — iOS専用Soraアプリが同時にローンチ。TikTok風の縦型フィード、「Cameos」(自分の顔をライブセルフィーで安全に登録する機能)、友人のCameoを自分の動画に挟む共同編集まで。
- 価格 — ChatGPT Pro(
$200/month)に一定の使用量が含まれる。追加はクレジット制。ChatGPT Plus($20/month)にも限定的なSora 2アクセスが付く。 - ウォーターマーク — すべての出力に可視のSoraロゴウォーターマークとC2PAメタデータが入る。Proプランのみ可視マーク除去可、ただしC2PAは常に残る。
- API — 2025-11にSora 2 APIがベータ提供。一部パートナーのみアクセス可能。
Sora 2の真の差別化点は二つ。第一に、他モデルが無音動画を出力してElevenLabs/Sunoで別途音を付けるのに対し、Sora 2はネイティブで同期したオーディオを一緒に出す。第二に、Cameos機能は事実上「ディープフェイク同意モデル」を標準化した — 本人が明示登録した顔のみ、しかも友人に共有権を与えた場合のみ使える。
第3章 · Google Veo 2 · Veo 3 — GeminiとVertex AIの二本立て
GoogleのビデオモデルはVeoシリーズに統合された。
- Veo 2 — 2024-12、Vertex AI StudioとVideoFX(パブリックベータ)に登場。4K、最大2分、シネマティックなカメラワーク命令(
dolly、crane、zoom)を自然言語で受ける。 - Veo 3 — 2025-05 Google I/Oで発表。Veo 2の欠点だった無音出力を解決 — ネイティブのダイアログ、効果音、環境音を一緒に生成する。Sora 2と事実上同じ時期に同じ方向に動いた。
- アクセスチャネル — Gemini App(Gemini Advanced/Ultraサブスクライバー)、Vertex AI(エンタープライズ)、そしてFlow(Googleの映画制作専用ツール)。
- Flow — 2025-05 I/Oで同時公開。シーン単位の一貫性、キャラクター一貫性、カメラコントロールを映画制作者向けUIにまとめた。
Veo 3の強みはGoogleインフラ — DeepMindの音声モデルと結合したネイティブサウンド — とエンタープライズチャネル(Vertex AI)だ。Sora 2がソーシャルフィード中心なら、Veo 3は制作パイプラインに近い。
第4章 · Runway Gen-4 — 映画制作ワークフローへの浸透
Runwayの道は最初から明確だった。「映像編集会社が作るAI動画ツール」。
- Gen-1(2023-02) — Video-to-Videoのみ、スタイル転送。
- Gen-2(2023-06) — Text-to-Video、Image-to-Videoに拡張。
- Gen-3 Alpha(2024-06) — 画質が本格cinematicレベルに到達。
- Gen-3 Alpha Turbo(2024-07) — 推論が7倍高速化、価格半額。
- Gen-4(2025-03) — リファレンス画像(References)機能とマルチショット一貫性が中核。同じキャラを複数ショットにわたって維持し、同じルックと照明をシリーズ通しで持続させる。
Gen-4のReferences機能は映画制作者が最も望んでいた機能だ。キャラシート、衣装リファレンス、環境ムードボードを入力に入れると、その一貫性を保ったまま複数ショットを作れる。
- 価格 — クレジット制。Standard(
$15/month、625 credits)、Pro($35/month)、Unlimited($95/month)。Gen-4は一般にクリップあたり高めだ。 - Act-One(2024-10) — 顔の演技キャプチャをキャラクターにマッピングする機能。俳優の演技をデジタルキャラに移す。
第5章 · Pika 2.2 · 2.5 — Pikadditions · Pikaffects · Pikaframes
Pikaの戦略は「機能名を覚えやすくする」ことだ。
- Pika 1.0(2023-12) — 初GA、短いクリップ中心。
- Pika 1.5(2024-10) — Pikaffects(爆発/溶解/押し潰しといった非現実エフェクト)とPika Scenes(複数キャラ合成)を導入。
- Pika 2.0(2024-12) — 信頼性のあるキャラ/オブジェクト合成。
- Pika 2.2(2025-02) — Pikaframes(最初と最後のフレームを受けて間を埋めるトランジションモード)と10秒クリップ対応。
- Pika 2.5(2025年後半) — Pikadditions(既存動画に新しいオブジェクトを挿入)、画質向上。
Pikaの魅力は映画的一貫性よりも「一行で説明できるエフェクト」にある。Pikaffectsは広告 · ソーシャル制作者にとって非常に強力だ。
- 価格 — Basic(無料、ウォーターマーク)、Standard(
$8/month)、Pro($28/month)、Fancy($58/month)。
第6章 · Luma Dream Machine · Ray 2 — 速くてループ型
Luma AIのDream Machineは「速くて日常的」というポジションを取った。
- Dream Machine 1.0(2024-06) — Text-to-Video、Image-to-Video、約5秒クリップ。
- Ray 2(2025-01) — より大きなモデル、より長いクリップ、より正確なモーション。
- Ray 2 Flash(2025年中盤) — 小型・高速版。
Lumaの強みは二つ。第一に、Image-to-Videoの品質が非常に高い — 静止画から自然なモーションを作る。第二に、Loop機能(切れ目なく繰り返すクリップ)がソーシャルGIFや背景映像に強い。
- APIが最も早く解放されたモデルの一つ。開発者統合が容易。
- 価格 — Free(制限あり)、Standard(
$9.99/month)、Plus($29.99/month)、Unlimited($94.99/month)。
第7章 · Kling 1.6 · 2.0 — Kuaishouのグローバル進出
中国Kuaishou(快手、TikTokのグローバル競合)が2024-06に公開したKlingは、急速にグローバルユーザーを集めた。
- Kling 1.0(2024-06) — 初リリース、1080p · 最大10秒。
- Kling 1.5(2024-09) — Motion Brush(特定領域だけ動きを指定)、Camera Control。
- Kling 1.6(2024-12) — 品質大幅向上、英語プロンプト強化。
- Kling 2.0(2025年) — より長いクリップ、より正確な物理。
Klingの差別化点はMotion Brush — 映像内の特定領域を選んで動きの方向を指定できる。例:「この人物の髪だけ風で揺らす」。
- 価格 — klingai.comでクレジット購入。約
$10/100 credits。100クレジットで約5秒クリップ1本。
第8章 · MiniMax Hailuo — 高速テキスト-動画
MiniMaxのHailuo(海螺)は2024-09公開。初期は無料、その後有料化された。
- Hailuo Video 01(2024-09) — Text-to-Video、6秒720pから開始。
- Hailuo I2V-01(2024-11) — Image-to-Video別モデル。
- Hailuo MiniMax-01(2025年) — より大きなマルチモーダルモデル、動画も含む。
Hailuoは英語プロンプトに非常に強く、推論時間が速い(短いクリップで約30秒~1分)のが利点。ただし25秒まで伸びるSora 2と比べると尺は短い。
- APIも別途提供。
第9章 · Tencent Hunyuan Video — 13Bオープンソースの夜明け
2024-12-03、TencentがHunyuan Videoを公開した。13Bパラメータ、事実上のオープンライセンス(商用利用可、一部制限あり)。オープンソース動画モデルの版図を変えた事件だ。
- モデルサイズ — 13B。テキスト-動画、5秒クリップ、720pがデフォルト。
- アーキテクチャ — Diffusion Transformer(DiT)。テキストエンコーダはMLLMベース。
- ライセンス — Tencent Hunyuan Community License。月間アクティブユーザー100M以下の商用利用は自由、それ以上は別途協議。
- ハードウェア要件 — 720p · 5秒クリップのフル推論に約60GB VRAM。H100 80GB、H200 141GB推奨。RTX 4090(24GB)では量子化 + オフローディング(GGUF Q4/Q8 variantが速やかに登場)で動かせる。
- ComfyUI統合 — 公開から1週間以内にラッパーノードが登場。ドロップインで使える。
Hunyuan Videoの登場は、オープンソース動画陣営を「実用可能」領域に引き上げた。それまでのオープンモデルはデモレベルだった。
第10章 · Alibaba Wan 2.1 — 14Bのオープンライセンス
2025-01、AlibabaがWan 2.1を公開した。
- Wan 2.1 T2V-14B — 14Bパラメータ、テキスト-動画、720p · 5秒。
- Wan 2.1 I2V-14B — 同サイズのimage-to-video派生。
- Wan 2.1 T2V-1.3B — 小型版、RTX 4090シングルGPUでも動作可能。
- ライセンス — Apache 2.0(
Wan 2.1 1.3B)とTongyi Qianwen License(14B)。
Wan 2.1の本当の魅力は1.3B版にある。Apache 2.0で完全に自由、コンシューマGPU一枚で回る。ただし品質は14BあるいはHunyuanには及ばない。
第11章 · Genmo Mochi 1 — Apache 2.0 10Bの登場
2024-10、GenmoがMochi 1をApache 2.0で公開した。
- モデルサイズ — 10Bパラメータ(AsymmDiTアーキテクチャ)。
- 出力 — 480p、約5.4秒。
- ライセンス — Apache 2.0。完全自由。
- ハードウェア要件 — フル推論には4x H100推奨。量子化/オフローディングで単一H100 80GBやRTX 4090でも動作。
Mochi 1は「完全に自由なオープン動画モデル」という枠を初めて埋めた。ライセンスの観点からはHunyuanよりクリーンだ。
第12章 · Lightricks LTX-Video — リアルタイム2Bモデル
2024-11、Lightricks(Facetune · Videoleapを作る会社)がLTX-Videoを公開した。
- モデルサイズ — 2Bパラメータ。非常に小さい。
- 速度 — 4秒720pクリップを約4秒で生成(H100基準)。事実上リアルタイム。
- ライセンス — RAIL-S(研究・個人利用は自由、商用は制限的だが可能)。
- ワークフロー — ComfyUIノードが速やかに登場。Wan/Hunyuan比で約10倍速い。
LTX-Videoは「品質 vs 速度」のバランスを速度側に寄せた。高速プロトタイピング · 反復作業に強い。
第13章 · CogVideoX 5B — 清華のオープンベース
2024-09、清華大学KEG LabとZhipuAIがCogVideoXを公開した。
- CogVideoX-2B / CogVideoX-5B — 2サイズ。
- ライセンス — CogVideoX License(Apache風だが一部制約)。
- 品質 — 2024年後半時点ではMochi 1よりやや劣るが、参入障壁が低く研究 · 教育用途で多く使われた。
CogVideoXはModelScope · Hugging Faceで配布されており、速やかにComfyUIワークフローに統合された。
第14章 · Stable Video Diffusion · その前の遺産
動画モデルの「前史」を一段落で整理する。
- Stable Video Diffusion(2023-11、Stability AI) — 最初の本格的オープン動画モデル。約2~4秒、576x1024。品質は今日の基準ではデモレベルだが、ComfyUI · AUTOMATIC1111ワークフローはこの上に最初に根を下ろした。
- AnimateDiff(2023-07) — Stable Diffusion画像モデルにモーションモジュールを付けて短いアニメを作る手法。今もComfyUIのV2Vワークフローの標準だ。
- VideoCrafter / ModelScope T2V — 同時期の同種の試み。
これらがなければComfyUIエコシステムも、オープンソース動画モデルも今のような姿にはなっていない。
第15章 · ComfyUIワークフロー — Wan · Hunyuan · Mochiを一つに
ComfyUIはノードベースのワークフローエディタで、オープン動画モデルの標準インターフェースになった。
代表的なノードパッケージ:
- ComfyUI-HunyuanVideoWrapper — Hunyuan Video統合。
- ComfyUI-WanVideoWrapper — Wan 2.1統合。
- ComfyUI-MochiWrapper — Mochi 1統合。
- ComfyUI-LTXVideo — LTX-Video統合。
- ComfyUI-CogVideoXWrapper — CogVideoX統合。
典型的なワークフローはこのように流れる。
[Text Prompt]
|
v
[CLIP/T5 Text Encoder] --+
|
[Empty Latent Video] -----+--> [Diffusion Model (Hunyuan/Wan/Mochi)] --> [Latent Video]
| |
[Negative Prompt] --------+ v
[VAE Decode]
|
v
[Video Output]
I2VワークフローはここにImage EncoderノードとConditioningノードを追加する。V2Vは入力動画をlatentに再エンコードして起点として使う。
ComfyUIの本当の長所はノード単位でLoRA · ControlNet · IPAdapter · アップスケーラを差し込めることだ。クローズドモデルでは出来ない細粒度の制御が可能になる。
第16章 · リップシンク — HeyGen · Synthesia · D-ID · Hedra
動画生成とリップシンクは別問題だ。リップシンクツールは別カテゴリを成す。
- HeyGen — アバター動画 + リップシンクの事実上の標準。自分の顔/声を登録するか、ライブラリのアバターを使う。
$24/monthから。 - Synthesia — エンタープライズ向け研修 · マーケティング動画中心。140以上の言語に対応。Starter
$22/monthから。 - D-ID — 静止画に話す顔のアニメーションを乗せる。APIが強い。Studioプラン
$5.9/monthから。 - Hedra Character-1(2024-06) — AIキャラの表情と口元を一緒に生成。
$10/monthから。 - Sync.so(旧Wav2Lipの後継) — オープンソース側のリップシンクモデル。
Sora 2 · Veo 3は動画とオーディオを一緒に生成するが、既存映像に別の音声を乗せる作業は依然として上記ツールの領域だ。
第17章 · 絵コンテ · 長尺 — LTX Studio · Showrunner · Wonder
5秒~25秒のクリップを束ねてもっと長い映像を作るツールは別にある。
- LTX Studio(Lightricks) — 絵コンテ · キャラ一貫性 · シーン管理を統合したツール。単一の動画モデルではなくワークフロー自体を売る。
- Showrunner(Fable Simulation) — TVシリーズエピソードを生成。South Park風シミュレーションで有名。
- Wonder Dynamics(Autodeskが買収) — 実写映像にCGキャラを自動合成。VFXパイプラインに統合。
- Krea AI — 画像 · 動画 · 3Dを束ねたクリエイティブツール。
これらの共通点は「単一クリップではなくシーケンス」を作ることだ。なのでSora 2 · Veo 3 · Runway Gen-4をAPIで引っ張ってきて上に載せるケースが多い。
第18章 · ウォーターマークとC2PA — 真正性証明の新標準
2024-2025年に最も速く根を下ろした標準はC2PA(Coalition for Content Provenance and Authenticity)だ。
- C2PAはコンテンツの出所 · 編集履歴を暗号学的に署名したメタデータとして埋め込む標準。
- Adobe、Microsoft、OpenAI、Google、BBC、Metaがすべて参加。
- 画像(JPEG XMP)、動画(MP4メタデータ)に埋め込まれる。
2026年時点の状況:
- OpenAI Sora 2 — 可視ウォーターマーク + C2PAメタデータ。Proプランのみ可視マーク除去可、C2PAは常に維持。
- Google Veo 3 — SynthID(DeepMindの非可視ウォーターマーク) + C2PA。
- Meta — Facebook · Instagramが生成コンテンツを自動ラベリング。
- EU AI Act — 2026年から生成AIコンテンツのラベリングが法的要件に。
ウォーターマークはコンテンツ信頼の最後の防衛線だ。だがオープンソースで作られた映像にはC2PAが入らないため、この標準はクローズドエコシステム内でのみ作動する。
第19章 · 韓国 — VARCO · HyperCLOVA X 動画
韓国陣営の状況はテキスト · 画像モデルに比べて動画は一拍遅いが、急速に追い上げている。
- NCsoft VARCO Vision — VARCOモデル群のマルチモーダル派生。画像/動画理解(VLM)が先、本格生成はまだ。
- Naver HyperCLOVA X — テキストが主力、動画生成は別ラインナップとして準備中。
- Kakao Karlo — 画像生成モデルはあったが動画は未公開。
- ローカルワークフロー — 韓国クリエイターの多くがHunyuan/Wan/LTXをComfyUIで韓国語プロンプト(翻訳器経由)で使っている。広告制作会社が急速に導入中。
韓国市場の特殊性はKコンテンツ IPだ。ドラマ · K-POP · ウェブトゥーンのキャラ一貫性を保ったまま動画を生成するワークフロー(LoRA学習 + Runway References + リップシンク)が急速に実験されている。
第20章 · 日本 — NTT Tsuzumi · Pikalmer · Sakana
日本陣営も動画モデルの直接開発は少ないが、隣接分野は活発だ。
- NTT Tsuzumi — NTTのLLMラインナップ。日本語に強い。動画はまだ別ラインがない。
- Sony Pikalmer(仮称、内部プロジェクト群) — Sonyのメディアalpha挑戦。
- Sakana AI — 進化的モデル合成で有名。動画モデルの直接開発ではないが、モデルマージ技法がLoRA領域で応用可能。
- Stability AI Japan — Stable Diffusionの日本語派生で活動。
- AIアニメ — 日本のアニメスタジオがRunway Gen-4 · Pika 2.5を一部の制作パイプラインに試験導入中。ただし労働組合の問題で本格導入には慎重。
日本はIP一貫性と労働組合の問題から、クローズドモデルよりもコントロール可能なオープンソースワークフローに重みが乗っている。
第21章 · コスト — クリップ1本の本当の価格
比較可能な価格表を一段落にまとめる。
- Sora 2 — ChatGPT Pro
$200/monthに一定の使用量含む。追加はクレジット。 - Veo 3 — Vertex AI基準で約
$0.35-0.75/sec(ベータ価格、変動の可能性あり)。Gemini Advanced/Ultraの一部サブスクに一定の使用量含む。 - Runway Gen-4 — Standard
$15/month(625 credits、約41秒分)、Pro$35/month。 - Pika 2.5 — Standard
$8/month、Pro$28/month。 - Luma Dream Machine / Ray 2 — Standard
$9.99/month、Unlimited$94.99/month。 - Kling —
$10/100 credits。5秒クリップで約100クレジット。 - Hailuo — クレジット制、
$10から。 - HeyGen — Creator
$24/monthから。 - ローカルGPU(Hunyuan/Wan/Mochi) — H100クラウドが時間あたり
$2-3なら、5秒クリップ1本で約$0.5-1。RTX 4090(約$1,800)を一枚買えば無制限生成(電気代別)。
最も安く作る道は二つ。一つはオープンソースモデル + 自前のGPU。もう一つはPika · Lumaの低価格サブスク + 無理しないクリップ数。
第22章 · 限界 — モーション一貫性、物理、テキスト
2026年の動画モデルは強いが、弱点も明確だ。
- シーン一貫性 — 一人のキャラを複数の5秒クリップにわたって同一に保つのは依然として難しい。Runway Gen-4のReferences、ComfyUIのLoRAがこれを緩和する。
- 物理シミュレーション — 液体 · 布 · 関節の正確な運動は依然として弱い。Sora 2が最良だが完璧ではない。
- テキストレンダリング — 動画内の文字(看板、本の表紙等)はしばしば崩れる。Veo 3とSora 2が最も正確。
- 5秒を超える一貫性 — 25秒まで伸びるSora 2でも後半に違和感が増える。
- 著作権/顔の使用 — Cameosのような合意モデル外の顔は拒否される。ただしオープンソースではガードが弱いため、倫理 · 法的責任がユーザーに渡る。
これらの限界が消える速度は世代ごとに違う。テキストレンダリングは速く改善されたが、物理はゆっくり改善中だ。
第23章 · 活用事例 — 広告 · ソーシャル · 絵コンテ · R&D
2026年現在で最も活発な4つの活用:
- 広告/マーケティング — 30秒のSNS広告。PikaのPikaffects、Runway Gen-4のReferences、HeyGenアバターを組み合わせたパイプライン。コストは従来制作の1/10以下。
- ソーシャルコンテンツ — TikTok · Reels · Shorts。Sora App · Luma · Klingが強い。「アグロ気味の短いクリップ」で恐ろしいほど強くなった。
- 映画事前ビジュアライゼーション(Previz) · 絵コンテ — Runway Gen-4 · LTX Studioが制作会社のワークフローに浸透。本撮影前にシーンの流れを先に見る。
- R&D / シミュレーション — NVIDIA · 自動運転企業が動画モデルを合成学習データ生成に使い始めた。道路状況シナリオを無限生成。
本格的な長編映画 · ドラマ制作にはまだ到達していない。ただし短編 · MV · 広告 · 予告編にはすでに入り込んでいる。
第24章 · 意思決定ツリー — どのモデルを使うか
最後に、状況別のおすすめを1ページにまとめる。
- ソーシャル用の短いクリップ、速い反復 → Pika 2.5、Luma Ray 2、Kling。
- 映画的なトーン、キャラ一貫性 → Runway Gen-4 + References。高いが最も制御可能。
- ネイティブの同期オーディオ、ダイアログ → Sora 2あるいはVeo 3。
- エンタープライズ統合(Vertex AI、GCPデータガバナンス) → Veo 3。
- 研修動画、多言語リップシンク → HeyGen、Synthesia。
- 低コスト · 反復作業、オープンソースワークフロー → Hunyuan Video、Wan 2.1、Mochi 1、LTX-VideoをComfyUIで。
- 個人GPU一枚で始める → Wan 2.1 1.3BあるいはLTX-Video。
- 商用利用ライセンス100%クリーン → Mochi 1(Apache 2.0)。
このツリーは半年以内に更新される可能性が高い。AI動画は依然として最も速く動く分野の一つだ。
エピローグ — 次の1年の問い
2年で60秒1080pから25秒4K同期オーディオまで来た。2027年の動画モデルは何を解くべきか。
- 長尺一貫性 — 1分以上のシーケンスを切れ目なく。
- インタラクティブ動画 — ユーザーが途中で介入して分岐。
- リアルタイム動画生成 — ゲームレンダリングのように即座に応答。
- 3D一貫性 — カメラが自由に回る間も世界が崩れないように。
- 著作権/合意フレームワーク — 顔 · 声 · スタイルの明示的合意をどう標準化するか。
答えを持っている人はまだいない。だが2024-2026の速度ならば、その答えはさらに2年以内に出てくる可能性が高い。
参考資料
- OpenAI Sora 2 announcement — https://openai.com/index/sora-2/
- OpenAI Sora system card — https://openai.com/index/sora-system-card/
- Google Veo on Vertex AI — https://cloud.google.com/vertex-ai/generative-ai/docs/video/generate-videos
- Google Veo 3 (I/O 2025) — https://blog.google/technology/ai/google-io-2025-veo-3-imagen-4-flow/
- Runway Gen-4 — https://runwayml.com/research/introducing-runway-gen-4
- Runway References — https://help.runwayml.com/hc/en-us/articles/30625011765011
- Pika Labs — https://pika.art/
- Pika 2.2 release notes — https://pikalabs.notion.site/
- Luma Dream Machine — https://lumalabs.ai/dream-machine
- Luma Ray 2 — https://lumalabs.ai/ray
- Kling AI — https://klingai.com/
- MiniMax Hailuo — https://hailuoai.video/
- Tencent Hunyuan Video — https://github.com/Tencent/HunyuanVideo
- Hunyuan Video model card — https://huggingface.co/tencent/HunyuanVideo
- Alibaba Wan 2.1 — https://github.com/Wan-Video/Wan2.1
- Genmo Mochi 1 — https://github.com/genmoai/models
- Lightricks LTX-Video — https://github.com/Lightricks/LTX-Video
- CogVideoX — https://github.com/THUDM/CogVideo
- Stable Video Diffusion — https://stability.ai/stable-video
- ComfyUI — https://github.com/comfyanonymous/ComfyUI
- HeyGen — https://www.heygen.com/
- Synthesia — https://www.synthesia.io/
- D-ID — https://www.d-id.com/
- Hedra Character-1 — https://www.hedra.com/
- LTX Studio — https://ltx.studio/
- C2PA standard — https://c2pa.org/
- Google SynthID — https://deepmind.google/technologies/synthid/
- EU AI Act overview — https://artificialintelligenceact.eu/