Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — SoraプレビューからSora 2アプリへ、2年の圧縮

2024年2月15日、OpenAIがSoraプレビューを公開したとき、映像業界は一瞬止まった。60秒の1080pクリップが「プロンプトだけで」出てきたという事実が衝撃だった。だがそのSoraは1年経っても一般公開されなかった。

そして2025年9月30日、OpenAIはSora 2を発表すると同時に、iOS専用のSoraアプリをローンチした。4K · 25秒 · ネイティブオーディオ · Cameos(自分の顔と声をモデルに登録)、ソーシャルフィードまで。ChatGPT Proサブスクライバーには専用枠が付いた。並行してGoogleはVeo 2(2024-12)、Veo 3(2025-05 I/O)の順でGemini AppとVertex AIに統合し、RunwayはGen-3 Alphaを経てGen-4(2025-03)で映画制作ワークフローに深く踏み込んだ。

その間、中国陣営ではKuaishou Kling、MiniMax Hailuo、Tencent Hunyuan Video、Alibaba Wan 2.1が一気にギャップを詰めた。そしてオープンソース側 — Genmo Mochi 1(2024-10, Apache 2.0)、Lightricks LTX-Video(2024-11, リアルタイム2B)、CogVideoX(清華) — がComfyUIワークフローの上に載り、RTX 4090一枚でもcinematicな映像が可能になった。

本稿はその2年の圧縮を — クローズドとオープン、価格とライセンス、そして日本と韓国の市場まで — 一息に整理する。

第1章 · テキスト、画像、動画 — 三つの入力分岐

AI動画モデルを選ぶときに最初に問うのは「何を入力に取るか」だ。三つの分岐がある。

- **Text-to-video (T2V)** — プロンプトだけで新規クリップを作る。Sora 2 · Veo 3 · Runway Gen-4 · Kling · Hailuo · Hunyuan · Wan · Mochi · CogVideoXが対応。最も普遍的だが制御が難しい。

- **Image-to-video (I2V)** — 静止画(絵コンテ、キャラシート、製品写真)を最初のフレームとして受けて動かす。Runway Gen-4、Luma Dream Machine、Pika、Kling、Hailuo、LTX-Videoが強い。キャラクター一貫性とブランド資産の保持が肝。

- **Video-to-video (V2V)** — 既存の映像を受け取ってスタイル/モーション/視点を変える。RunwayのGen-3 Video-to-Video、PikaのPikaffects、ComfyUIのAnimateDiffワークフローがここに該当。

ほとんどのプロのワークフローはこの三つを混ぜる。T2Vで初稿 → I2Vでキャラ固定 → V2Vでスタイル統一 → リップシンクツールで口形同期。最後にPremiere/DaVinciで切って繋ぐ。

第2章 · OpenAI Sora 2 — 4K · 25秒 · Cameos · iOSアプリ

2025-09-30、OpenAIはSora 2を発表すると同時に、モデルとアプリの二つを解放した。

- **モデル側** — 4K出力、最大25秒クリップ、ネイティブの同期オーディオ(セリフ · 効果音 · 環境音をビデオと一緒に生成)、物理 · 重力 · 接触の一貫性がSora 1プレビュー比で大きく改善された。

- **アプリ側** — iOS専用Soraアプリが同時にローンチ。TikTok風の縦型フィード、「Cameos」(自分の顔をライブセルフィーで安全に登録する機能)、友人のCameoを自分の動画に挟む共同編集まで。

- **価格** — ChatGPT Pro(`$200/month`)に一定の使用量が含まれる。追加はクレジット制。ChatGPT Plus(`$20/month`)にも限定的なSora 2アクセスが付く。

- **ウォーターマーク** — すべての出力に可視のSoraロゴウォーターマークとC2PAメタデータが入る。Proプランのみ可視マーク除去可、ただしC2PAは常に残る。

- **API** — 2025-11にSora 2 APIがベータ提供。一部パートナーのみアクセス可能。

Sora 2の真の差別化点は二つ。第一に、他モデルが無音動画を出力してElevenLabs/Sunoで別途音を付けるのに対し、Sora 2はネイティブで同期したオーディオを一緒に出す。第二に、Cameos機能は事実上「ディープフェイク同意モデル」を標準化した — 本人が明示登録した顔のみ、しかも友人に共有権を与えた場合のみ使える。

第3章 · Google Veo 2 · Veo 3 — GeminiとVertex AIの二本立て

GoogleのビデオモデルはVeoシリーズに統合された。

- **Veo 2** — 2024-12、Vertex AI StudioとVideoFX(パブリックベータ)に登場。4K、最大2分、シネマティックなカメラワーク命令(`dolly`、`crane`、`zoom`)を自然言語で受ける。

- **Veo 3** — 2025-05 Google I/Oで発表。Veo 2の欠点だった無音出力を解決 — ネイティブのダイアログ、効果音、環境音を一緒に生成する。Sora 2と事実上同じ時期に同じ方向に動いた。

- **アクセスチャネル** — Gemini App(Gemini Advanced/Ultraサブスクライバー)、Vertex AI(エンタープライズ)、そしてFlow(Googleの映画制作専用ツール)。

- **Flow** — 2025-05 I/Oで同時公開。シーン単位の一貫性、キャラクター一貫性、カメラコントロールを映画制作者向けUIにまとめた。

Veo 3の強みはGoogleインフラ — DeepMindの音声モデルと結合したネイティブサウンド — とエンタープライズチャネル(Vertex AI)だ。Sora 2がソーシャルフィード中心なら、Veo 3は制作パイプラインに近い。

第4章 · Runway Gen-4 — 映画制作ワークフローへの浸透

Runwayの道は最初から明確だった。「映像編集会社が作るAI動画ツール」。

- **Gen-1**(2023-02) — Video-to-Videoのみ、スタイル転送。

- **Gen-2**(2023-06) — Text-to-Video、Image-to-Videoに拡張。

- **Gen-3 Alpha**(2024-06) — 画質が本格cinematicレベルに到達。

- **Gen-3 Alpha Turbo**(2024-07) — 推論が7倍高速化、価格半額。

- **Gen-4**(2025-03) — **リファレンス画像(References)**機能と**マルチショット一貫性**が中核。同じキャラを複数ショットにわたって維持し、同じルックと照明をシリーズ通しで持続させる。

Gen-4のReferences機能は映画制作者が最も望んでいた機能だ。キャラシート、衣装リファレンス、環境ムードボードを入力に入れると、その一貫性を保ったまま複数ショットを作れる。

- **価格** — クレジット制。Standard(`$15/month`、625 credits)、Pro(`$35/month`)、Unlimited(`$95/month`)。Gen-4は一般にクリップあたり高めだ。

- **Act-One**(2024-10) — 顔の演技キャプチャをキャラクターにマッピングする機能。俳優の演技をデジタルキャラに移す。

第5章 · Pika 2.2 · 2.5 — Pikadditions · Pikaffects · Pikaframes

Pikaの戦略は「機能名を覚えやすくする」ことだ。

- **Pika 1.0**(2023-12) — 初GA、短いクリップ中心。

- **Pika 1.5**(2024-10) — Pikaffects(爆発/溶解/押し潰しといった非現実エフェクト)とPika Scenes(複数キャラ合成)を導入。

- **Pika 2.0**(2024-12) — 信頼性のあるキャラ/オブジェクト合成。

- **Pika 2.2**(2025-02) — **Pikaframes**(最初と最後のフレームを受けて間を埋めるトランジションモード)と10秒クリップ対応。

- **Pika 2.5**(2025年後半) — **Pikadditions**(既存動画に新しいオブジェクトを挿入)、画質向上。

Pikaの魅力は映画的一貫性よりも「一行で説明できるエフェクト」にある。Pikaffectsは広告 · ソーシャル制作者にとって非常に強力だ。

- **価格** — Basic(無料、ウォーターマーク)、Standard(`$8/month`)、Pro(`$28/month`)、Fancy(`$58/month`)。

第6章 · Luma Dream Machine · Ray 2 — 速くてループ型

Luma AIのDream Machineは「速くて日常的」というポジションを取った。

- **Dream Machine 1.0**(2024-06) — Text-to-Video、Image-to-Video、約5秒クリップ。

- **Ray 2**(2025-01) — より大きなモデル、より長いクリップ、より正確なモーション。

- **Ray 2 Flash**(2025年中盤) — 小型・高速版。

Lumaの強みは二つ。第一に、Image-to-Videoの品質が非常に高い — 静止画から自然なモーションを作る。第二に、**Loop**機能(切れ目なく繰り返すクリップ)がソーシャルGIFや背景映像に強い。

- **API**が最も早く解放されたモデルの一つ。開発者統合が容易。

- **価格** — Free(制限あり)、Standard(`$9.99/month`)、Plus(`$29.99/month`)、Unlimited(`$94.99/month`)。

第7章 · Kling 1.6 · 2.0 — Kuaishouのグローバル進出

中国Kuaishou(快手、TikTokのグローバル競合)が2024-06に公開したKlingは、急速にグローバルユーザーを集めた。

- **Kling 1.0**(2024-06) — 初リリース、1080p · 最大10秒。

- **Kling 1.5**(2024-09) — Motion Brush(特定領域だけ動きを指定)、Camera Control。

- **Kling 1.6**(2024-12) — 品質大幅向上、英語プロンプト強化。

- **Kling 2.0**(2025年) — より長いクリップ、より正確な物理。

Klingの差別化点は**Motion Brush** — 映像内の特定領域を選んで動きの方向を指定できる。例:「この人物の髪だけ風で揺らす」。

- **価格** — klingai.comでクレジット購入。約`$10/100 credits`。100クレジットで約5秒クリップ1本。

第8章 · MiniMax Hailuo — 高速テキスト-動画

MiniMaxのHailuo(海螺)は2024-09公開。初期は無料、その後有料化された。

- **Hailuo Video 01**(2024-09) — Text-to-Video、6秒720pから開始。

- **Hailuo I2V-01**(2024-11) — Image-to-Video別モデル。

- **Hailuo MiniMax-01**(2025年) — より大きなマルチモーダルモデル、動画も含む。

Hailuoは英語プロンプトに非常に強く、推論時間が速い(短いクリップで約30秒~1分)のが利点。ただし25秒まで伸びるSora 2と比べると尺は短い。

- **API**も別途提供。

第9章 · Tencent Hunyuan Video — 13Bオープンソースの夜明け

2024-12-03、TencentがHunyuan Videoを公開した。13Bパラメータ、事実上のオープンライセンス(商用利用可、一部制限あり)。オープンソース動画モデルの版図を変えた事件だ。

- **モデルサイズ** — 13B。テキスト-動画、5秒クリップ、720pがデフォルト。

- **アーキテクチャ** — Diffusion Transformer(DiT)。テキストエンコーダはMLLMベース。

- **ライセンス** — Tencent Hunyuan Community License。月間アクティブユーザー100M以下の商用利用は自由、それ以上は別途協議。

- **ハードウェア要件** — 720p · 5秒クリップのフル推論に約60GB VRAM。H100 80GB、H200 141GB推奨。RTX 4090(24GB)では量子化 + オフローディング(GGUF Q4/Q8 variantが速やかに登場)で動かせる。

- **ComfyUI統合** — 公開から1週間以内にラッパーノードが登場。ドロップインで使える。

Hunyuan Videoの登場は、オープンソース動画陣営を「実用可能」領域に引き上げた。それまでのオープンモデルはデモレベルだった。

第10章 · Alibaba Wan 2.1 — 14Bのオープンライセンス

2025-01、AlibabaがWan 2.1を公開した。

- **Wan 2.1 T2V-14B** — 14Bパラメータ、テキスト-動画、720p · 5秒。

- **Wan 2.1 I2V-14B** — 同サイズのimage-to-video派生。

- **Wan 2.1 T2V-1.3B** — 小型版、RTX 4090シングルGPUでも動作可能。

- **ライセンス** — Apache 2.0(`Wan 2.1 1.3B`)とTongyi Qianwen License(14B)。

Wan 2.1の本当の魅力は1.3B版にある。Apache 2.0で完全に自由、コンシューマGPU一枚で回る。ただし品質は14BあるいはHunyuanには及ばない。

第11章 · Genmo Mochi 1 — Apache 2.0 10Bの登場

2024-10、GenmoがMochi 1をApache 2.0で公開した。

- **モデルサイズ** — 10Bパラメータ(AsymmDiTアーキテクチャ)。

- **出力** — 480p、約5.4秒。

- **ライセンス** — Apache 2.0。完全自由。

- **ハードウェア要件** — フル推論には4x H100推奨。量子化/オフローディングで単一H100 80GBやRTX 4090でも動作。

Mochi 1は「完全に自由なオープン動画モデル」という枠を初めて埋めた。ライセンスの観点からはHunyuanよりクリーンだ。

第12章 · Lightricks LTX-Video — リアルタイム2Bモデル

2024-11、Lightricks(Facetune · Videoleapを作る会社)がLTX-Videoを公開した。

- **モデルサイズ** — 2Bパラメータ。非常に小さい。

- **速度** — 4秒720pクリップを約4秒で生成(H100基準)。事実上リアルタイム。

- **ライセンス** — RAIL-S(研究・個人利用は自由、商用は制限的だが可能)。

- **ワークフロー** — ComfyUIノードが速やかに登場。Wan/Hunyuan比で約10倍速い。

LTX-Videoは「品質 vs 速度」のバランスを速度側に寄せた。高速プロトタイピング · 反復作業に強い。

第13章 · CogVideoX 5B — 清華のオープンベース

2024-09、清華大学KEG LabとZhipuAIがCogVideoXを公開した。

- **CogVideoX-2B** / **CogVideoX-5B** — 2サイズ。

- **ライセンス** — CogVideoX License(Apache風だが一部制約)。

- **品質** — 2024年後半時点ではMochi 1よりやや劣るが、参入障壁が低く研究 · 教育用途で多く使われた。

CogVideoXはModelScope · Hugging Faceで配布されており、速やかにComfyUIワークフローに統合された。

第14章 · Stable Video Diffusion · その前の遺産

動画モデルの「前史」を一段落で整理する。

- **Stable Video Diffusion**(2023-11、Stability AI) — 最初の本格的オープン動画モデル。約2~4秒、576x1024。品質は今日の基準ではデモレベルだが、ComfyUI · AUTOMATIC1111ワークフローはこの上に最初に根を下ろした。

- **AnimateDiff**(2023-07) — Stable Diffusion画像モデルにモーションモジュールを付けて短いアニメを作る手法。今もComfyUIのV2Vワークフローの標準だ。

- **VideoCrafter / ModelScope T2V** — 同時期の同種の試み。

これらがなければComfyUIエコシステムも、オープンソース動画モデルも今のような姿にはなっていない。

第15章 · ComfyUIワークフロー — Wan · Hunyuan · Mochiを一つに

ComfyUIはノードベースのワークフローエディタで、オープン動画モデルの標準インターフェースになった。

代表的なノードパッケージ:

- **ComfyUI-HunyuanVideoWrapper** — Hunyuan Video統合。

- **ComfyUI-WanVideoWrapper** — Wan 2.1統合。

- **ComfyUI-MochiWrapper** — Mochi 1統合。

- **ComfyUI-LTXVideo** — LTX-Video統合。

- **ComfyUI-CogVideoXWrapper** — CogVideoX統合。

典型的なワークフローはこのように流れる。

[Text Prompt]

[CLIP/T5 Text Encoder] --+

[Empty Latent Video] -----+--> [Diffusion Model (Hunyuan/Wan/Mochi)] --> [Latent Video]

| |

[Negative Prompt] --------+ v

[VAE Decode]

[Video Output]

I2Vワークフローはここに`Image Encoder`ノードと`Conditioning`ノードを追加する。V2Vは入力動画をlatentに再エンコードして起点として使う。

ComfyUIの本当の長所はノード単位でLoRA · ControlNet · IPAdapter · アップスケーラを差し込めることだ。クローズドモデルでは出来ない細粒度の制御が可能になる。

第16章 · リップシンク — HeyGen · Synthesia · D-ID · Hedra

動画生成とリップシンクは別問題だ。リップシンクツールは別カテゴリを成す。

- **HeyGen** — アバター動画 + リップシンクの事実上の標準。自分の顔/声を登録するか、ライブラリのアバターを使う。`$24/month`から。

- **Synthesia** — エンタープライズ向け研修 · マーケティング動画中心。140以上の言語に対応。Starter `$22/month`から。

- **D-ID** — 静止画に話す顔のアニメーションを乗せる。APIが強い。Studioプラン`$5.9/month`から。

- **Hedra Character-1**(2024-06) — AIキャラの表情と口元を一緒に生成。`$10/month`から。

- **Sync.so**(旧Wav2Lipの後継) — オープンソース側のリップシンクモデル。

Sora 2 · Veo 3は動画とオーディオを一緒に生成するが、**既存映像に別の音声を乗せる**作業は依然として上記ツールの領域だ。

第17章 · 絵コンテ · 長尺 — LTX Studio · Showrunner · Wonder

5秒~25秒のクリップを束ねてもっと長い映像を作るツールは別にある。

- **LTX Studio**(Lightricks) — 絵コンテ · キャラ一貫性 · シーン管理を統合したツール。単一の動画モデルではなくワークフロー自体を売る。

- **Showrunner**(Fable Simulation) — TVシリーズエピソードを生成。South Park風シミュレーションで有名。

- **Wonder Dynamics**(Autodeskが買収) — 実写映像にCGキャラを自動合成。VFXパイプラインに統合。

- **Krea AI** — 画像 · 動画 · 3Dを束ねたクリエイティブツール。

これらの共通点は「単一クリップではなくシーケンス」を作ることだ。なのでSora 2 · Veo 3 · Runway Gen-4をAPIで引っ張ってきて上に載せるケースが多い。

第18章 · ウォーターマークとC2PA — 真正性証明の新標準

2024-2025年に最も速く根を下ろした標準は**C2PA**(Coalition for Content Provenance and Authenticity)だ。

- C2PAはコンテンツの出所 · 編集履歴を暗号学的に署名したメタデータとして埋め込む標準。

- Adobe、Microsoft、OpenAI、Google、BBC、Metaがすべて参加。

- 画像(JPEG XMP)、動画(MP4メタデータ)に埋め込まれる。

2026年時点の状況:

- **OpenAI Sora 2** — 可視ウォーターマーク + C2PAメタデータ。Proプランのみ可視マーク除去可、C2PAは常に維持。

- **Google Veo 3** — **SynthID**(DeepMindの非可視ウォーターマーク) + C2PA。

- **Meta** — Facebook · Instagramが生成コンテンツを自動ラベリング。

- **EU AI Act** — 2026年から生成AIコンテンツのラベリングが法的要件に。

ウォーターマークはコンテンツ信頼の最後の防衛線だ。だがオープンソースで作られた映像にはC2PAが入らないため、この標準はクローズドエコシステム内でのみ作動する。

第19章 · 韓国 — VARCO · HyperCLOVA X 動画

韓国陣営の状況はテキスト · 画像モデルに比べて動画は一拍遅いが、急速に追い上げている。

- **NCsoft VARCO Vision** — VARCOモデル群のマルチモーダル派生。画像/動画理解(VLM)が先、本格生成はまだ。

- **Naver HyperCLOVA X** — テキストが主力、動画生成は別ラインナップとして準備中。

- **Kakao Karlo** — 画像生成モデルはあったが動画は未公開。

- **ローカルワークフロー** — 韓国クリエイターの多くがHunyuan/Wan/LTXをComfyUIで韓国語プロンプト(翻訳器経由)で使っている。広告制作会社が急速に導入中。

韓国市場の特殊性は**Kコンテンツ IP**だ。ドラマ · K-POP · ウェブトゥーンのキャラ一貫性を保ったまま動画を生成するワークフロー(LoRA学習 + Runway References + リップシンク)が急速に実験されている。

第20章 · 日本 — NTT Tsuzumi · Pikalmer · Sakana

日本陣営も動画モデルの直接開発は少ないが、隣接分野は活発だ。

- **NTT Tsuzumi** — NTTのLLMラインナップ。日本語に強い。動画はまだ別ラインがない。

- **Sony Pikalmer**(仮称、内部プロジェクト群) — Sonyのメディアalpha挑戦。

- **Sakana AI** — 進化的モデル合成で有名。動画モデルの直接開発ではないが、モデルマージ技法がLoRA領域で応用可能。

- **Stability AI Japan** — Stable Diffusionの日本語派生で活動。

- **AIアニメ** — 日本のアニメスタジオがRunway Gen-4 · Pika 2.5を一部の制作パイプラインに試験導入中。ただし労働組合の問題で本格導入には慎重。

日本はIP一貫性と労働組合の問題から、クローズドモデルよりもコントロール可能なオープンソースワークフローに重みが乗っている。

第21章 · コスト — クリップ1本の本当の価格

比較可能な価格表を一段落にまとめる。

- **Sora 2** — ChatGPT Pro `$200/month`に一定の使用量含む。追加はクレジット。

- **Veo 3** — Vertex AI基準で約`$0.35-0.75/sec`(ベータ価格、変動の可能性あり)。Gemini Advanced/Ultraの一部サブスクに一定の使用量含む。

- **Runway Gen-4** — Standard `$15/month`(625 credits、約41秒分)、Pro `$35/month`。

- **Pika 2.5** — Standard `$8/month`、Pro `$28/month`。

- **Luma Dream Machine / Ray 2** — Standard `$9.99/month`、Unlimited `$94.99/month`。

- **Kling** — `$10/100 credits`。5秒クリップで約100クレジット。

- **Hailuo** — クレジット制、`$10`から。

- **HeyGen** — Creator `$24/month`から。

- **ローカルGPU(Hunyuan/Wan/Mochi)** — H100クラウドが時間あたり`$2-3`なら、5秒クリップ1本で約`$0.5-1`。RTX 4090(約`$1,800`)を一枚買えば無制限生成(電気代別)。

最も安く作る道は二つ。一つはオープンソースモデル + 自前のGPU。もう一つはPika · Lumaの低価格サブスク + 無理しないクリップ数。

第22章 · 限界 — モーション一貫性、物理、テキスト

2026年の動画モデルは強いが、弱点も明確だ。

- **シーン一貫性** — 一人のキャラを複数の5秒クリップにわたって同一に保つのは依然として難しい。Runway Gen-4のReferences、ComfyUIのLoRAがこれを緩和する。

- **物理シミュレーション** — 液体 · 布 · 関節の正確な運動は依然として弱い。Sora 2が最良だが完璧ではない。

- **テキストレンダリング** — 動画内の文字(看板、本の表紙等)はしばしば崩れる。Veo 3とSora 2が最も正確。

- **5秒を超える一貫性** — 25秒まで伸びるSora 2でも後半に違和感が増える。

- **著作権/顔の使用** — Cameosのような合意モデル外の顔は拒否される。ただしオープンソースではガードが弱いため、倫理 · 法的責任がユーザーに渡る。

これらの限界が消える速度は世代ごとに違う。テキストレンダリングは速く改善されたが、物理はゆっくり改善中だ。

第23章 · 活用事例 — 広告 · ソーシャル · 絵コンテ · R&D

2026年現在で最も活発な4つの活用:

- **広告/マーケティング** — 30秒のSNS広告。PikaのPikaffects、Runway Gen-4のReferences、HeyGenアバターを組み合わせたパイプライン。コストは従来制作の1/10以下。

- **ソーシャルコンテンツ** — TikTok · Reels · Shorts。Sora App · Luma · Klingが強い。「アグロ気味の短いクリップ」で恐ろしいほど強くなった。

- **映画事前ビジュアライゼーション(Previz) · 絵コンテ** — Runway Gen-4 · LTX Studioが制作会社のワークフローに浸透。本撮影前にシーンの流れを先に見る。

- **R&D / シミュレーション** — NVIDIA · 自動運転企業が動画モデルを合成学習データ生成に使い始めた。道路状況シナリオを無限生成。

本格的な長編映画 · ドラマ制作にはまだ到達していない。ただし短編 · MV · 広告 · 予告編にはすでに入り込んでいる。

第24章 · 意思決定ツリー — どのモデルを使うか

最後に、状況別のおすすめを1ページにまとめる。

- **ソーシャル用の短いクリップ、速い反復** → Pika 2.5、Luma Ray 2、Kling。

- **映画的なトーン、キャラ一貫性** → Runway Gen-4 + References。高いが最も制御可能。

- **ネイティブの同期オーディオ、ダイアログ** → Sora 2あるいはVeo 3。

- **エンタープライズ統合(Vertex AI、GCPデータガバナンス)** → Veo 3。

- **研修動画、多言語リップシンク** → HeyGen、Synthesia。

- **低コスト · 反復作業、オープンソースワークフロー** → Hunyuan Video、Wan 2.1、Mochi 1、LTX-VideoをComfyUIで。

- **個人GPU一枚で始める** → Wan 2.1 1.3BあるいはLTX-Video。

- **商用利用ライセンス100%クリーン** → Mochi 1(Apache 2.0)。

このツリーは半年以内に更新される可能性が高い。AI動画は依然として最も速く動く分野の一つだ。

エピローグ — 次の1年の問い

2年で60秒1080pから25秒4K同期オーディオまで来た。2027年の動画モデルは何を解くべきか。

- **長尺一貫性** — 1分以上のシーケンスを切れ目なく。

- **インタラクティブ動画** — ユーザーが途中で介入して分岐。

- **リアルタイム動画生成** — ゲームレンダリングのように即座に応答。

- **3D一貫性** — カメラが自由に回る間も世界が崩れないように。

- **著作権/合意フレームワーク** — 顔 · 声 · スタイルの明示的合意をどう標準化するか。

答えを持っている人はまだいない。だが2024-2026の速度ならば、その答えはさらに2年以内に出てくる可能性が高い。

参考資料

- OpenAI Sora 2 announcement — https://openai.com/index/sora-2/

- OpenAI Sora system card — https://openai.com/index/sora-system-card/

- Google Veo on Vertex AI — https://cloud.google.com/vertex-ai/generative-ai/docs/video/generate-videos

- Google Veo 3 (I/O 2025) — https://blog.google/technology/ai/google-io-2025-veo-3-imagen-4-flow/

- Runway Gen-4 — https://runwayml.com/research/introducing-runway-gen-4

- Runway References — https://help.runwayml.com/hc/en-us/articles/30625011765011

- Pika Labs — https://pika.art/

- Pika 2.2 release notes — https://pikalabs.notion.site/

- Luma Dream Machine — https://lumalabs.ai/dream-machine

- Luma Ray 2 — https://lumalabs.ai/ray

- Kling AI — https://klingai.com/

- MiniMax Hailuo — https://hailuoai.video/

- Tencent Hunyuan Video — https://github.com/Tencent/HunyuanVideo

- Hunyuan Video model card — https://huggingface.co/tencent/HunyuanVideo

- Alibaba Wan 2.1 — https://github.com/Wan-Video/Wan2.1

- Genmo Mochi 1 — https://github.com/genmoai/models

- Lightricks LTX-Video — https://github.com/Lightricks/LTX-Video

- CogVideoX — https://github.com/THUDM/CogVideo

- Stable Video Diffusion — https://stability.ai/stable-video

- ComfyUI — https://github.com/comfyanonymous/ComfyUI

- HeyGen — https://www.heygen.com/

- Synthesia — https://www.synthesia.io/

- D-ID — https://www.d-id.com/

- Hedra Character-1 — https://www.hedra.com/

- LTX Studio — https://ltx.studio/

- C2PA standard — https://c2pa.org/

- Google SynthID — https://deepmind.google/technologies/synthid/

- EU AI Act overview — https://artificialintelligenceact.eu/