プロローグ — 生成メディアの 3 本目の脚
2022 年の晩夏、私たちは Stable Diffusion で初めて写真のような画像を生成した。2023 年初頭、ChatGPT が書く行為を揺さぶった。2024 年春、Suno と Udio が音楽を渡した。そして 2024 年 12 月、OpenAI が Sora を一般公開し、最後の一脚 — 動画 — が到着した。
動画が最後だったのには単純な理由がある。時間という次元が一つ追加されると、1 フレームのリアリティを確保したモデルでも、シーケンスを通じて一貫性を維持しなければならない。同じ人物の顔、同じ背景の家具、同じ手の指の数。24fps なら 6 秒で 144 フレームだ。その 144 フレームを通り抜けても、人間の目はまだ違和感を覚える — 手が突然増えたり、コップがそっと椅子に変わったり、物理的に不可能なカメラの回転が混じったり。
2026 年春、その問題は「完全に解けた」のではなく、「実用域に入った」。 6 秒の SNS クリップは、ほぼ人の手を介さずに出荷品質に到達する。60 秒の広告は、カット単位で生成し人が編集すれば、1 週間の仕事が 1 日に圧縮される。キャラクターの一貫性は Runway Gen-4 と Sora 2 が「References」を標準化したことで安定し、Veo 3 はネイティブ音声を載せて「無音クリップ → 後付け音響」のワークフロー自体を作り変えた。
本稿は 2026 年 5 月時点の AI ビデオ生成市場全体を — 誰が何を得意とし、何が苦手か、いくらか、どこで使うべきか — 一息で整理する。8 つの主要モデルを 11 の能力ベクトルで比較し、実務的な意思決定フレームワークと著作権論争までを扱う。
1. 生成メディア・トライフェクタ — 動画はなぜ最後だったのか
3 つのメディアのモデル収束タイムラインを並べると、動画が遅れた理由がよくわかる。
| メディア | 最初の「実用域」リリース | 決定的な変曲点 | 6 秒 vs 60 秒の差 |
|---|---|---|---|
| テキスト | 2022-11 ChatGPT | 2023-03 GPT-4 | 実質ない |
| 画像 | 2022-08 SD 1.4 | 2023-07 SDXL、2024-08 FLUX | 1 枚は 1 枚 |
| 音楽 | 2024-04 Suno v3 | 2024-12 Suno v4、Udio | 30 秒 → 4 分は難しくない |
| 動画 | 2024-06 Runway Gen-3 | 2024-12 Sora、2025-05 Veo 3 | 6 秒は簡単、60 秒は難しい |
動画は本質的に難しい理由が 3 つある。
- 時間的一貫性 — 同じ物体がフレーム間で同一の外形と位置分布を維持しなければならない。キャラクターの顔がカット間で微妙にずれると、視聴者は瞬時に気づく。
- モーションのリアルさ — 服、髪、液体、爆発など非剛体モーションが物理法則を破ってはいけない。モデルが「物理直感」を持っている必要がある。
- カメラ制御 — 意図したカメラムーブ(ドリー・トラック・ズーム・クレーン)を指令として渡せなければならない。これがないと映画用ツールにはならない。
3 つすべてを解いたモデルはまだない。だが部分的に解いたモデルは多く、どの問題をどう解いたかが各モデルの個性そのものになった。
2. コンシューマー第 1 段 — Sora 2・Veo 3・Runway Gen-4
2.1 OpenAI Sora 2 — OG の帰還
2024 年 2 月、OpenAI が Sora を発表して全員を驚かせた。最初のデモ(東京を歩く女性)は事実上の映画クリップだった。だが一般公開は遅く、2024-12-09 になってようやく ChatGPT Plus・Pro ユーザー向けに開放され、専用アプリ sora.com も同時に出た。
2026 年春の Sora 2 はそれから大きな更新を 2 回経た。要点:
- 最大 20 秒(Pro 60 秒)、1080p 30fps。
- Storyboard — 1 つのプロンプトから複数カットを同時設計する UI。Sora の象徴。
- Remix・Re-cut・Loop・Blend — 既存クリップに変奏・拡張・結合を加えるツール群。
- Character References — 1 枚の写真または過去クリップからキャラクターを抽出し、次のカットに一貫して登場させる。
- C2PA メタデータ — 出力に出自情報が埋め込まれる。
価格は ChatGPT Plus(20 USD/月)に一定量バンドル、Pro(200 USD/月)で大量バンドル、使用量ベースの追加課金もある。公式 API は 2026 年春時点で一部パートナー限定ベータ。 Sora の強みはプロンプト理解度 — 長く文学的なプロンプトでも意図が崩れない。
弱点はモーションが保守的であること。激しいアクション、爆発、速いカメラムーブで Kling や Hailuo ほど派手に出ない。OpenAI の安全方針がモーションの粗さを削っているとの観測が多い。
2.2 Google Veo 3 — 音声を載せた一撃
2024 年 5 月の Google I/O で Veo 2 が発表され、2025 年 5 月の I/O で Veo 3 が登場した。Veo 3 のヘッドラインは単純だった — 「ビデオに同期音声がネイティブで一緒に生成される」。
これがなぜ大きいか。他のすべてのモデルは無音クリップを吐き、ユーザーが ElevenLabs や Suno で別途音声を作って後編集で合成していた。Veo 3 はシングルパスで:
- 環境音 — 雨音、街の喧騒、風。
- 前景音 — 足音、カップがぶつかる音。
- 対話 — キャラクターの口の動きに同期した音声。
これらを全部生成する。「Pure Imagination」デモ(少年が 1 カットで都市・海・宇宙・恐竜まで移動しながら歌う)が全部を見せた — カメラ・映像・歌が同時生成された。
Veo 3 仕様:
- 8 秒デフォルト、一部経路で 60 秒まで拡張。
- Veo 3.1(2025-10) — 音声品質改善、モーション自然度向上、キャラクター保存強化。
- Gemini アプリ・Vertex AI・Flow からアクセス。Flow は映画監督向け統合ワークフローツール。
- 価格は Gemini Advanced サブスクリプションまたは Vertex AI 使用量ベース。
弱点はプロンプト忠実度 — Sora ほど長く繊細なプロンプトのディテールを全部拾わないという評。また YouTube 出自表示など Google エコシステムに紐付いていて、ChatGPT 中心のユーザーには手が届きにくい。
2.3 Runway Gen-4 — 映像制作の標準ツール
Runway は 2023 年 Gen-1、2024 年 Gen-3 Alpha、そして 2025 年春に Gen-4 を出荷した。Sora と Veo がコンシューマーと B2B の両巨人なら、Runway は現役の映像制作者のツールだ。
Gen-4 の強み:
- References — 人物・ロケーション・オブジェクトの一貫性を保つ標準機能。Sora 2 の Character References より先行し、より成熟。
- Aleph(2025-07) — テキストから動画ではなく、既存動画を編集するモデル。オブジェクトの追加・削除、カメラ角度変更、スタイル変換など。
- Act-Two(2025-07) — 人の短い演技クリップを入力し、その動きをキャラクターに転写するモーションキャプチャー型モデル。
- 5 秒・10 秒標準、1080p、クレジットベース価格。
Runway が現場で根付いた理由は単純だ — 「ワークフローに馴染む」。 Premiere・DaVinci・FCP と相性のよい出力、色空間保存、マスク・キーフレームのインターフェース、そして何より API。広告代理店はパイプラインの最初に Runway を呼ぶ。
弱点はコンシューマー価格。無料枠は事実上ウォーターマーク付きサンプル、本格利用は月 35 USD から始まりすぐ上がる。Sora の「Plus 20 USD で何でもできる」と比較される点。
3. コンシューマー第 2 段 — Pika・Luma
3.1 Pika Labs — Pikaffects の楽しさ
Pika は 2024 年春に Pika 1.0、2024 年秋に Pika 2.0、その後一連のマイナー更新を続けた。2025 年に Pika 2.2、2026 年春時点で Pika 2.5 に到達。
Pika の差別化:
- Pikaffects — モノが爆発したり、ケーキになったり、風船のように膨らんだり、溶けたり、圧縮されたりする視覚効果プリセット群。SNS とミームで爆発的人気。
- Pikadditions — 既存動画に新オブジェクトを合成(友人の隣に犬を追加)。
- Pikaswap — 動画内の 1 オブジェクトを別のものに交換。
- Ingredients — 1 カットに複数のキャラクター・ロケーション・オブジェクト入力を同時に与え、Pika が合成シーンを作る。一貫性の要。
価格は無料枠あり、有料は月 8 USD から。コンシューマー親和性は一番高い。ただしモーション一貫性とフルなフォトリアリズムでは Sora・Veo・Runway より一段落ちる。
3.2 Luma Dream Machine — Ray2/Ray3 + Photon
Luma AI はもともと 3D キャプチャ(Gaussian Splatting) の会社だった。その空間理解の遺産が動画に運ばれて、2024-06 Dream Machine 初出荷、2025-01 Ray2、2025-08 Ray3、同じラインに画像モデル Photon も追加された。
Ray3 の特徴:
- HDR 動画出力 — 通常の SDR ではなく HDR を吐く。後編集のグレーディング余地が広い。
- Frames — 始点フレームと終点フレームを写真で渡し、間を補間する。広告カットに最適。
- Camera Motion — カメラムーブを名前で明示(orbit、dolly、push-in など)。
Photon は Luma の画像モデルで、Dream Machine と連携して「画像 → 動画」のワークフローがきれい。価格は無料枠 + 月 9.99 USD から。
Luma の強みはモーション自然度とカメラムーブ — 3D キャプチャ会社の出自にふさわしい。弱点はプロンプト理解度 — Sora や Veo ほど長く文学的な指示を拾えない。
4. Veo 3 の音声 — 本当に盤を揺らした一手
2025-05 の Google I/O デモで Veo 3 が示したのは一点だ — 「ビデオと音声が同じモデルから一度に出る」。 そこから他の全ベンダーが追走を始めた。
4.1 ネイティブ同期音声がなぜ重要か
旧ワークフロー:
プロンプト -> 動画モデル -> 無音クリップ
-> 音声モデル(Suno、ElevenLabs)
-> 後編集で合成
問題は、足音のタイミング、口の動き、カメラムーブのインパクトを事後に音と合わせるには人間の耳が要ること。6 秒クリップでも人の時間がかかる。
Veo 3 ワークフロー:
プロンプト -> Veo 3 -> ビデオ + 同期音声(1 パス)
足音、ドアを閉める音、環境音、短い対話まで、映像と自動同期した状態で出る。「一人で 60 秒の広告を丸ごと作る」 が可能になった最初の時点。
4.2 他社の対応
- Sora 2: 2025 年秋の更新で部分的な音声生成を開始。まだ環境音中心で対話は限定的。
- Runway: 2025-08 Act-Two で音声・リップシンク機能を一部導入。Veo 3 ほどの完成度はまだ。
- Kling: 2025 年後半に Kling Audio を発表。環境音寄り。
- Hailuo: 効果音ライブラリと統合されたが同期生成ではない。
要約: 2026 年春時点、「ネイティブ同期音声」は Veo 3 の独占的強み。 他社は 1-2 年で追いつくと見られるが、現時点では Veo 3 が広告・コンテンツマーケティング市場の一角を静かに取りに行っている。
5. 中国モデルの波 — Kling・Hailuo
西側メディアの視点から 2024-2025 年で最も衝撃的だったのは、中国モデルがモーションとキャラクターで西側を抜いたという事実だった。
5.1 Kuaishou Kling AI
Kuaishou(快手、中国のショートビデオプラットフォーム)が運営する Kling は 2024-06 にデビュー、2025 年春 Kling 1.6、秋 Kling 2.0、2026 年春時点 Kling 2.1 までに到達。
Kling の強み:
- 激しいモーション — 戦闘、爆発、ビジュアル・エフェクトが派手に出る。Sora が保守的なら Kling は積極的。
- キャラクター一貫性 — 顔の保存が非常に優れ、複数キャラのシーンでも安定。
- 長いクリップ — 5 秒・10 秒標準、Pro で最大 30 秒。
- 物理表現 — 液体・布・髪の非剛体モーションが自然。
価格は無料枠 + 有料(中国国内は CNY、グローバルは USD)。英語 UI が整備され、グローバルユーザーが急増中。
リスク: データ・プライバシー懸念。 米国・EU 企業が社内ワークフローに中国ホストモデルを統合するのは政策的にハードル高め。だが個人クリエイター、インディー映像、SNS 市場では無視できないシェアを取った。
5.2 MiniMax Hailuo AI
MiniMax は 2024 年後半 Hailuo を出して、SNS で短期間に爆発的に広がった。無料枠の寛大さと出力品質のバランスが良かったから。
Hailuo の特徴:
- ミームフレンドリー — キャラクターをコミカルなアクションに乗せるのが強い。TikTok・X に Hailuo クリップが絶え間なく流れた。
- 物理リアリズム — アクションシーンでカメラのインパクトが自然に響く。
- 無料ウォーターマーククリップ — 参入障壁が低い。
2026 年時点で Hailuo は MiniMax-Video-01 シリーズと T2V-01-Director(カメラ明示制御の監督モード)に拡張。価格は無料 + 使用量ベース + サブスクリプションの混成。
5.3 その他の中国モデル
- ByteDance Doubao Seedance — TikTok 親会社の動画モデル。自社プラットフォームに深く統合。
- Alibaba Wan — 一部重みをオープンソース公開。研究者・開発者に影響力。
- Tencent Hunyuan Video — モデルカードと重みを揃えてオープンソース公開。LTX-Video と並びオープンソース陣営の二大柱。
要約: 中国陣営は「オープンソース + 強力な自社クローズドモデル」の両軸で西側を急速に追い上げた。 一部の能力ベクトルでは既に先行している。
6. オープンソース・ローカル現実 — LTX・Mochi・Hunyuan・Wan
2024 年までのオープンソース動画モデルは「楽しいが出荷品質ではない」状態だった。Stable Video Diffusion は 4 秒程度の短いクリップを、AnimateDiff はより短いループを作れたが、実務に乗るレベルではなかった。
2024-12 から風景が変わった。
6.1 Lightricks LTX-Video — オープンソースの反撃
Lightricks は 2024-11 に LTX-Video を公開。最初のインパクトは 2 つだった:
- 速度 — 6 秒クリップを H100 で4 秒で生成。事実上のリアルタイム。
- 品質 — 768p 24fps の出力が Pika や初期 Runway と肩を並べる。
2025 年春に LTX-Video 0.9.5、秋に LTX-Video 13B、2026 年春時点では LoRA・ControlNet を備えたエコシステムが形成された。ComfyUI に標準ノードとして統合され、ゲームスタジオ・アバター企業・VFX 会社が社内ツールに取り込んだ。
6.2 Genmo Mochi 1
Genmo の 2024-10 公開 Mochi 1、2025 年後継 Mochi 1 Plus は 480p 5.4 秒の短いが強いモーションを示した。Apache 2.0 ライセンスで商用利用自由。
6.3 Tencent HunyuanVideo
2024-12 にテンセントが HunyuanVideo の 13B モデル重みを公開。24fps、5 秒出力。クローズドモデル水準に肉薄するリアリズムで衝撃を与えた。
6.4 Alibaba Wan2.1・Wan2.2
2025 年にアリババが Wan 2.1、Wan 2.2 の重みを公開。テキスト・画像・動画のマルチモーダル群で、動画側はクローズドモデルと比べて弱点が少ない。
6.5 Stability AI — オープンソースの先駆者、だが
Stability AI の Stable Video Diffusion は 2023 年 11 月公開で一時オープンソース動画の代表だったが、2026 年時点では事実上 LTX・Hunyuan・Mochi・Wan に席を譲った。Stability の事業上の苦境と新モデル出荷の鈍化が重なった。
6.6 ローカル実行の現実
オープンソースモデルを実際に自宅 PC で回すなら:
| モデル | VRAM(最低) | VRAM(推奨) | クリップ長 | 生成時間(H100) |
|---|---|---|---|---|
| LTX-Video 13B | 16GB | 24GB | 6 秒 | 4-8 秒 |
| Mochi 1 | 24GB | 48GB | 5.4 秒 | 60-120 秒 |
| HunyuanVideo | 60GB | 80GB | 5 秒 | 60-180 秒 |
| Wan 2.2 | 24GB | 48GB | 5 秒 | 30-90 秒 |
コンシューマー GPU(RTX 4090 24GB)で実用域にあるのは事実上 LTX-Video のみ。他は H100・A100 クラスのサーバーを借りる必要がある。だから ComfyUI を RunPod・Modal・Replicate に立てて時間課金するワークフローが標準になった。
7. 特殊用途 — トーキングヘッド・リップシンクの専門家
動画生成市場には一般モデルと別の流れが一本ある。人の顔・リップシンク・アバター動画だけを専門にするツール群だ。
7.1 HeyGen
- 200 を超えるアバター、40+ 言語の音声。
- 自分の写真と音声サンプルからデジタル・ツインを作れる。
- 動画の口を別言語に再リップシンク(翻訳ダビング)。
- 企業マーケティング・トレーニング動画で圧倒的シェア。
7.2 D-ID
- 静止人物写真を喋るヘッドに変換。
- 高速・低価格・API フレンドリー。
- e ラーニング素材・説明動画の定番。
7.3 Synthesia
- 企業の社員教育・オンボーディング動画の標準。
- スクリプト入力 → アバターがそのスクリプトを演じる。
- B2B SaaS として定着、価格帯も企業向け。
このカテゴリは Sora・Veo・Runway などの一般モデルが侵入しにくい。 理由はドメイン特化 — リップシンク精度、多言語ダビングワークフロー、企業セキュリティ認証(SOC 2、HIPAA)、ブランド一貫性ツール — これらが一般モデルには無い。
8. 能力・製品マトリックス — 1 ページ比較
| 能力 / モデル | Sora 2 | Veo 3 | Gen-4 | Pika 2.5 | Kling 2.1 | Luma Ray3 | Hailuo | LTX 13B |
|---|---|---|---|---|---|---|---|---|
| 最大長 | 60s | 60s | 10s | 10s | 30s | 10s | 10s | 8s |
| 解像度 | 1080p | 1080p | 1080p | 1080p | 1080p | HDR | 720p | 768p |
| ネイティブ音声 | 部分 | 強力 | 部分 | 部分 | 部分 | なし | ライブラリ | なし |
| モーション強度 | 中 | 中 | 中 | 中 | 強 | 中 | 強 | 中 |
| キャラクター一貫性 | 強 | 強 | 非常強 | 中 | 非常強 | 中 | 中 | 弱 |
| カメラ制御 | 強 | 中 | 非常強 | 弱 | 中 | 非常強 | 強 | 中 |
| プロンプト忠実度 | 非常強 | 強 | 強 | 中 | 中 | 中 | 中 | 中 |
| コンテキスト内編集 | Storyboard | Flow | Aleph | Pikaffects | 弱 | Frames | 弱 | LoRA |
| API 提供 | ベータ | Vertex AI | 正式 | 正式 | 正式 | 正式 | 正式 | セルフホスト |
| 無料枠 | なし | 限定 | ウォーターマーク | あり | あり | あり | あり | 無料 |
| 開始価格(USD/月) | 20 | Gemini Adv. | 35 | 8 | 使用量 | 9.99 | 使用量 | 0 |
「非常強 / 強 / 中 / 弱」は 2026 年 5 月時点の一般評価の定性的サマリ。モデル更新が頻繁で 1-2 リリースで順位が変わる。
9. 意思決定フレームワーク — どの道具をいつ使うか
9.1 一行回答
- 6-10 秒の SNS クリップ、キャラクター一貫性重要 -> Kling または Sora 2。
- 30-60 秒の広告・マーケ動画、音声込み -> Veo 3。
- 映画・CF の後編集パイプライン統合ツール -> Runway Gen-4。
- 友人・家族と遊ぶコンシューマー動画、価格敏感 -> Pika。
- トーキングヘッド、多言語ダビング -> HeyGen。
- 社内データセキュリティ必須、ローカル実行 -> LTX-Video。
- 個人実験・ハッカソン・研究 -> Hunyuan / Wan / Mochi(オープンソース)。
- 3D 空間感・HDR 出力が重要 -> Luma Ray3。
9.2 意思決定ツリー
Q1. 社内セキュリティ・著作権の理由で外部 API が使えないか?
Yes -> LTX・Hunyuan・Wan セルフホスト(課題: GPU コスト)
No -> Q2
Q2. 音声が動画と同期して一度に出る必要があるか?
Yes -> Veo 3(現状ほぼ独占)
No -> Q3
Q3. 同じキャラクター/場所が複数カットに登場するか?
Yes -> Runway Gen-4(References)または Sora 2(Character Refs)または Kling
No -> Q4
Q4. 激しいアクション・物理モーションが核心か?
Yes -> Kling または Hailuo
No -> Q5
Q5. トーキングヘッド・多言語ダビングか?
Yes -> HeyGen / Synthesia
No -> Q6
Q6. 価格が最大の制約か?
Yes -> Pika / Hailuo 無料枠 / LTX-Video ローカル
No -> Sora 2 または Runway Gen-4(デフォルト安全選択)
9.3 ワークフロー・パターン
実務で 1 モデルだけ使うことはほぼない。よく見る組み合わせ:
- 30 秒広告 — Veo 3 でメインカット、Runway Aleph で色味補正・ロゴ合成、ElevenLabs でダブを補強。
- 3 分ミュージックビデオ — Suno で曲、Midjourney でコンセプト静止画、Runway Gen-4 で 5-10 秒カット × 20 本、DaVinci Resolve で編集。
- インフルエンサーのデイリー動画 — 本人セルフィー動画 + HeyGen 多言語ダブ + Pika でカット間トランジション。
- インディー短編映画 — Sora Storyboard でカット設計、Runway Gen-4 でメインカット + キャラクター一貫性、Hunyuan で補助カット(コスト削減)、Adobe Premiere で編集。
10. 著作権・表現倫理 — まだ解けない結び目
10.1 学習データ論争
音楽(Suno と Udio が RIAA に提訴された)と画像(Getty Images vs Stability)に続き、動画モデル会社も学習データの出自を追及されている。2025 年の 1 年で:
- 米国・EU の複数の映像コンテンツ企業が OpenAI・Runway・Pika を相手にディスカバリ・法的レビューを開始。
- 一部企業(特に広告代理店)が 「学習データの出自が同意済みのモデルのみ使用」 ポリシーを導入。
- Adobe Firefly Video は 「Adobe Stock + ライセンス済みコンテンツのみで学習」 をマーケポイントとして強調。
10.2 ディープフェイクと人格権
動画は画像・音声よりも人格権侵害ポテンシャルが大きい。2024-2025 年の政治家・芸能人ディープフェイク事件が続き、EU AI Act は 「AI 生成動画のラベリング義務」 を明記。米国は州ごとに異なる法が整備されつつある。
主要モデル会社の対応:
- C2PA メタデータ埋め込み — Sora、Veo、Runway がすべて出力に出自を刻む。
- 顔認識制限 — 著名人名を含むプロンプトを拒否。
- 選挙関連フィルター — 候補者名・政治スローガンの動作を制限。
10.3 労働市場への影響
VFX アーティスト、アニメーター、広告映像制作者が最速で影響を受けた。2024-2025 年米国広告業界の一部下請けで 30-40% の外注カット単価下落 が報告された。一方で新職種 — 「AI 映像ディレクター」「動画用プロンプトエンジニア」 — も生まれた。
10.4 我々がすべきこと
- 出自明示 — 自社コンテンツに AI 使用を明確に表示。
- 人格権尊重 — 本人同意なしの顔使用は禁止。
- 著作権クリーンモデル優先 — Adobe Firefly Video、もしくは明確にライセンスされたデータで学習されたモデルを優先。
- C2PA 保全 — 出力に刻まれたメタデータを後編集で意図的に消さない。
エピローグ — 映像が言語になった
出荷前チェックリスト
- クリップは単一カットか複数カットか — 複数なら References / Storyboard を活用。
- キャラクター・場所の一貫性を検証したか。
- モーションが意図したカメラムーブに従っているか。
- 音声は必要か — Veo 3 シングルパス vs 後編集分離。
- 出力解像度・フレームレートが後編集パイプラインと互換か。
- C2PA メタデータが保全されているか。
- 外部データ・実在人物・ブランドロゴが含まれる場合、権利確認済みか。
- モデル利用規約(商用利用可否)を確認したか。
- 最終動画での AI 生成の表記方法を決めたか。
- バックアップ — オリジナルのプロンプト・シード・中間出力を保存。
アンチパターン 10
- 1 モデル 1 ツールだけに固執して弱点補完をしない。
- キャラクター一貫性ツール(References)を使わず毎カットで同じ人物を再生成。
- 無音クリップを作って毎回後編集で音を別合成(Veo 3 を使わない)。
- 6 秒クリップを 24 本繋いで 1 分に — カット間のジャンプが視聴者に見える。
- 激しいモーションが必要なのに Sora に固執して保守的出力を受ける。
- トーキングヘッドに一般モデルを使う — HeyGen の方がはるかに正確。
- オープンソースをノート PC で回そうとして時間を浪費 — クラウド GPU を借りるべき。
- 学習データのライセンスを確認せず広告に使い、クライアントから拒否される。
- カメラムーブをテキストで明示せず、モデル任せのモーションに依存。
- 最初の出力が気に入らなくてもシード・プロンプトを丹念に回さない。
次の記事予告
次の記事候補: Veo 3 広告ワークフロー — 60 秒の広告を一人で作る、Runway Gen-4 References 実戦 — キャラクター一貫性を掴む 5 つのコツ、ローカル動画生成セットアップガイド — ComfyUI + LTX-Video を RTX 4090 で。
「テキストで書かれた物語が絵になり、絵に音がつき、いまそれが動く。映像は言語になった — そして私たちは新しい文法を学んでいる。」
— AI ビデオ生成 2026、終わり。
参考 / References
- OpenAI Sora 公式
- Sora 利用ガイド
- Sora 2 発表ブログ
- Google Veo 3 公式ページ
- Veo 3 Vertex AI ドキュメント
- Google Flow — 動画制作ツール
- Runway 公式
- Runway Gen-4 発表
- Runway Aleph
- Pika 公式
- Pika 2.0 ブログ
- Kuaishou Kling AI
- MiniMax Hailuo AI
- Luma Dream Machine
- Luma Ray2 発表
- Lightricks LTX-Video
- LTX-Video GitHub
- Tencent HunyuanVideo
- Alibaba Wan モデル
- Genmo Mochi 1
- Stability AI — Stable Video Diffusion
- HeyGen 公式
- D-ID 公式
- Synthesia 公式
- Adobe Firefly Video
- C2PA — コンテンツ出自標準
- EU AI Act — 生成 AI ラベリング規定
- Will Smith Spaghetti — AI 動画進化のミーム
현재 단락 (1/230)
2022 年の晩夏、私たちは Stable Diffusion で初めて写真のような画像を生成した。2023 年初頭、ChatGPT が書く行為を揺さぶった。2024 年春、Suno と Udio が...