Skip to content

✍️ 필사 모드: AI ビデオ生成 2026 — Sora 2・Veo 3・Runway Gen-4・Pika・Kling・Luma・Hailuo・LTX 徹底比較ガイド

日本語
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

プロローグ — 生成メディアの 3 本目の脚

2022 年の晩夏、私たちは Stable Diffusion で初めて写真のような画像を生成した。2023 年初頭、ChatGPT が書く行為を揺さぶった。2024 年春、Suno と Udio が音楽を渡した。そして 2024 年 12 月、OpenAI が Sora を一般公開し、最後の一脚 — 動画 — が到着した。

動画が最後だったのには単純な理由がある。時間という次元が一つ追加されると、1 フレームのリアリティを確保したモデルでも、シーケンスを通じて一貫性を維持しなければならない。同じ人物の顔、同じ背景の家具、同じ手の指の数。24fps なら 6 秒で 144 フレームだ。その 144 フレームを通り抜けても、人間の目はまだ違和感を覚える — 手が突然増えたり、コップがそっと椅子に変わったり、物理的に不可能なカメラの回転が混じったり。

2026 年春、その問題は「完全に解けた」のではなく、「実用域に入った」。 6 秒の SNS クリップは、ほぼ人の手を介さずに出荷品質に到達する。60 秒の広告は、カット単位で生成し人が編集すれば、1 週間の仕事が 1 日に圧縮される。キャラクターの一貫性は Runway Gen-4 と Sora 2 が「References」を標準化したことで安定し、Veo 3 はネイティブ音声を載せて「無音クリップ → 後付け音響」のワークフロー自体を作り変えた。

本稿は 2026 年 5 月時点の AI ビデオ生成市場全体を — 誰が何を得意とし、何が苦手か、いくらか、どこで使うべきか — 一息で整理する。8 つの主要モデルを 11 の能力ベクトルで比較し、実務的な意思決定フレームワークと著作権論争までを扱う。


1. 生成メディア・トライフェクタ — 動画はなぜ最後だったのか

3 つのメディアのモデル収束タイムラインを並べると、動画が遅れた理由がよくわかる。

メディア最初の「実用域」リリース決定的な変曲点6 秒 vs 60 秒の差
テキスト2022-11 ChatGPT2023-03 GPT-4実質ない
画像2022-08 SD 1.42023-07 SDXL、2024-08 FLUX1 枚は 1 枚
音楽2024-04 Suno v32024-12 Suno v4、Udio30 秒 → 4 分は難しくない
動画2024-06 Runway Gen-32024-12 Sora、2025-05 Veo 36 秒は簡単、60 秒は難しい

動画は本質的に難しい理由が 3 つある。

  1. 時間的一貫性 — 同じ物体がフレーム間で同一の外形と位置分布を維持しなければならない。キャラクターの顔がカット間で微妙にずれると、視聴者は瞬時に気づく。
  2. モーションのリアルさ — 服、髪、液体、爆発など非剛体モーションが物理法則を破ってはいけない。モデルが「物理直感」を持っている必要がある。
  3. カメラ制御 — 意図したカメラムーブ(ドリー・トラック・ズーム・クレーン)を指令として渡せなければならない。これがないと映画用ツールにはならない。

3 つすべてを解いたモデルはまだない。だが部分的に解いたモデルは多く、どの問題をどう解いたかが各モデルの個性そのものになった。


2. コンシューマー第 1 段 — Sora 2・Veo 3・Runway Gen-4

2.1 OpenAI Sora 2 — OG の帰還

2024 年 2 月、OpenAI が Sora を発表して全員を驚かせた。最初のデモ(東京を歩く女性)は事実上の映画クリップだった。だが一般公開は遅く、2024-12-09 になってようやく ChatGPT Plus・Pro ユーザー向けに開放され、専用アプリ sora.com も同時に出た。

2026 年春の Sora 2 はそれから大きな更新を 2 回経た。要点:

  • 最大 20 秒(Pro 60 秒)、1080p 30fps。
  • Storyboard — 1 つのプロンプトから複数カットを同時設計する UI。Sora の象徴。
  • Remix・Re-cut・Loop・Blend — 既存クリップに変奏・拡張・結合を加えるツール群。
  • Character References — 1 枚の写真または過去クリップからキャラクターを抽出し、次のカットに一貫して登場させる。
  • C2PA メタデータ — 出力に出自情報が埋め込まれる。

価格は ChatGPT Plus(20 USD/月)に一定量バンドル、Pro(200 USD/月)で大量バンドル、使用量ベースの追加課金もある。公式 API は 2026 年春時点で一部パートナー限定ベータ。 Sora の強みはプロンプト理解度 — 長く文学的なプロンプトでも意図が崩れない。

弱点はモーションが保守的であること。激しいアクション、爆発、速いカメラムーブで Kling や Hailuo ほど派手に出ない。OpenAI の安全方針がモーションの粗さを削っているとの観測が多い。

2.2 Google Veo 3 — 音声を載せた一撃

2024 年 5 月の Google I/O で Veo 2 が発表され、2025 年 5 月の I/O で Veo 3 が登場した。Veo 3 のヘッドラインは単純だった — 「ビデオに同期音声がネイティブで一緒に生成される」。

これがなぜ大きいか。他のすべてのモデルは無音クリップを吐き、ユーザーが ElevenLabs や Suno で別途音声を作って後編集で合成していた。Veo 3 はシングルパスで:

  • 環境音 — 雨音、街の喧騒、風。
  • 前景音 — 足音、カップがぶつかる音。
  • 対話 — キャラクターの口の動きに同期した音声。

これらを全部生成する。「Pure Imagination」デモ(少年が 1 カットで都市・海・宇宙・恐竜まで移動しながら歌う)が全部を見せた — カメラ・映像・歌が同時生成された。

Veo 3 仕様:

  • 8 秒デフォルト、一部経路で 60 秒まで拡張。
  • Veo 3.1(2025-10) — 音声品質改善、モーション自然度向上、キャラクター保存強化。
  • Gemini アプリ・Vertex AI・Flow からアクセス。Flow は映画監督向け統合ワークフローツール。
  • 価格は Gemini Advanced サブスクリプションまたは Vertex AI 使用量ベース。

弱点はプロンプト忠実度 — Sora ほど長く繊細なプロンプトのディテールを全部拾わないという評。また YouTube 出自表示など Google エコシステムに紐付いていて、ChatGPT 中心のユーザーには手が届きにくい。

2.3 Runway Gen-4 — 映像制作の標準ツール

Runway は 2023 年 Gen-1、2024 年 Gen-3 Alpha、そして 2025 年春に Gen-4 を出荷した。Sora と Veo がコンシューマーと B2B の両巨人なら、Runway は現役の映像制作者のツールだ。

Gen-4 の強み:

  • References — 人物・ロケーション・オブジェクトの一貫性を保つ標準機能。Sora 2 の Character References より先行し、より成熟。
  • Aleph(2025-07) — テキストから動画ではなく、既存動画を編集するモデル。オブジェクトの追加・削除、カメラ角度変更、スタイル変換など。
  • Act-Two(2025-07) — 人の短い演技クリップを入力し、その動きをキャラクターに転写するモーションキャプチャー型モデル。
  • 5 秒・10 秒標準、1080p、クレジットベース価格。

Runway が現場で根付いた理由は単純だ — 「ワークフローに馴染む」。 Premiere・DaVinci・FCP と相性のよい出力、色空間保存、マスク・キーフレームのインターフェース、そして何より API。広告代理店はパイプラインの最初に Runway を呼ぶ。

弱点はコンシューマー価格。無料枠は事実上ウォーターマーク付きサンプル、本格利用は月 35 USD から始まりすぐ上がる。Sora の「Plus 20 USD で何でもできる」と比較される点。


3. コンシューマー第 2 段 — Pika・Luma

3.1 Pika Labs — Pikaffects の楽しさ

Pika は 2024 年春に Pika 1.0、2024 年秋に Pika 2.0、その後一連のマイナー更新を続けた。2025 年に Pika 2.2、2026 年春時点で Pika 2.5 に到達。

Pika の差別化:

  • Pikaffects — モノが爆発したり、ケーキになったり、風船のように膨らんだり、溶けたり、圧縮されたりする視覚効果プリセット群。SNS とミームで爆発的人気。
  • Pikadditions — 既存動画に新オブジェクトを合成(友人の隣に犬を追加)。
  • Pikaswap — 動画内の 1 オブジェクトを別のものに交換。
  • Ingredients — 1 カットに複数のキャラクター・ロケーション・オブジェクト入力を同時に与え、Pika が合成シーンを作る。一貫性の要。

価格は無料枠あり、有料は月 8 USD から。コンシューマー親和性は一番高い。ただしモーション一貫性フルなフォトリアリズムでは Sora・Veo・Runway より一段落ちる。

3.2 Luma Dream Machine — Ray2/Ray3 + Photon

Luma AI はもともと 3D キャプチャ(Gaussian Splatting) の会社だった。その空間理解の遺産が動画に運ばれて、2024-06 Dream Machine 初出荷、2025-01 Ray2、2025-08 Ray3、同じラインに画像モデル Photon も追加された。

Ray3 の特徴:

  • HDR 動画出力 — 通常の SDR ではなく HDR を吐く。後編集のグレーディング余地が広い。
  • Frames — 始点フレームと終点フレームを写真で渡し、間を補間する。広告カットに最適。
  • Camera Motion — カメラムーブを名前で明示(orbit、dolly、push-in など)。

Photon は Luma の画像モデルで、Dream Machine と連携して「画像 → 動画」のワークフローがきれい。価格は無料枠 + 月 9.99 USD から。

Luma の強みはモーション自然度とカメラムーブ — 3D キャプチャ会社の出自にふさわしい。弱点はプロンプト理解度 — Sora や Veo ほど長く文学的な指示を拾えない。


4. Veo 3 の音声 — 本当に盤を揺らした一手

2025-05 の Google I/O デモで Veo 3 が示したのは一点だ — 「ビデオと音声が同じモデルから一度に出る」。 そこから他の全ベンダーが追走を始めた。

4.1 ネイティブ同期音声がなぜ重要か

旧ワークフロー:

プロンプト -> 動画モデル -> 無音クリップ
                       -> 音声モデル(Suno、ElevenLabs)
                       -> 後編集で合成

問題は、足音のタイミング、口の動き、カメラムーブのインパクトを事後に音と合わせるには人間の耳が要ること。6 秒クリップでも人の時間がかかる。

Veo 3 ワークフロー:

プロンプト -> Veo 3 -> ビデオ + 同期音声(1 パス)

足音、ドアを閉める音、環境音、短い対話まで、映像と自動同期した状態で出る。「一人で 60 秒の広告を丸ごと作る」 が可能になった最初の時点。

4.2 他社の対応

  • Sora 2: 2025 年秋の更新で部分的な音声生成を開始。まだ環境音中心で対話は限定的。
  • Runway: 2025-08 Act-Two で音声・リップシンク機能を一部導入。Veo 3 ほどの完成度はまだ。
  • Kling: 2025 年後半に Kling Audio を発表。環境音寄り。
  • Hailuo: 効果音ライブラリと統合されたが同期生成ではない。

要約: 2026 年春時点、「ネイティブ同期音声」は Veo 3 の独占的強み。 他社は 1-2 年で追いつくと見られるが、現時点では Veo 3 が広告・コンテンツマーケティング市場の一角を静かに取りに行っている。


5. 中国モデルの波 — Kling・Hailuo

西側メディアの視点から 2024-2025 年で最も衝撃的だったのは、中国モデルがモーションとキャラクターで西側を抜いたという事実だった。

5.1 Kuaishou Kling AI

Kuaishou(快手、中国のショートビデオプラットフォーム)が運営する Kling は 2024-06 にデビュー、2025 年春 Kling 1.6、秋 Kling 2.0、2026 年春時点 Kling 2.1 までに到達。

Kling の強み:

  • 激しいモーション — 戦闘、爆発、ビジュアル・エフェクトが派手に出る。Sora が保守的なら Kling は積極的。
  • キャラクター一貫性 — 顔の保存が非常に優れ、複数キャラのシーンでも安定。
  • 長いクリップ — 5 秒・10 秒標準、Pro で最大 30 秒。
  • 物理表現 — 液体・布・髪の非剛体モーションが自然。

価格は無料枠 + 有料(中国国内は CNY、グローバルは USD)。英語 UI が整備され、グローバルユーザーが急増中。

リスク: データ・プライバシー懸念。 米国・EU 企業が社内ワークフローに中国ホストモデルを統合するのは政策的にハードル高め。だが個人クリエイター、インディー映像、SNS 市場では無視できないシェアを取った。

5.2 MiniMax Hailuo AI

MiniMax は 2024 年後半 Hailuo を出して、SNS で短期間に爆発的に広がった。無料枠の寛大さと出力品質のバランスが良かったから。

Hailuo の特徴:

  • ミームフレンドリー — キャラクターをコミカルなアクションに乗せるのが強い。TikTok・X に Hailuo クリップが絶え間なく流れた。
  • 物理リアリズム — アクションシーンでカメラのインパクトが自然に響く。
  • 無料ウォーターマーククリップ — 参入障壁が低い。

2026 年時点で Hailuo は MiniMax-Video-01 シリーズと T2V-01-Director(カメラ明示制御の監督モード)に拡張。価格は無料 + 使用量ベース + サブスクリプションの混成。

5.3 その他の中国モデル

  • ByteDance Doubao Seedance — TikTok 親会社の動画モデル。自社プラットフォームに深く統合。
  • Alibaba Wan — 一部重みをオープンソース公開。研究者・開発者に影響力。
  • Tencent Hunyuan Video — モデルカードと重みを揃えてオープンソース公開。LTX-Video と並びオープンソース陣営の二大柱。

要約: 中国陣営は「オープンソース + 強力な自社クローズドモデル」の両軸で西側を急速に追い上げた。 一部の能力ベクトルでは既に先行している。


6. オープンソース・ローカル現実 — LTX・Mochi・Hunyuan・Wan

2024 年までのオープンソース動画モデルは「楽しいが出荷品質ではない」状態だった。Stable Video Diffusion は 4 秒程度の短いクリップを、AnimateDiff はより短いループを作れたが、実務に乗るレベルではなかった。

2024-12 から風景が変わった。

6.1 Lightricks LTX-Video — オープンソースの反撃

Lightricks は 2024-11 に LTX-Video を公開。最初のインパクトは 2 つだった:

  1. 速度 — 6 秒クリップを H100 で4 秒で生成。事実上のリアルタイム。
  2. 品質 — 768p 24fps の出力が Pika や初期 Runway と肩を並べる。

2025 年春に LTX-Video 0.9.5、秋に LTX-Video 13B、2026 年春時点では LoRA・ControlNet を備えたエコシステムが形成された。ComfyUI に標準ノードとして統合され、ゲームスタジオ・アバター企業・VFX 会社が社内ツールに取り込んだ。

6.2 Genmo Mochi 1

Genmo の 2024-10 公開 Mochi 1、2025 年後継 Mochi 1 Plus は 480p 5.4 秒の短いが強いモーションを示した。Apache 2.0 ライセンスで商用利用自由。

6.3 Tencent HunyuanVideo

2024-12 にテンセントが HunyuanVideo の 13B モデル重みを公開。24fps、5 秒出力。クローズドモデル水準に肉薄するリアリズムで衝撃を与えた。

6.4 Alibaba Wan2.1・Wan2.2

2025 年にアリババが Wan 2.1Wan 2.2 の重みを公開。テキスト・画像・動画のマルチモーダル群で、動画側はクローズドモデルと比べて弱点が少ない。

6.5 Stability AI — オープンソースの先駆者、だが

Stability AI の Stable Video Diffusion は 2023 年 11 月公開で一時オープンソース動画の代表だったが、2026 年時点では事実上 LTX・Hunyuan・Mochi・Wan に席を譲った。Stability の事業上の苦境と新モデル出荷の鈍化が重なった。

6.6 ローカル実行の現実

オープンソースモデルを実際に自宅 PC で回すなら:

モデルVRAM(最低)VRAM(推奨)クリップ長生成時間(H100)
LTX-Video 13B16GB24GB6 秒4-8 秒
Mochi 124GB48GB5.4 秒60-120 秒
HunyuanVideo60GB80GB5 秒60-180 秒
Wan 2.224GB48GB5 秒30-90 秒

コンシューマー GPU(RTX 4090 24GB)で実用域にあるのは事実上 LTX-Video のみ。他は H100・A100 クラスのサーバーを借りる必要がある。だから ComfyUI を RunPod・Modal・Replicate に立てて時間課金するワークフローが標準になった。


7. 特殊用途 — トーキングヘッド・リップシンクの専門家

動画生成市場には一般モデルと別の流れが一本ある。人の顔・リップシンク・アバター動画だけを専門にするツール群だ。

7.1 HeyGen

  • 200 を超えるアバター、40+ 言語の音声。
  • 自分の写真と音声サンプルからデジタル・ツインを作れる。
  • 動画の口を別言語に再リップシンク(翻訳ダビング)。
  • 企業マーケティング・トレーニング動画で圧倒的シェア。

7.2 D-ID

  • 静止人物写真を喋るヘッドに変換。
  • 高速・低価格・API フレンドリー。
  • e ラーニング素材・説明動画の定番。

7.3 Synthesia

  • 企業の社員教育・オンボーディング動画の標準。
  • スクリプト入力 → アバターがそのスクリプトを演じる。
  • B2B SaaS として定着、価格帯も企業向け。

このカテゴリは Sora・Veo・Runway などの一般モデルが侵入しにくい。 理由はドメイン特化 — リップシンク精度、多言語ダビングワークフロー、企業セキュリティ認証(SOC 2、HIPAA)、ブランド一貫性ツール — これらが一般モデルには無い。


8. 能力・製品マトリックス — 1 ページ比較

能力 / モデルSora 2Veo 3Gen-4Pika 2.5Kling 2.1Luma Ray3HailuoLTX 13B
最大長60s60s10s10s30s10s10s8s
解像度1080p1080p1080p1080p1080pHDR720p768p
ネイティブ音声部分強力部分部分部分なしライブラリなし
モーション強度
キャラクター一貫性非常強非常強
カメラ制御非常強非常強
プロンプト忠実度非常強
コンテキスト内編集StoryboardFlowAlephPikaffectsFramesLoRA
API 提供ベータVertex AI正式正式正式正式正式セルフホスト
無料枠なし限定ウォーターマークありありありあり無料
開始価格(USD/月)20Gemini Adv.358使用量9.99使用量0

「非常強 / 強 / 中 / 弱」は 2026 年 5 月時点の一般評価の定性的サマリ。モデル更新が頻繁で 1-2 リリースで順位が変わる。


9. 意思決定フレームワーク — どの道具をいつ使うか

9.1 一行回答

  • 6-10 秒の SNS クリップ、キャラクター一貫性重要 -> Kling または Sora 2。
  • 30-60 秒の広告・マーケ動画、音声込み -> Veo 3。
  • 映画・CF の後編集パイプライン統合ツール -> Runway Gen-4。
  • 友人・家族と遊ぶコンシューマー動画、価格敏感 -> Pika。
  • トーキングヘッド、多言語ダビング -> HeyGen。
  • 社内データセキュリティ必須、ローカル実行 -> LTX-Video。
  • 個人実験・ハッカソン・研究 -> Hunyuan / Wan / Mochi(オープンソース)。
  • 3D 空間感・HDR 出力が重要 -> Luma Ray3。

9.2 意思決定ツリー

Q1. 社内セキュリティ・著作権の理由で外部 API が使えないか?
  Yes -> LTX・Hunyuan・Wan セルフホスト(課題: GPU コスト)
  No -> Q2

Q2. 音声が動画と同期して一度に出る必要があるか?
  Yes -> Veo 3(現状ほぼ独占)
  No -> Q3

Q3. 同じキャラクター/場所が複数カットに登場するか?
  Yes -> Runway Gen-4(References)または Sora 2(Character Refs)または Kling
  No -> Q4

Q4. 激しいアクション・物理モーションが核心か?
  Yes -> Kling または Hailuo
  No -> Q5

Q5. トーキングヘッド・多言語ダビングか?
  Yes -> HeyGen / Synthesia
  No -> Q6

Q6. 価格が最大の制約か?
  Yes -> Pika / Hailuo 無料枠 / LTX-Video ローカル
  No -> Sora 2 または Runway Gen-4(デフォルト安全選択)

9.3 ワークフロー・パターン

実務で 1 モデルだけ使うことはほぼない。よく見る組み合わせ:

  • 30 秒広告 — Veo 3 でメインカット、Runway Aleph で色味補正・ロゴ合成、ElevenLabs でダブを補強。
  • 3 分ミュージックビデオ — Suno で曲、Midjourney でコンセプト静止画、Runway Gen-4 で 5-10 秒カット × 20 本、DaVinci Resolve で編集。
  • インフルエンサーのデイリー動画 — 本人セルフィー動画 + HeyGen 多言語ダブ + Pika でカット間トランジション。
  • インディー短編映画 — Sora Storyboard でカット設計、Runway Gen-4 でメインカット + キャラクター一貫性、Hunyuan で補助カット(コスト削減)、Adobe Premiere で編集。

10. 著作権・表現倫理 — まだ解けない結び目

10.1 学習データ論争

音楽(Suno と Udio が RIAA に提訴された)と画像(Getty Images vs Stability)に続き、動画モデル会社も学習データの出自を追及されている。2025 年の 1 年で:

  • 米国・EU の複数の映像コンテンツ企業が OpenAI・Runway・Pika を相手にディスカバリ・法的レビューを開始。
  • 一部企業(特に広告代理店)が 「学習データの出自が同意済みのモデルのみ使用」 ポリシーを導入。
  • Adobe Firefly Video は 「Adobe Stock + ライセンス済みコンテンツのみで学習」 をマーケポイントとして強調。

10.2 ディープフェイクと人格権

動画は画像・音声よりも人格権侵害ポテンシャルが大きい。2024-2025 年の政治家・芸能人ディープフェイク事件が続き、EU AI Act は 「AI 生成動画のラベリング義務」 を明記。米国は州ごとに異なる法が整備されつつある。

主要モデル会社の対応:

  • C2PA メタデータ埋め込み — Sora、Veo、Runway がすべて出力に出自を刻む。
  • 顔認識制限 — 著名人名を含むプロンプトを拒否。
  • 選挙関連フィルター — 候補者名・政治スローガンの動作を制限。

10.3 労働市場への影響

VFX アーティスト、アニメーター、広告映像制作者が最速で影響を受けた。2024-2025 年米国広告業界の一部下請けで 30-40% の外注カット単価下落 が報告された。一方で新職種 — 「AI 映像ディレクター」「動画用プロンプトエンジニア」 — も生まれた。

10.4 我々がすべきこと

  • 出自明示 — 自社コンテンツに AI 使用を明確に表示。
  • 人格権尊重 — 本人同意なしの顔使用は禁止。
  • 著作権クリーンモデル優先 — Adobe Firefly Video、もしくは明確にライセンスされたデータで学習されたモデルを優先。
  • C2PA 保全 — 出力に刻まれたメタデータを後編集で意図的に消さない。

エピローグ — 映像が言語になった

出荷前チェックリスト

  • クリップは単一カットか複数カットか — 複数なら References / Storyboard を活用。
  • キャラクター・場所の一貫性を検証したか。
  • モーションが意図したカメラムーブに従っているか。
  • 音声は必要か — Veo 3 シングルパス vs 後編集分離。
  • 出力解像度・フレームレートが後編集パイプラインと互換か。
  • C2PA メタデータが保全されているか。
  • 外部データ・実在人物・ブランドロゴが含まれる場合、権利確認済みか。
  • モデル利用規約(商用利用可否)を確認したか。
  • 最終動画での AI 生成の表記方法を決めたか。
  • バックアップ — オリジナルのプロンプト・シード・中間出力を保存。

アンチパターン 10

  1. 1 モデル 1 ツールだけに固執して弱点補完をしない。
  2. キャラクター一貫性ツール(References)を使わず毎カットで同じ人物を再生成。
  3. 無音クリップを作って毎回後編集で音を別合成(Veo 3 を使わない)。
  4. 6 秒クリップを 24 本繋いで 1 分に — カット間のジャンプが視聴者に見える。
  5. 激しいモーションが必要なのに Sora に固執して保守的出力を受ける。
  6. トーキングヘッドに一般モデルを使う — HeyGen の方がはるかに正確。
  7. オープンソースをノート PC で回そうとして時間を浪費 — クラウド GPU を借りるべき。
  8. 学習データのライセンスを確認せず広告に使い、クライアントから拒否される。
  9. カメラムーブをテキストで明示せず、モデル任せのモーションに依存。
  10. 最初の出力が気に入らなくてもシード・プロンプトを丹念に回さない。

次の記事予告

次の記事候補: Veo 3 広告ワークフロー — 60 秒の広告を一人で作るRunway Gen-4 References 実戦 — キャラクター一貫性を掴む 5 つのコツローカル動画生成セットアップガイド — ComfyUI + LTX-Video を RTX 4090 で

「テキストで書かれた物語が絵になり、絵に音がつき、いまそれが動く。映像は言語になった — そして私たちは新しい文法を学んでいる。」

— AI ビデオ生成 2026、終わり。


参考 / References

현재 단락 (1/230)

2022 年の晩夏、私たちは Stable Diffusion で初めて写真のような画像を生成した。2023 年初頭、ChatGPT が書く行為を揺さぶった。2024 年春、Suno と Udio が...

작성 글자: 0원문 글자: 13,349작성 단락: 0/230