Skip to content

✍️ 필사 모드: AI画像生成 2026 — Flux・Imagen 4・Midjourney v7・Ideogram・Recraft・Firefly・DALL-E・Stable Diffusion 正直比較

日本語
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

プロローグ — 二つの揺れ

2022年8月、Stable Diffusion 1.4が公開された。それまでの画像生成AIはOpenAIのDALL-E 2とMidjourney v3の非公開ベータだった。SDがオープンウェイトで公開された瞬間、カテゴリ全体が再編成された。誰もが4090一枚で無限に画像を作れるようになり、ComfyUI・Automatic1111・Fooocus・Forgeといったコミュニティ UI が爆発し、LoRA・ControlNet・IP-Adapterといった拡張が次々と登場した。2023年は「SDエコシステムの年」だった。

2024年初頭、Black Forest Labsという名前が現れる。SDの原コア研究者(Robin Rombach、Andreas Blattmann、Patrick Esser、Dominik Lorenz)がStability AIを去って設立した会社だ。同年8月、Flux.1が発表された。オープンウェイトSchnell(Apache 2.0)、非商用Dev、商用Proの三段構造。出荷時点でSD-XLを明確に上回り、一年でオープンウェイト画像モデルの新基準になった。これが最初の揺れだ。

2025年春、二度目の揺れが来る。4月にMidjourney v7がリリースされ、コンシューマ美学の基準を再び引き上げた。同年6月にGoogle Imagen 4が一般提供(GA)に達し、次の四半期にAdobe Firefly Image 4が続いた。8月にはBlack Forest LabsがFlux.1 Kontextを公開し、「画像編集」という別トラックを開いた。11月、OpenAIはChatGPTの既定画像生成器をDALL-E 3からgpt-image-1に切り替えた。Ideogramはv3でテキストレンダリングの差をさらに開いた。

2026年5月のいま、風景はこうだ。

  • オープンウェイトの王座: FluxがSD-XL/3.5の座を奪った。ComfyUI/Forgeで最も多く使われるベースモデルはFlux系列。Stability AIはSD 3.5 Large以降、一拍遅れている。
  • コンシューマ美学の頂点: Midjourney v7、続いてImagen 4 Ultra。デザイナーが一枚だけ出すならまだこの二択。
  • タイポの単独首位: Ideogram v3。ポスターに文字が入るなら他の選択肢はほぼ無い。
  • デザイナーの道具: Recraftが「ベクターまで出すAI」でカテゴリを作り、Fireflyが「Adobeワークフロー内で安全な画像」を強化した。
  • 開発者バックエンド: OpenAI gpt-image-1、Google Imagen 4、Flux Pro 1.1 — API で最も呼ばれる三つ。
  • 訴訟とライセンス: 2025年11月のStability AI対Getty Images英国判決で「学習自体は合法、出力の商標類似は別問題」と切り分けられた。これが「ライセンスのきれいさ」をマーケに据えるFirefly・Imagen・gpt-image-1の立ち位置をさらに固めた。

この記事はその風景を、ツール別・用途別・ワークフロー別に正直に整理する。どのモデルが何に強いか、ローカル対クラウドの実選択肢、ComfyUIは本当に終わったのか(終わっていない)、訴訟がどう着地しつつあるか — を一緒に見る。音楽編と同じ形だ。五つの軸、一つの決定ツリー、最後にアンチパターン表。

ひとことで言えば: 2026年の画像生成に「単一最強モデル」はない。タイポ・一貫性・編集・ライセンス・美学 の五軸が別々の道具に分かれた。道具を知れば一時間の仕事が十分になる。


1章 · Flux時代の到来 — オープンウェイトの新基準

1.1 Black Forest Labsとは誰か

2024年3月、Stability AIのコア研究者(Robin Rombach、Andreas Blattmann、Patrick Esser、Dominik Lorenz)が退社し、Black Forest Labsを設立した。本社はドイツ・フライブルク。2024年8月のシードラウンドは約3,100万USDで、Andreessen Horowitzがリード。General Catalyst、Y Combinator、MätchVCが参加した。

彼らはSD 1.x、2.x、SD-XLの原著者だ。つまり「オープンウェイト画像生成」というカテゴリを作った人たちが、新会社を立ち上げた。その最初の成果がFlux.1だ。

1.2 Flux.1の三段構造

Flux.1は同じアーキテクチャ・同じ学習データで三つの変種として出荷された。

  • Flux.1 Schnell. Apache 2.0ライセンス。1〜4ステップ推論。最軽量、最自由。商用OK。4090で6〜8GB VRAMで動く。
  • Flux.1 Dev. Black Forest Labs Non-Commercial License。重みは公開だが商用は不可。研究・学習・個人プロジェクト用。50ステップ・ガイド推論。
  • Flux.1 Pro. 非公開。API限定。最高品質。fal.ai、Replicate、Together AIなどでホスト。

この三段構造は巧妙だ。重みを開いて生態系を作りつつ、商用価値はProとライセンスで回収する。 2025年に入り、Flux.1.1 ProとFlux.1.1 Pro Ultra(最大4MP)が追加され、Proレーンがさらに厚くなった。

1.3 なぜSD-XLを超えたか

技術的差別化は三つ。

  1. 120億パラメータ。 SD-XL(2.6B)の約4.6倍。SD 3.5 Large(8B)の1.5倍。
  2. Rectified Flow。 拡散の変種。標準の拡散はノイズから画像への経路を曲線で学習するが、Rectified Flowは直線で学習しようとする。結果として少ないステップで高品質。
  3. MMDiTアーキテクチャ。 Stable Diffusion 3で導入されたマルチモーダル拡散トランスフォーマー。テキストと画像を同じトランスフォーマーブロックで同時処理する。テキスト整合性(prompt adherence)がSD-XLから大幅向上。

実測(2024年8月出荷時点の人間評価ベンチマーク): Flux ProがMidjourney v6、DALL-E 3、SD 3を軒並み上回った。指・画像内テキスト・解剖学といった伝統的な弱点で差が大きかった。

1.4 Flux Kontext — 画像編集の正解

2025年5月、Black Forest LabsはFlux.1 Kontextを公開した。「画像 + テキスト -> 編集された画像」 モデルだ。テキスト-to-画像(T2I)とは別物。

Kontextの特別な点。

  • 複数入力. 参照画像1〜複数枚 + テキスト指示。「この人の顔を保ったまま服だけ黒のスーツに」「二つの入力画像を同じトーンで合成」といった作業がそのまま通る。
  • 局所編集. 「ここだけ変えて他は残す」。インペインティングマスク不要。テキストで指示。
  • マルチターン. 同じ画像で編集を重ねる。「服 -> 背景 -> ライティング -> 髪色」の順で段階的に。
  • 三変種. Kontext Pro(API)、Kontext Max(高品質)、Kontext Dev(オープンウェイト、非商用)。

Kontext登場前、画像編集はControlNet・IP-Adapter・インペインティングマスク・LoRAの組み合わせだった。いまは一行のテキストでほとんど済む。

1.5 Flux Tools — 補助モデル群

2024年11月、Black Forest LabsはFlux Toolsを公開した。

  • Flux Fill. インペインティング・アウトペインティング専用。マスク + テキストで領域を埋める。
  • Flux Canny. Cannyエッジ・ガイドのControlNet代替。
  • Flux Depth. デプスマップ・ガイド。
  • Flux Redux. 画像バリエーション。1入力から雰囲気の近い変種を生成。

これらがSD 1.5/XL時代のControlNet・IP-Adapter生態系の大半を吸収した。

1.6 ローカル実行の現実

Flux Devを4090で回す場合。

  • フル精度(FP16). 24GB VRAM必要。1枚生成約20秒。
  • FP8量子化. 12〜16GBに縮小。1枚約15秒。品質差は微小。
  • NF4量子化. 6〜8GBまで可能。1枚約25秒(遅くなる)。品質はやや低下するが4060 8GBでも動く。
  • Schnell. 4ステップで足りる。1枚5秒以下。

ComfyUI・Forge・SwarmUI・InvokeAIすべてでネイティブ対応。2025年以降「ローカル画像生成 = Flux」がほぼ既定値になった。


2章 · コンシューマ美学の頂点 — MidjourneyとImagen

2.1 Midjourney v7

Midjourneyはカテゴリの美学基準だ。他モデルが追いかけるルックを作る。v7は2025年4月にアルファ、6月にGA。

v7の主な変化。

  • パーソナライゼーション. 初回利用時に約200枚を評価(好き/嫌い)させると、モデルがユーザー嗜好を学習する。同じプロンプトでも人ごとに違う結果が出る。
  • Draft Mode. 速く安い下書きモード。トークン費は約1/10で、30秒以内に4枚生成。気に入った下書きを本モードでアップスケール。
  • Style Reference v2. --sref コードまたは参照画像で一貫スタイル維持。v6より格段に安定。
  • Character Reference (--cref). 同じキャラクターを複数コマ越しに維持。漫画・絵本ワークフローの核。

品質は一言で「単一シーンの美的完成度」で最も強い。一枚のポスター、一コマのイラスト、一つのムードボードでMidjourneyの出力はデザイナーの目を最も少なく刺す。

弱点。

  • テキストレンダリング. v7でも文字は弱い。Ideogramに及ばない。
  • 写真のリアリズム. Imagen 4 Ultraに譲る。
  • API不在. 公式 API なし。Discord bot + 非公式ラッパーのみ。本番自動化に不向き。
  • 商用ライセンス. Pro以上で許可。ただし「学習データの明示的ライセンス」は宣伝していない。

2.2 Google Imagen 4

Imagen 4は2025年6月にGAリリース。Imagen 3(2024年12月)から二段ジャンプ。

  • Imagen 4 Standard. 高速・汎用。
  • Imagen 4 Ultra. 写真リアリズムの頂点。人物写真・風景・商品写真でMidjourney v7 Photoと正面対決。
  • Imagen 4 Fast. コスト最適化版。

特徴。

  • テキストレンダリング大幅改善. Imagen 3まで弱点だった「画像内文字」がv4で使用可能水準に。Ideogramほどではないが Midjourneyより上。
  • SynthIDウォーターマーク必須. すべての出力に不可視ウォーターマーク。AI出所検証の標準化と整合。
  • Vertex AI統合. 企業導入の最容易経路。SOC 2、HIPAA準拠を継承。
  • 商用安全. Googleが出力に対する明示的IP免責を提供。Fireflyと同レーン。

弱点。

  • 創造的美学. 写真は強いがイラストの個性は平均的。Midjourney/Fluxに譲る。
  • コンテンツフィルタ. 安全基準が強く、正当なプロンプトでも拒否されることがある。

2.3 OpenAI gpt-image-1

OpenAIは2025年4月、ChatGPT既定画像モデルをgpt-image-1に切り替えた。それまでの既定だったDALL-E 3はバックアップに回った。

gpt-image-1の位置。

  • 会話的編集. 「これ作って -> 色変えて -> キャプション追加」のようなマルチターンが自然。Flux Kontextと同方向だがインターフェースがチャット。
  • テキストレンダリング. DALL-E 3から大幅向上。Imagen 4と同等水準。Ideogramには及ばない。
  • リアリズム. Imagen 4 Ultraに一拍譲る。Midjourney v7と比べると美学は平均的。
  • API価格. 出力トークン基準課金。1枚あたり約0.02〜0.19USD(品質オプション次第)。

ChatGPT内で最も呼ばれるモデルになったため、呼び出し量基準では2026年のカテゴリ首位の可能性が高い。ただし「最高品質」ではなく「最も摩擦の少ないインターフェース」というのが正確な位置づけだ。

2.4 比較 — コンシューマ/APIモデル

ツール美学リアリズムテキスト編集ライセンスAPI
Midjourney v7最上非常に高い弱い--cref 一貫性Pro以上なし(非公式のみ)
Imagen 4 Ultra高い最上普通別(Imagen Edit)免責提供Vertex AI
gpt-image-1普通高い普通強い(チャット)標準OpenAIOpenAI API
Flux Pro 1.1高い非常に高い普通Kontext(別)商用OK(Pro)fal/Replicate
DALL-E 3普通高い普通弱い標準OpenAIOpenAI API(レガシ)

3章 · タイポ・デザイナーツール — Ideogram・Recraft・Firefly

3.1 Ideogram v3 — 文字が入るならここ

Ideogramは2023年8月設立のトロント拠点スタートアップ。CEOはMohammad Norouzi(元Google Brain、Imagen原著者の一人)。最初から「画像内テキスト」を中核差別化に据えた。

  • Ideogram 1.0(2024年2月). カテゴリで最も正確なテキストレンダリングと評価される。
  • Ideogram 2.0(2024年8月). リアリズムとスタイル制御を強化。
  • Ideogram 3.0(2025年3月). タイポと美学を同時に引き上げ。ポスター、名刺、広告コピー、書籍カバーで実質単独首位。

中核機能。

  • Magic Prompt. 入力プロンプトをモデルが自動拡張して結果を改善。
  • Canvas. インペインティング・アウトペインティング・マスク編集を統合ワークフローに。
  • Style Reference. 参照画像で一貫スタイル。
  • Character Consistency. v3で追加。同じキャラを複数枚で維持。

タイポ精度は単に「文字が読める」ではなく「デザイナーが出力そのままで使える」レベル。これがMidjourney/Flux/Imagenと決定的に違う。

弱点はリアリズムがImagen 4 Ultraほど精密でないこと、キャラ一貫性がMidjourneyの--crefよりやや弱いこと程度。

3.2 Recraft — デザイナーのAI

Recraftは「グラフィックデザイナーのためのAI」という単一ポジションを取った。2024年10月のRecraft V3リリースで、しばらくHugging Face TTIリーダーボード1位だった。

差別化。

  • ベクター出力. SVG直接生成。ロゴ・アイコン・イラストをベクターで受け取る。AI ツールでほぼ唯一。
  • ブランドライブラリ. カラーパレット・フォント・スタイルを保存し、全出力に一貫適用。
  • 画像+テキスト統合. ポスターでテキストがデザイン要素として扱われる。Ideogramより「デザイン的」な配置。
  • 画像編集. インペインティング・アウトペインティング・オブジェクト除去・背景変更が統合UIに。
  • 3Dモックアップ. 画像を3Dオブジェクト(マグ、本、スマホ)に自動マッピング。

Recraft V3後にV3 Plusが2025年に出てリアリズムをさらに引き上げ。2026年5月時点でV3.5がベータ。デザイナーから見ると「画像を生成して -> 編集して -> 別フォーマットで受け取る」を一つで完結する。

価格は無料1日50クレジット、Basic 12USD/月、Pro 33USD/月。

3.3 Adobe Firefly — ライセンス明瞭性

Adobe Fireflyの価値提案は一文に集約される。「Adobe Stockとパブリックドメインのみで学習。」 他モデルがライセンスのグレーゾーンに居るとき、Fireflyは明確だ。

2025年5月にFirefly Image 4、同年秋にImage 4 Ultraが追加。

  • Firefly Image 4. 汎用。リアリズム・イラスト・テキストレンダリングのバランス型。
  • Firefly Image 4 Ultra. 高解像度、ディテール強化。広告・出版・製品デザイン向け。

Adobe生態系内の強み。

  • Photoshop Generative Fill. Photoshop内のインペインティング/アウトペインティングをFireflyが駆動。摩擦ゼロでデザイナーワークフローに統合。
  • Illustrator Generative Recolor. ベクター色変更を自動。
  • Premiere Pro Generative Extend. 動画クリップをテキストで延長(Firefly Videoは別モデル)。
  • Adobe Express. 非専門家向け統合UI。
  • 免責. 企業顧客に出力のIP免責を提供。

弱点。

  • 単独美学. Midjourney v7ほどの「ワーオ」感は薄い。
  • コンテンツフィルタ. 安全基準が強く、顔・著名人・一部商用コンセプトで拒否多め。
  • 価格. Creative Cloud既存ユーザにはほぼ無料、単独だと高い。

3.4 比較 — タイポ・デザイナーツール

ツールテキスト精度ベクターデザイナーWFライセンス明瞭性価格
Ideogram v3最上なしキャンバス統合普通無料〜20USD/月
Recraft V3非常に高いあり(SVG)ブランドライブラリ普通無料〜33USD/月
Firefly Image 4高いなしAdobe統合最上CC同梱

4章 · オープンソース・ローカル — Stable Diffusion 3.5・SD-XL・HiDream・Janus-Pro

4.1 Stable Diffusionの現状

2022年にカテゴリを作ったStability AIは2024-2025年に浮き沈みを経た。

  • SD 3 Medium(2024年6月). 出荷直後に「解剖学的問題」でコミュニティが反発。ライセンス変更(Creator/Enterprise分離)も論争。
  • SD 3.5 Large/Medium/Large Turbo(2024年10月). SD 3の弱点を補正。8B/2.5B/8B。Stability AI Community License(年商100万USD以下無料)。
  • SD-XL 1.0(2023年7月). いまも使用量基準で最大のベース。LoRA生態系がSD-XL中心に育ったため。

2026年5月時点でSD 3.5は「まだ使われるがカテゴリ首位ではない」。Fluxが明確に先行。Stability AIは2024年のCEO交代と財政難を経て、Stable Audio・Stable Video・3Dに重心が移っているように見える。

4.2 SD-XL — レガシーの力

SD-XLが生きている理由は単純だ。LoRA・ControlNet・IP-Adapter・Textual Inversionの生態系が巨大。 CivitaiにSD-XL用LoRAが数万個。特定画風・特定キャラ・特定美学を最も豊富に扱えるベースがいまだにSD-XLだ。

SD-XLを使うとき。

  • 必須のLoRAがSD-XLにしかない時. アニメ系、特定イラストレーター風、繰り返しキャラ。
  • ControlNetでの精密制御が必要な時. ポーズ、デプス、エッジ。
  • ハードウェア制約が強い時. SD-XLは8GB VRAMでも快適。
  • 既存のComfyUIグラフが本番稼働している時. 壊さない。

Fluxへ移るとき。

  • 新規ベースワークフローを始める時.
  • プロンプト整合性が重要な時. Fluxが圧倒的に先行。
  • 商用ライセンスを明確にしたい時. Flux Schnell。

4.3 HiDream — 2025年の新星

HiDream-I1は2025年4月公開の17Bオープンウェイト、MITライセンス。学術ベンチマークの一部でFlux Devを上回る。

  • ハードウェア. 24GB VRAM推奨。NF4量子化で12GBまで。
  • 品質. リアリズム・テキスト・一貫性のバランス型。Flux Dev と肩を並べる。
  • ライセンス. MIT — 完全商用OK。Flux Dev(非商用)に対する決定的優位。

ComfyUIネイティブ対応。2026年5月時点で「Flux Devの本当の無料代替」と評価される。

4.4 Janus-Pro / Krea — 別方向

Janus-Pro(DeepSeek、2025年1月). マルチモーダルLLMが画像を生成する方向。テキストと画像を同モデルで扱う。7B、MIT。品質はFlux未満だが「LLMが画像を作る」パラダイムは要注目。

Krea AI. モデル提供者ではなくワークフロー・プラットフォーム。複数モデルを一つのインターフェースに集約。リアルタイム・キャンバス(描く間にAIが追従)が差別化。2025年に自社モデルKrea-1を発表。

4.5 比較 — オープンソース・ローカル

モデルパラメータライセンス最小VRAM強み
Flux.1 Schnell12BApache 2.06GB(NF4)高速、無料、商用OK
Flux.1 Dev12BBFL Non-Commercial6-24GB最高品質オープンウェイト(非商用)
HiDream-I117BMIT12-24GB商用OKなFlux代替
SD 3.5 Large8BStability Community8-16GB成熟カタログ
SD-XL 1.02.6BOpenRAIL++6-8GBLoRA生態系
HiDream Dev17BMIT12GBHiDream蒸留版

5章 · ツール vs モデル — ComfyUI/Forge/A1111の現在

5.1 UIは終わったのか? 終わっていない。

2023〜2024年に賑わっていたSD系UI(Automatic1111、ComfyUI、Forge、Fooocus、InvokeAI)が2025年に沈んだという話を時々聞く。間違いだ。 カテゴリの形が変わっただけ。

ComfyUIは2025-2026年でむしろ巨大化した。 ノードベースUIなので新モデル登場のたびに素早くノードが増える。Flux、HiDream、すべての動画モデル(Wan、HunyuanVideo、LTX-Video)が真っ先にComfyUIで動く。「AI画像・動画ワークフロー自動化の事実上の標準」になった。

Forge UI(Forge / Forge Classic). Automatic1111のフォーク。メモリ最適化でFluxを8GB GPUで動かす。ComfyUIよりUIが直感的なので初心者の入り口に。

Automatic1111(A1111). 2025年から更新が遅くなった。Flux対応がForgeより遅く、ControlNetも追随が遅れた。「伝統的SD-XLユーザ」は残っているが新規流入はForge/ComfyUIに行った。

InvokeAI. 商用SaaSにピボット。企業向けワークフローソリューションへ。

SwarmUI. ComfyUIをバックエンドにしつつ親切なUIを提供。ノードグラフを描かない人向け。

Fooocus. Midjourney風シンプルUI。非技術系の入門に最適。

5.2 ComfyUIノードグラフ例

Flux Dev + Flux Kontext + LoRA + アップスケールを一グラフに。

[LoadCheckpoint Flux Dev]
        |
        +-[Text Encoder] <- [Prompt: "cyberpunk alley, neon"]
        |       |
        |  [KSampler] <- [Empty Latent 1024x1024]
        |       |
        |  [VAE Decode]
        |       |
        +-[LoadKontext] <- [Reference image]
        |       |
        |  [Kontext Edit] <- [Instruction: "make it sunset"]
        |       |
        +-[LoadLora char-v1] <- [Strength 0.8]
        |       |
        +-[Upscale 4x ESRGAN]
        |       |
        +-[Save Image]

このグラフを一度作っておけば、プロンプトだけ変えて数百枚を自動生成できる。API直叩きと同じ自動化水準で、中間段階をすべて視覚的に確認できる。

5.3 新規参入UI

  • Krea. リアルタイム・キャンバス。描く間にAIが埋める。デザイナーに人気。
  • Magnific. アップスケール・ディテール強化特化。他モデルの出力を後処理。
  • Leonardo.AI. SaaS UI + 自社モデル + 統合ワークフロー。
  • OpenArt. ComfyUIワークフローをウェブでホスト。自分でサーバ管理せずノードグラフ共有。

5.4 ワークフローをどこに置くか

選択基準を一行で。

  • 素早く一枚: Midjourney v7、Ideogram、Imagen 4(ウェブUI)。
  • 自動化・バッチ: API(fal.ai、Replicate、OpenAI、Vertex AI)またはローカルComfyUI。
  • 細かい制御(LoRA、ControlNet): ローカルComfyUIまたはForge。
  • デザイナーワークフロー: Recraft、Firefly、Krea。
  • エンジニア統合: API。

6章 · 訴訟とライセンス — 正直に

6.1 Stability AI 対 Getty Images

最も引用される訴訟。Getty ImagesがStability AIを英米同時に提訴(2023年)。

英国判決、2025年11月、High Court of Justice。

  • 学習行為自体は英国著作権侵害ではない. モデル重みに原画像が保存されていないと判断。
  • 商標侵害は別. 出力にGettyウォーターマークが部分的に現れた事例について、商標侵害を認定。
  • 要約. 学習は合法、出力の商標類似は別問題。

米国側は2026年5月時点でも係属中。米国法は英国と異なるため結果が変わる可能性あり。

6.2 他の係属中の訴訟

  • Andersen 対 Stability AI. アーティスト集団がStability、Midjourney、DeviantArtを相手取ったクラスアクション。一部請求は棄却、著作権請求は残存。
  • NYT 対 OpenAI. テキスト学習データに関する訴訟だが、画像学習にも影響する判例を作る可能性。
  • Disneyライセンス. 2025年に Disney が複数 AI 企業とライセンス交渉中という報道。メジャー IP の直接ライセンスが標準化する可能性。

6.3 利用者がすべきこと

商用に安全な選択肢(2026年5月時点).

  1. Adobe Firefly. Adobe Stock + パブリックドメインのみ学習。免責提供。最安全。
  2. Google Imagen 4. 免責提供。学習データのライセンスクリア性を明示。
  3. OpenAI gpt-image-1. 標準OpenAI規約。免責はEnterprise限定。
  4. Flux Schnell + 自家ホスト. Apache 2.0重み。出力はユーザ所有。
  5. HiDream-I1. MIT重み。商用OK。

グレーゾーン.

  • Midjourney. Pro以上で出力の商用使用可。ただし学習データの明示的ライセンスは宣伝されていない。
  • SD-XL + コミュニティLoRA. LoRAの学習データ出所が不明な場合が多い。特に「特定アーティスト風」LoRA。
  • Recraft. ライセンスポリシーは明記されているが学習データ出所は部分公開。

リスク行為.

  • 著名アーティスト・イラストレーター名をプロンプトに. 「in the style of [Artist]」出力の商用使用は明確にリスク。
  • 商標・キャラクターIPを直接模倣. Disneyキャラ、ゲームキャラ、ブランドロゴ。
  • 明示的ライセンス記載なしのNFT/グッズ販売.

6.4 訴訟がどう転んでも

三つのシナリオ。

シナリオA — 「学習は変革的フェアユース」勝訴. AI学習が合法化。出力の商標・類似性問題は別個に扱われる。Firefly/Imagenの「明示的ライセンス」マーケ価値は縮小。

シナリオB — 「学習にライセンス必要」判決. Stable Diffusion、Midjourneyはライセンス和解または再学習を強制される。コスト増、サブスク値上げ。Firefly/Imagenが優位に。

シナリオC — 和解・ライセンスで標準化. Disney-AI企業の合意のように、メジャーIPライセンスが標準。学術・オープンソースは別トラック。最も確度の高いシナリオ。


7章 · 意思決定フレーム — 何を選ぶか

7.1 用途別おすすめ

状況第1候補第2候補メモ
コンセプトイラスト1枚Midjourney v7Flux Pro 1.1美学優先
写真リアルな人物・製品Imagen 4 UltraFlux Proリアリズム
ポスター・広告(文字)Ideogram v3Recraft V3タイポ精度
ロゴ・アイコン(ベクター)Recraft V3Adobe Illustratorベクター出力
ブランド一貫性Firefly Image 4Midjourney --sref免責 + WF
キャラ一貫性(漫画)Midjourney --crefFlux Kontext複数コマ
画像編集Flux Kontextgpt-image-1テキスト駆動
インペインティングPhotoshop + FireflyFlux Fillワークフロー
API自動化fal.ai + Flux ProVertex AI Imagen 4SLA
ローカル・プライベートFlux Dev(非商用)HiDream-I1(商用)自家ホスト
無料スタートFlux Schnell + ForgeSD-XL + Civitai LoRA4GB+ GPU
商用安全優先FireflyImagen 4免責
学術・研究SD 3.5 + 論文再現Flux Dev検証可能性

7.2 決定ツリー

スタート
 |
 +- 画像に文字が必要か?
 |    +- はい -> Ideogram v3 または Recraft V3
 |    +- いいえ -> 次へ
 |
 +- 写真レベルのリアリズムが必要か?
 |    +- はい -> Imagen 4 Ultra または Flux Pro 1.1
 |    +- いいえ -> 次へ
 |
 +- デザイナーワークフロー(ブランド、ベクター)か?
 |    +- はい -> Recraft または Adobe Firefly
 |    +- いいえ -> 次へ
 |
 +- キャラ・シーン一貫性が必要か?
 |    +- はい -> Midjourney `--cref` または Flux Kontext
 |    +- いいえ -> 次へ
 |
 +- ライセンスのきれいさが最優先か?
 |    +- はい -> Firefly または Imagen 4(免責)
 |    +- いいえ -> 次へ
 |
 +- ローカル・プライベート実行が必要か?
 |    +- はい -> Flux Dev/Schnell または HiDream-I1
 |    +- いいえ -> 次へ
 |
 +- API自動化・バッチが必要か?
      +- はい -> fal.ai Flux Pro または OpenAI gpt-image-1
      +- いいえ -> Midjourney v7(単一シーン美学)

7.3 予算別ガイド

予算おすすめ
0USD/月Flux Schnell ローカル + Forge UI。4GB+ GPU。無制限生成。
10USD/月Midjourney Basic または Ideogram Basic。単一ツール。
30USD/月Midjourney Standard + Ideogram + ChatGPT Plus。美学 + タイポ + 編集。
60USD/月+ Recraft Pro または Adobe CC。デザイナーフルセット。
200USD+/月API使用(fal.ai Flux Pro + Imagen 4 + gpt-image-1)+ 上記。本番自動化。

エピローグ — チェックリスト、アンチパターン、次回予告

2022年のSD 1.4の衝撃、2024年のFlux 1の追い越し、2025年のMidjourney v7/Imagen 4のコンシューマ・ジャンプ、2026年のFlux Kontext/gpt-image-1の編集パラダイム転換 — カテゴリは一度も止まったことがない。同時期に音楽もビデオも同じように揺れた。違いは画像が最初に安定したという点だ。利用者はいま「どのモデルで作るか」ではなく「どの作業にどの道具を使うか」を考える。その問いに一行で答える表はない。だが大きな軸は五つだ — 美学(Midjourney)、リアリズム(Imagen)、タイポ(Ideogram)、デザイナー(Recraft/Firefly)、オープンウェイト(Flux/HiDream)。

ツール選択チェックリスト

  1. 画像に文字が入るか? — はいなら Ideogram または Recraft 優先。
  2. 商用利用か? — はいなら Firefly/Imagen 免責または Flux Schnell 自家ホスト。
  3. 単一カットかシリーズか? — シリーズならキャラ一貫性(--cref、Flux Kontext)が必須。
  4. 編集が必要か? — Flux Kontext、gpt-image-1、Photoshop Generative Fill のいずれか。
  5. ローカル可能か? — 16GB+ GPU なら Flux Dev。24GB なら HiDream。
  6. 自動化が必要か? — API 優先。Midjourney は自動化不向き。
  7. ベクターが必要か? — Recraft がほぼ単独。
  8. リアリズムかイラストか? — 前者は Imagen 4 Ultra、後者は Midjourney v7。
  9. マルチターン編集か? — gpt-image-1(チャット)または Flux Kontext。
  10. ライセンス安全性が最優先か? — Firefly 最優先、Imagen 次点。

アンチパターン

アンチパターンなぜ悪いか代わりに
最初の生成をそのまま使う平均品質が低い4-8 枚生成して厳選
プロンプトに有名アーティスト名ライセンスのグレー、訴訟リスク抽象記述(「late-80s synthwave poster」など)
Midjourney を自動化公式 API なし、非公式ラッパーは規約違反fal.ai Flux Pro、gpt-image-1、Imagen 4
SD-XL に留まり Flux を無視テキスト整合性の差が累積Flux Schnell から開始、必要時のみ SD-XL
ComfyUI を「複雑すぎる」と回避自動化の差が累積Fooocus/Forge から始めて慣れたら ComfyUI
Flux Dev を商用に出荷Non-Commercial 違反Flux Schnell、Flux Pro、HiDream
文字入りポスターを Midjourney で文字が崩れるIdeogram v3 または Recraft
ライセンス表記なしで NFT/グッズ販売IP 紛争リスク出力の明示的商用権を確認
4K 超を単一生成で期待モデル出力は通常 1-2MPMagnific/Topaz でアップスケール
無料ティアでクライアント業務ライセンス違反、ウォーターマーク最低 Pro 加入
単一モデル依存美学・タイポ・編集の隙間が累積2-3 モデル併用(美学 + タイポ + 編集)

次回予告

次回は 「AI ビデオ生成 2026 — Sora 2・Veo 3・Runway Gen-4・Kling 2・Pika 2・Open-Sora、どこまで来たか」。画像と同じ形で、カテゴリの爆発(2024 年 Sora デモ)と成熟(2026 年の商用ツール群)、最難所(長尺一貫性、キャラ同一性、指と物理)、オープンソース選択肢(Open-Sora、Mochi、HunyuanVideo、Wan)、用途(広告、ショート動画、コンセプトビジュアル)、そして著作権論争(NYT-OpenAI、Disney ライセンスモデル)を同じ深さで扱う予定。画像→音楽→動画の三角形がその記事で閉じる。


参考 / References

현재 단락 (1/332)

2022年8月、Stable Diffusion 1.4が公開された。それまでの画像生成AIはOpenAIのDALL-E 2とMidjourney v3の非公開ベータだった。SDがオープンウェイトで公...

작성 글자: 0원문 글자: 18,714작성 단락: 0/332