- Published on
AI画像生成 2026 完全ガイド - Midjourney v7 · DALL·E 4 · Imagen 3 · FLUX · Stable Diffusion 3.5 · Ideogram · Recraft 徹底分析
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — 2024年のシンプルさはどう終わったか
2024年の春、「AIで絵を作りたい」と誰かが言ったとき、私たちは3つのモデルから1つを取り出した。Midjourney v6、DALL·E 3、Stable Diffusion XL。美的感覚が要るならMidjourney、チャットに繋ぐならDALL·E、自分のGPUで動かしたいならSDXL。選択肢は3つ、答えは明快だった。
2026年の春、そのシンプルさは跡形もない。同じ質問に答えるために、私たちはまず分岐を描く。
- フォトリアル(photoreal)か、イラストか、文字入りポスターか、ベクターロゴか?
- 閉じたAPIで十分か、オープンウェイトが要るか、自分のGPUで動かすのか?
- 学習データのライセンスは重要か、結果さえ良ければいいか?
- 5秒待ちか、50ミリ秒のリアルタイムか?
- LoRAファインチューニングが要るか、そのまま使うか?
本稿はその全分岐を辿る、2026年のAI画像生成の地図である。Midjourney v7の美的標準、OpenAIのgpt-image-1とDALL·E 4のマルチモーダル統合、Google Imagen 3 / 4のエンタープライズ進出、Black Forest LabsのFLUXシリーズがオープンウェイトで新しいベースラインを引いた話、Stability AIの再編後に戻ってきたStable Diffusion 3.5、テキストレンダリングの絶対王者Ideogram、デザイン・ベクターでカテゴリを開いてしまったRecraft V3、ライセンス安全な学習を武器に追走するAdobe Firefly 3、そしてその間に割り込むReve Image 1.0、Krea AI、Leonardo、Playground v3。ツールとしてはComfyUIのノードグラフ、ControlNet・IP-Adapterワークフロー、インペイントとアウトペイント、Aura SR・4x-UltraSharp のようなアップスケーラー、C2PAの出典ウォーターマーク、そして最後にAndersen v Stability AI、Getty v Stability AI、NYT v OpenAIといった法的戦線まで。
第1章 · 2026年の画像生成地図 — 三陣営、五カテゴリ
2026年の市場を一枚の地図に描くと、まず三つの陣営が見える。
陣営A — 閉じたAPI: Midjourney v7、OpenAI gpt-image-1 / DALL·E 4、Google Imagen 3 / 4、Ideogram 3.0、Recraft V3、Adobe Firefly 3、Reve Image 1.0。ウェイトは非公開、自社インフラで推論を回し、ユーザーはトークンまたはサブスクリプションで支払う。品質の上限が高く、安全フィルターが強く、ツール統合が自然。
陣営B — オープンウェイト: Black Forest LabsのFLUX.1 [schnell] / [dev]、Stable Diffusion 3.5 Large / Medium / Turbo、Playground v3の一部、NovelAIの一部。ウェイトがHuggingFaceに公開され、誰でもダウンロードして自分のGPUで動かせる。LoRAファインチューニング、ControlNet、IP-Adapter、ComfyUIノードグラフがこの陣営の武器。Civitaiがコミュニティ LoRA ハブとして機能する。
陣営C — リアルタイム生成: Krea AI、Leonardo.AIのRealtimeモード、fal.ai の LCM/Turbo ホスティング、そしてその上に積まれたキャンバスUI。1入力あたり5秒ではなく50ミリ秒が目標。スライダーを動かすとリアルタイムで追従し、マウスで描けばその上に拡散が即座に乗る。
三陣営の上に五つのカテゴリが重なる。
- フォトリアル(photoreal) — FLUX.1.1 [pro] Ultra、Imagen 3、Reve、Midjourney v7 raw モード
- 美的・イラスト(aesthetic) — Midjourney v7、Leonardo、NovelAI
- 画像内テキスト(text rendering) — Ideogram 3.0、Recraft V3、DALL·E 4
- デザイン・ベクター(design/vector) — Recraft V3、Adobe Firefly 3
- 編集・合成(editing) — DALL·E 4 インペイント、FLUX.1 Tools(Fill/Canny/Depth/Redux)、Photoshop Generative Fill
三陣営の境界はしだいに薄れる。Black Forest Labsはオープンウェイトの Dev を公開しつつ、API で Pro・Ultra を運営する。Krea は自社モデルではなく FLUX・SD3.5 を LCM 蒸留してリアルタイムで配信する。しかしユーザーが最初に投げる問い — 「自分はウェイトに触れるのか?」「課金はトークンか GPU 時間か?」「結果を受け取るのは5秒か50ミリ秒か?」 — は今も三陣営を分ける線として残る。
第2章 · Midjourney v7 — 美的感覚の標準
Midjourney v7 は 2025 年に正式に出荷され、2026 年春の時点で美的感覚・構図・ライティングの基準線となっている。その間 v6.1 が v7 への橋渡し役を務めた。Discord ベースのボット UX は今も生きているが、本拠地は Midjourney ウェブアプリ(alpha.midjourney.com)に移った。ギャラリー、アーカイブ、Rooms 共同モードすべてがウェブで動く。
中核機能のまとまり。
- Image-to-image — 入力画像を1枚または複数枚受け取り、雰囲気と構図を吸収する。重みは
--iwフラグ(image weight)で調整。 - Style Reference (
--sref) — スタイルだけを吸い、内容は無視する。同じ画風で一貫したシリーズを描くときに決定的。sref randomのような変種で即興スタイルも可能。 - Character Reference (
--cref) — 人物・キャラクターの一貫性を保つ。絵本・漫画・イラストシリーズで毎回同じ顔にしたいとき必須。 - Mood Boards — 複数画像を1つの束として登録し、その束全体の美学を吸う。
- Patchwork — 協業キャンバスモード。複数人が同じボードで領域を分け、同時に生成・編集する。
--personalize— 自分が気に入ってきた絵に学習されたパーソナルモデル。同じプロンプトでも人ごとに結果が変わる。--raw— 美的補正を切った直接的な出力。Imagen や FLUX に近い写実が必要なとき。- ズーム・パン アウトペイント — キャンバスの拡張。
- インペイント(Vary Region) — 特定領域だけ描き直し。
価格は Basic $10/月、Standard $30/月、Pro $60/月、Mega $120/月 の四階層。全プランに fast/relax の時間配分がある。Pro 以上は Stealth(生成物非公開)モード。
Midjourney の強みは二つに絞れる。
- 美的一貫性 — 同じプロンプトとシードを回しても、平均品質が最も均一。「まあ良い1枚」の確率が高い。
- スタイルライブラリ — 5 年近く累積したユーザーのスタイルがモデルに溶け込んでいる。
--sref一行で呼び出せる。
弱点も明確。
- テキストレンダリングが弱い。ポスター内の文字、看板、本表紙は Ideogram・Recraft が圧倒する。
- API がない。自動化に組み込むには非公式ラッパーや Discord ボット経由。
- 安全フィルターが厳しい。人物、政治家、ブランドロゴで拒否が多い。
第3章 · DALL·E 4 / OpenAI gpt-image-1 — マルチモーダル統合の到着
OpenAI の画像生成は 2025 年 3 月に大きな転換を迎えた。それまで ChatGPT が呼び出していた別モデル(DALL·E 3)に代わり、GPT-4o が ネイティブに画像を出力する能力を獲得したのである。テキストと画像が同じモデル内、同じトークンストリームで処理される。これが gpt-image-1 の正体。2025 年春、この機能がジブリ風変換で Twitter を席巻した。
その後 OpenAI は画像出力品質を段階的に押し上げ、2026 年時点では DALL·E 4 という別ブランドのラインアップと gpt-image-1 のマルチモーダル系列が併存している。両者に共通する特徴。
- インペイント — マスクを描いて特定領域だけ描き直し。
- アウトペイント — キャンバスの外側に拡張。
- 透過(Transparency) — アルファチャンネル付き PNG 出力。デザイン合成で決定的。
- 参照画像 — 1〜2 枚の入力でスタイルやキャラクターを束ねる。
- テキストレンダリング — ポスター・看板内の文字がきれい。2024 年の弱点はほぼ解消。
API は images.generate、images.edit(インペイント)、images.variation(バリエーション)の三本。価格は標準 1024x1024 一枚 $0.04 程度、HD はより高い。Responses API は画像入力と出力を一緒に受け取れ、マルチモーダル エージェントワークフローが自然になる。
ChatGPT の中では「こういう画像を作って」と言うだけでよい。画面に結果が出て、「ここだけやり直して」「白黒に」「ここに文字を追加」のような自然言語の追随命令がそのまま通る。デザインツールというより、会話で画像を磨くインターフェースである。
強み。
- 自然言語による後続編集が最も自然。
- テキストレンダリングが信頼できる。
- ChatGPT ユーザーベースが巨大で、ベースのアクセシビリティが圧倒的。
弱み。
- 美的感覚の上限は Midjourney・FLUX より低い。
- 安全フィルターが強く拒否が頻発(人物・暴力・ブランド)。
- 均一なトークン課金のため大量生成は高くつく。
第4章 · Google Imagen 3 / 4 + Veo 2 / ImageFX / Whisk — 検索企業の答え
Google の画像生成は二筋で流れる。一筋は Imagen — Vertex AI でエンタープライズに配信されるモデル。もう一筋は コンシューマ向けツール(ImageFX、Whisk)。
Imagen 3 は 2024 年末に正式リリースされ、2025 年には Imagen 4 が続いた。特徴。
- リアリズム — 人物の肌、髪、反射、影が写真と区別しづらい。広告・ストック写真市場を狙い撃った品質。
- プロンプト忠実度 — 「左に赤い傘、右に青い信号」のような位置指示によく従う。
- 多言語プロンプト — 韓国語・日本語・中国語で入力しても結果が崩れない。
- Vertex AI 統合 — Cloud プロジェクトの IAM・VPC・ログがそのまま適用。SOC 2 や HIPAA のようなコンプライアンス要件がある企業にとってほぼ唯一の選択肢。
ImageFX は一般向けの無料ツール。labs.google でアクセスでき、プロンプト編集が非常に滑らか。単語をクリックすると同義語候補がチップ(chip)で表示される。
Whisk は 2024 年 12 月に公開された実験的ツール。入力はテキストではなく 3 枚の画像(主題・シーン・スタイル)。「この犬を、このリビングで、この画風で」を一発で組み合わせる。
Veo 2 は画像ではなく動画だが、Imagen で作った 1 枚を開始フレームとして受け取り、8 秒のクリップに延ばせる。同じ会社の中で画像 - 動画のブリッジが自然に繋がる。
価格は Imagen 3 一枚で Vertex AI 基準 $0.04 程度。ImageFX は無料(制限あり)。Whisk は無料ベータ。
第5章 · FLUX (Black Forest Labs) — Stable Diffusion 創業者たちの新会社
2024 年 8 月、Stability AI で Stable Diffusion を作った中核研究者たちが会社を離れ、新会社 Black Forest Labs(BFL)を立ち上げた。本社はドイツのシュトゥットガルト近郊、Andreessen Horowitz が約 $31M のシードラウンドを主導した。最初のモデルは FLUX.1、三つの変種で出荷。
- FLUX.1 [schnell] — 4 ステップ程度で高速生成する distilled 変種。Apache 2.0 ライセンス。商用利用自由。HuggingFace でウェイトをダウンロード可能。
- FLUX.1 [dev] — 50 ステップの標準変種。ウェイトは公開だが非商用ライセンス。個人・研究用は自由、商用は別ライセンス。
- FLUX.1 [pro] — 最大変種。ウェイト非公開。BFL API・fal.ai・Replicate・Together.ai のようなパートナーホスティングからのみ。
2024 年 10 月に FLUX 1.1 [pro] が出た。同じインターフェース、より良い品質、より速い推論。1 枚 $0.04 程度。2025 年にはさらに二つ。
- FLUX 1.1 [pro] Ultra — 4K(4 メガピクセル)で直接生成。1024 -> 4K のアップスケールではなく、最初から 4K の潜在空間で拡散を回す。商業広告・印刷で決定的。
- FLUX 1.1 [pro] Ultra raw モード — 美的補正なしで写真に近い結果。
そして決定打、FLUX.1 Tools(2024 年 11 月)。4 つの補助モデル群。
- FLUX.1 Fill [dev/pro] — インペイント・アウトペイント専用。SD1.5/SDXL のインペイントモデルより一貫性が圧倒的。
- FLUX.1 Canny [dev/pro] — Canny エッジ条件付け。ControlNet なしでモデル自身が受け取る。
- FLUX.1 Depth [dev/pro] — Depth map 条件付け。3D レンダーの深度マップをそのまま入力。
- FLUX.1 Redux [dev/pro] — 参照画像のスタイル・構図を再文脈化。IP-Adapter 類の仕事をモデル自身が行う。
FLUX の技術的特徴は三点。
- Rectified Flow Transformer — DDPM 系の確率的ノイズ除去ではなく、ノイズとデータを直線で結ぶ学習。ステップ数が減り安定性が増した。
- Multimodal DiT — テキストと画像を同じトランスフォーマー内で cross-attention により結合。SD3 と類似の MMDiT アーキテクチャ。
- VAE 16 チャンネル — 潜在空間チャンネルが 4 -> 16。細部が生き残る。
ライセンスは三段の梯子として明確。
| 変種 | ウェイト | 商用利用 | 備考 |
|---|---|---|---|
| schnell | 公開 | 可能 | Apache 2.0 |
| dev | 公開 | 別ライセンス必要 | 非商用は自由 |
| pro / ultra | 非公開 | API 経由で可能 | BFL/fal/Replicate |
ComfyUI のノードカタログには FLUX ワークフローが数十登録されており、Civitai には FLUX dev ベースの LoRA が数万件積み重なっている。2026 年のオープンウェイト側フォトリアルの標準は事実上 FLUXである。
第6章 · Stable Diffusion 3.5 — Stability AI の再編後
2024 年春、Stability AI は大きな激震を経験した。中核研究者が BFL へ移り、CEO が交代し、資金問題が明らかになった。その後、新経営陣が会社を立て直し、2024 年 10 月に Stable Diffusion 3.5 を発表した。
3 つの変種。
- Stable Diffusion 3.5 Large — 8.1B パラメータ。1024x1024 標準。
- Stable Diffusion 3.5 Medium — 2.5B パラメータ。同じ 1024x1024 だが軽量。
- Stable Diffusion 3.5 Large Turbo — 4 ステップ蒸留。リアルタイムに近い速度。
ライセンスは Stability AI Community License。年商 $1M 以下の個人・小企業は商用利用自由、それ以上は別途エンタープライズライセンス。これは SD3 Medium(2024 年 6 月の出荷時点で人体解剖問題で批判されたモデル)の後継だが、人物・指・解剖の問題は大幅に改善された。
アーキテクチャは MMDiT(Multimodal Diffusion Transformer)。FLUX と類似のトランスフォーマーベース拡散。T5 と CLIP の二つのテキストエンコーダを併用する。
強み。
- ライセンスが明確で、小企業まで自由に使える。
- LoRA・ControlNet・IPAdapter のエコシステムが厚い(SD 1.5 時代から累積)。
- Apache 2.0 親和の変種が SDXL とともに依然ベースモデルの位置。
弱み。
- フォトリアルでは FLUX に負ける。
- テキストレンダリングは Ideogram・Recraft に遠く及ばない。
- 同じウェイトサイズでの美的感覚は Midjourney・NovelAI に劣る。
それでも 2026 年時点で **「自分の GPU で動かすオープンウェイトのベースモデル」**の選択肢は事実上 2 つ — FLUX.1 [dev] と SD 3.5 Large。SDXL は LoRA 互換性のため依然生きているが、新規作業のベースは上記二つに移った。
第7章 · Ideogram 2.0 / 3.0 — 画像内テキストの絶対王者
Ideogram は最初から **「AI 画像のテキストレンダリング」**という単一の目標を持って始まった会社である。2024 年 8 月の Ideogram 2.0、2025 年春の 3.0 まで、そのカテゴリで圧倒的優位を保つ。
得意分野。
- ポスター・看板・本表紙・ロゴ内の文字 — 英語ではほぼ無欠点。韓国語・日本語・中国語は英語より弱いが、他モデルよりはまし。
- Magic Prompt — 短いプロンプトをモデルが自動的に豊かに拡張する。意図と異なるときはオフにできる。
- Style Reference — Midjourney の
--srefに相当。 - Canvas — インペイント・アウトペイント・マジックフィルの統合ツール。
価格は無料(ウォーターマーク)、Basic $8/月、Plus $20/月、Pro $60/月。API もある(api.ideogram.ai)。デザイン会社・広告代理店がこのモデルを使う理由は単純 — 「ポスター内の正確な文字」を他のモデルが追いつけない。
3.0 で追加された大きな変化は 複数参照と 高解像度直接出力。シリーズ広告キャンペーンでトーン・キャラクター・タイポグラフィを一貫して保つワークフローが大きく楽になった。
第8章 · Recraft V3 — デザイン・ベクターという新カテゴリ
Recraft は 2024 年秋の V3 で 別カテゴリを開いてしまった。「AI 画像」ではなく AI デザインまたは AI ベクター。成果物は SVG ベクター、もしくはデザイナーがそのまま InDesign・Illustrator・Figma に送れるデザイン。
中核機能。
- ベクター SVG の直接出力 — ピクセルではなくパス。無限に拡大しても劣化しない。
- テキストレンダリング — Ideogram と並ぶ二大山脈。フォント・字間・整列を指示可能。
- ブランドキット(Brand Kit) — 会社のカラーパレット・フォント・ロゴを登録しておけば、すべての生成物に一貫適用。
- スタイルライブラリ — 6000+ のユーザー登録スタイル。
- 無限キャンバス — 自由配置の作業環境。
2024 年秋の Artificial Analysis などのベンチマークで、Recraft V3 はテキスト入り画像カテゴリで 1 位を取った。デザイナー・イラストレーターにはこの一行が決定的だった。
価格は無料(50 credits/日)、Basic $12/月、Advanced $33/月、Pro $60/月。API も提供(api.recraft.ai)。マーケティング・ブランディング チームが自社ブランド資産を登録してインハウスデザイン補助として使うパターンが定着した。
第9章 · Adobe Firefly 3 — ライセンス安全な学習の価値
Adobe Firefly は他モデルと一点で違う。学習データが Adobe Stock のライセンス明確な画像とパブリックドメインのみ。インターネットクロールがない。Andersen・Getty 類の訴訟リスクがほぼゼロ。エンタープライズが Firefly を選ぶ最強の理由である。
Firefly 3(2024 年リリース)の特徴。
- Style Reference — 参照画像のトーン・構図を吸収。
- Structure Reference — 参照画像の形を保ち、内容だけ変える。
- Photoshop 統合 — Generative Fill、Generative Expand、Generative Remove のすべてが Firefly バックエンド。
- Illustrator 統合 — ベクター生成・拡張。
- Premiere 統合 — Firefly Video で映像生成。
- 法的保証(Indemnification) — Firefly で作った結果物が著作権紛争に巻き込まれたら Adobe が法務費用を負担。
エンタープライズ価格は別途交渉。一般ユーザーは Creative Cloud サブスクリプションに Generative Credits が含まれる形。
品質の上限は Midjourney・FLUX より低いが、**「法務チームが通す結果物」**が必要な企業にはほぼ唯一の選択肢。
第10章 · Reve Image 1.0, Krea AI, Leonardo, Playground v3 — 後発組
大物の隙間に席を見つけた後発組。
Reve Image 1.0(2025 年 3 月) — 新興スタートアップのデビュー作。出荷直後に Artificial Analysis のテキスト - 画像 リーダーボードで一時 1 位を取って注目された。フォトリアル品質とプロンプト忠実度が強み。API ファースト、価格競争力あり。1 枚 $0.03 程度。
Krea AI — リアルタイム生成カテゴリの代表。FLUX・SD3.5 を LCM 蒸留して 50 ms 帯の速度で配信。キャンバスにマウスで描けば即座に拡散結果が追従する。「Realtime」「Enhance」「Train」(自分の LoRA)メニューがワークフローの軸。
Leonardo.AI — ゲーム・イラスト市場を狙い撃つ。自社モデル(Phoenix など)と SDXL ファインチューンの組合せ。キャラクター一貫性・多重コンポジションが強い。寛容な無料ティアで入門者が多く入ってくる。
Playground v3 — Playground.ai の自社モデル。2024 年秋の v3 発表で写真・デザイン品質が大幅に上がった。一部ウェイトは公開(研究用)。
第11章 · ComfyUI / Forge / AUTOMATIC1111 / InvokeAI / Fooocus — オープンソース UI 群
オープンウェイトモデルを自分の GPU で回すには UI が必要だ。2026 年時点の風景。
ComfyUI — ノードベース ワークフローの標準。画面を細かく分けたノード(Load Checkpoint、KSampler、VAE Decode、…)を線でつないでパイプラインを作る。最初は学習曲線が急だが、一度習熟すれば ControlNet・IPAdapter・LoRA の組合せを最も自由に扱える。FLUX・SD3.5・SDXL がすべて初日からサポートされるのが ComfyUI。
Forge — A1111 のフォーク。UI は A1111 と同じだがバックエンドが現代化された。SDXL・FLUX の推論速度は A1111 比で 1.5〜2 倍速い。lllyasviel/stable-diffusion-webui-forge リポジトリ。
AUTOMATIC1111(A1111) — 最古参の SD UI。2022 年末から事実上の標準だったが、2025 年以降アップデートが鈍化。今も SD 1.5/SDXL ワークフローの多くはここで回る。
InvokeAI — 商用・企業向きの UI。無限キャンバス・レイヤー編集・チーム協業が強み。
Fooocus — 「初心者モードの ComfyUI」。ノードなしのシンプル UI の上に ComfyUI バックエンド。入門者に推奨。
選択マトリクス。
- 柔軟性最大化 -> ComfyUI
- A1111 に慣れたユーザー -> Forge
- チーム・企業 -> InvokeAI
- 入門者 -> Fooocus
- レガシー SD 1.5 LoRA が多い -> A1111
第12章 · ControlNet — Lvmin Zhang の決定的な一手
2023 年 2 月、スタンフォードの Lvmin Zhang(張氏)が発表した ControlNet 論文が、拡散モデルのワークフローを一気に書き換えた。一行要約: 「拡散モデルに追加条件(エッジ・深度・姿勢など)を入力として受け取らせる側枝ネットワーク」。
代表的な 5 つの条件。
- Canny — Canny エッジ検出器で抽出したエッジマップ。入力画像の輪郭を保つ。
- Depth — MiDaS・ZoeDepth で抽出した深度マップ。3D レンダーの深度をそのまま受け取れる。
- OpenPose — 人物の骨格・姿勢。ダンス、ヨガ、運動の姿勢をそのまま移植。
- Tile — 同じ画像をタイルに分けて細部を追加。4K アップスケールの中核。
- IP-Adapter — 入力画像のスタイルを吸収。テキストプロンプトの代わりに画像プロンプト。
2024〜25 年には FLUX 互換 ControlNet、SD3.5 互換 ControlNet が順次出た。FLUX は ControlNet の一部機能をモデル自身に吸収した FLUX.1 Tools(Canny/Depth/Redux)を出荷した。**「1 枚の画像を正確に追わせる」**作業は ControlNet なしでは事実上不可能で、今もワークフローの中心である。
第13章 · LoRA ファインチューニング — 自分のキャラをモデルに焼く方法
LoRA(Low-Rank Adaptation)は大きなモデルの一部ウェイトを低ランク行列としてファインチューンする技法である。拡散モデル全体(数 GB)を再学習する代わりに、LoRA アダプター 1 つ(通常 50 MB〜200 MB)を学習する。結果として 自分のキャラ、自分の画風、自分の製品 をモデルに焼き込める。
学習ツール。
- kohya_ss — LoRA 学習の標準 GUI。SD 1.5・SDXL・SD3・FLUX をすべてサポート。
bmaltais/kohya_ssリポジトリ。 - OneTrainer — kohya_ss の代替。UI がより直感的。
- AI-Toolkit (ostris) — FLUX LoRA に特化。FLUX 時代の標準ツールとして急速に定着。
データ準備。
- 学習対象の画像 10〜50 枚を集める。
- キャプション(
txtファイル)を各画像の隣に置く。BLIP 自動キャプションまたは手動。 - トリガー トークン(例:
sks_dog、myface)をキャプション先頭に統一する。
学習パラメータの核。
- rank — LoRA の次元数。通常
4〜64。高いほど表現力が増しファイルが大きくなる。 - steps — 1000〜3000 程度。長すぎると過学習。
- learning_rate —
1e-4近辺。
学習済みアダプターは Civitai(civitai.com)に上がる。2026 年時点で Civitai には LoRA が 30 万本以上積まれている。同じ SDXL/FLUX ベース上に LoRA 2〜3 本を同時に乗せて合成するワークフロー(LoRA<rank> 表記で重み調整)が日常になった。
第14章 · インペイント・アウトペイント ワークフロー
画像の一部を描き直す(インペイント)、キャンバスの外へ拡張する(アウトペイント)作業は、2026 年に最もよく使われる編集ワークフローである。
インペイントのシナリオ。
- 人物写真の服だけ変更 — 服領域にマスクを描き、新しいプロンプト。
- 風景から人物 1 名を消す — 人物領域マスク、背景に合うプロンプト。
- 製品写真の背景だけ差し替え — 製品マスクを反転、新背景のプロンプト。
- テキスト追加 — 空き領域マスク、「WELCOME」などのテキストプロンプト。
アウトペイントのシナリオ。
- 縦写真 -> 横長ワイドバナーに拡張。
- 4:3 -> 16:9。
- 同じ人物・構図でカメラをズームアウト。
ツール対応。
- DALL·E 4: ChatGPT キャンバスでマスクを描く。
- FLUX.1 Fill: ComfyUI の mask ノード。
- Photoshop Generative Fill: Firefly バックエンド。
- Midjourney: Vary Region(インペイント)、Zoom Out / Pan(アウトペイント)。
- Stable Diffusion 3.5: A1111/Forge の inpaint タブ。
品質の鍵は マスクの縁のフェザリングと コンテキスト パディング(マスク周辺をモデルに見せる範囲)。
第15章 · アップスケーラー — 4x-UltraSharp, ESRGAN, Aura SR
生成した 1024 画像を 4K に伸ばす作業は別モデルが担う。標準候補。
4x-UltraSharp — Civitai で最もダウンロードされている ESRGAN ベースのアップスケーラー。SD 1.5・SDXL の結果を 4 倍にする定番。
Real-ESRGAN — 元祖 ESRGAN の実写真用変種。xinntao/Real-ESRGAN リポジトリ。
ESPCN — 速いが品質は落ちる。リアルタイム映像向け。
Aura SR — fal.ai が 2024 年に公開した次世代 SR モデル。非常に大きな倍率(8x、16x)でも自然。
SUPIR — 拡散ベース SR。非常に遅いが品質は圧倒。人物顔の 4K 印刷に最適。
ワークフローは通常 生成(1024) -> アップスケール(2048〜4096) -> ディテイラー(顔・手) の順。ComfyUI のノードグラフで一気に繋ぐ。
第16章 · 画像 - 動画 のブリッジ — Kling 1.5, Hailuo
2026 年には画像生成と動画生成がしだいに同じワークフローに入ってきた。最初のフレームを画像で作り、動画モデルに渡すパターン。
- Kling 1.5(Kuaishou) — 1 枚の画像から 5〜10 秒の映像へ拡張。モーションの一貫性が良い。
- Hailuo(MiniMax) — 同じカテゴリの中国モデル。価格競争力。
- Runway Gen-3 / Gen-4 — Image-to-Video モード。カメラモーションを自然言語で指示。
- Sora 2(OpenAI) — 別記事のテーマだが、画像入力を受けて映像に拡張可能。
- Veo 2 / 3(Google) — Imagen で作った画像を開始フレームとして受ける。
典型的パイプライン。
- FLUX 1.1 Pro Ultra で最初のフレーム 4K を生成。
- そのフレームを Kling 1.5 に入力として渡し、
motion_promptで「カメラがゆっくりズームイン」を指示。 - 結果映像を Topaz Video AI で 60fps 補間 + 4K アップスケール。
第17章 · C2PA + ウォーターマーク — 出典証明の標準
生成画像の出典を証明する技術標準が C2PA(Coalition for Content Provenance and Authenticity)である。Adobe・Microsoft・Intel・BBC・OpenAI などがメンバー。「どこで作られたか、どのモデル・ツールで作られたか」を改ざん耐性メタデータとして画像に埋め込む。
2026 年時点で C2PA を自動添付するツール。
- DALL·E 4、gpt-image-1 — デフォルトで添付。
- Adobe Firefly 3 — デフォルトで添付。
- Photoshop 25/26 — 編集履歴も記録。
- BBC・NYT の一部 — 記事写真に C2PA 検証。
別途 目に見えないウォーターマーク 標準もある。
- SynthID(Google DeepMind) — Imagen 出力にピクセルレベルで埋め込まれる。人間の目には見えず、SynthID 検証器のみが検出可能。
- Stable Signature(Meta) — SD モデル出力用ウォーターマーク。微細ノイズパターン。
法的・政策的には EU AI Act が合成画像に表示義務を課す(2026 年から段階適用)。韓国・日本もガイドライン段階。
第18章 · 法的戦線 — Andersen, Getty, NYT
AI 画像生成は 2023 年から大きな法的紛争のただ中にある。2026 年時点の主要事件。
Andersen v Stability AI(北部カリフォルニア連邦地裁) — イラストレーターたちが LAION 学習データに自作が入っていたことに抗議して集団訴訟。2024〜25 年の間に一部請求が本案審理段階へ進んだ。「出力物の侵害」と「モデルウェイト自体の侵害」を区分する最初の米国判例になる可能性。
Getty Images v Stability AI(英国と米国で同時) — Getty が自社ウォーターマークの入った画像が学習された証拠(SD 出力にウォーターマークが残存)を突きつけて損害賠償を請求。英国側が先に本案審理に進み、2025 年判決の一部が学習自体を侵害と認める方向に傾いたと報道。
New York Times v OpenAI — 画像ではなくテキスト中心だが、同じ「公開インターネットデータの学習は fair use か」という問いなので、全ての生成 AI 陣営が注視する。2024 年末に提訴、2026 年時点でディスカバリー段階。
個別作家 vs Midjourney・Runway — 個別請求が累積。
論点整理。
- 学習は fair use か? — 米国法の核心問題。transformative use の 4 要素テスト。
- 出力物に原作者の権利は残るか? — 画風は著作権保護対象外というのが既存学説だが、学習データの識別性問題は別。
- モデルウェイト自体が侵害物か? — 一度も試されたことのない問い。
- モデル使用者の責任は? — 使用者が明白に侵害意図でプロンプトを書いたとき。
この戦線が決着するまで、エンタープライズは ライセンス安全なモデル(Firefly、Imagen Vertex エンタープライズ ティア、自社データで学習した LoRA)を好む。Adobe の indemnification 提案が強力なのはそのためである。
第19章 · 韓国サービス — Naver Hyperclova X 画像, NCsoft VARCO, Kakao Karlo
韓国陣営の画像生成風景。
Naver Hyperclova X 画像 — Naver の巨大言語モデル Hyperclova X ラインアップ内の画像出力モデル。検索・ショッピング・ブログと統合された韓国語プロンプトが強み。CLOVA Studio で API アクセス。
NCsoft VARCO — NC ソフトの巨大 LLM・画像ラインアップ。VARCO Studio でテキスト・画像・音声を統合。ゲーム会社らしくキャラクター・イラスト・ロア制作シナリオに強い。
Kakao Karlo — Kakao Brain のオープンソース画像モデル。2023 年リリース以降、韓国語プロンプト対応が強みで、後続バージョンはカカオサービスに統合。
LG AI Research Exaone Vision — LG の Exaone ラインアップにマルチモーダル画像入力・出力。
これらの共通点は (1) 韓国語プロンプト忠実度、(2) K コンテンツのスタイル(K-pop・K ドラマ・ウェブトゥーンの美的感覚)の学習、(3) 国内クラウド・コンプライアンス親和。多国籍モデルを使いにくい公共・金融・通信などで優先検討対象。
第20章 · 日本サービス — Rinna AI Lab, NTT-AT, Picsart Japan
日本陣営。
Rinna AI Lab — 日本語 LLM の先頭。日本語テキスト - 画像、画像 - テキスト モデルのラインアップ。キャラクター・アニメ・漫画トーンに強い。
NTT-AT 生成ツール — NTT グループのエンタープライズ生成 AI サービス。日本企業の社内網と統合される形。
Picsart Japan — Picsart の日本支社が日本語 UI・日本市場特化機能で拡張。
Sakana AI — 東京拠点のスタートアップ。画像単独より、モデル マージ(model merging)・進化的学習のようなメタ手法に強み。一部の日本語特化 SD マージモデルを公開。
Stable Diffusion 日本モデル マージ — Animagine、Pony Diffusion(別)、日本マージモデル シリーズがイラスト・アニメトーンで SDXL ベースで強い。Civitai に多数ホストされている。
日本市場は (1) アニメ・漫画トーンの美的基準が非常に高く、汎用モデルでは足りない、(2) 著作権に対するユーザー意識が強く、ライセンス安全な学習が好まれる、(3) ローカル日本語プロンプト対応が決定的、という特徴。そのため日本マージモデル・LoRA・日本語キャプション データセットが別エコシステムとして固まった。
第21章 · 選択マトリクス — 何をいつ使うか
これまでに見た全ツールを 1 表にまとめる。
| 状況 | 第 1 候補 | 第 2 候補 | 備考 |
|---|---|---|---|
| 美的イラスト シリーズ | Midjourney v7 | Leonardo | sref/cref |
| フォトリアル広告 | FLUX 1.1 Pro Ultra | Imagen 3 | 4K 直接 |
| ポスター内テキスト | Ideogram 3.0 | Recraft V3 | Magic Prompt |
| ロゴ・ベクター デザイン | Recraft V3 | Adobe Illustrator AI | SVG 出力 |
| エンタープライズ ライセンス安全 | Adobe Firefly 3 | Imagen Vertex | indemnification |
| 自分の GPU でフォトリアル | FLUX.1 [dev] | SD 3.5 Large | 16GB+ VRAM |
| 自分の GPU でイラスト | Pony / Animagine | SD 3.5 Large | SDXL ベース |
| ChatGPT 内で会話 | gpt-image-1 / DALL·E 4 | - | インペイント |
| Photoshop 内で合成 | Firefly Generative Fill | - | C2PA |
| キャラクター一貫性シリーズ | Midjourney cref | LoRA(FLUX) | - |
| インペイント・アウトペイント | FLUX.1 Fill | DALL·E 4 | - |
| テキスト - 動画 ブリッジ | FLUX -> Kling 1.5 | Imagen -> Veo 2 | - |
| リアルタイム キャンバス | Krea AI | Leonardo Realtime | LCM |
| 韓国語プロンプト優先 | Naver Hyperclova X | Imagen 3 | - |
| 日本語・アニメ | Rinna / Animagine | NovelAI | - |
質問の分岐。
- 結果物に正確な文字が入るか? -> 入るなら Ideogram または Recraft。入らないなら次へ。
- 写真のように見えるべきか? -> フォトリアルなら FLUX/Imagen/Reve。イラストなら Midjourney/Leonardo。
- 自分の GPU で回すか? -> はいなら FLUX.1 [dev] または SD 3.5。いいえなら API。
- 法的 indemnification が必要か? -> はいなら Adobe Firefly。
- 自分のキャラクター・製品を焼き込むか? -> LoRA 学習(kohya_ss / ai-toolkit)。
- リアルタイム インタラクションが必要か? -> Krea AI / Leonardo Realtime。
第22章 · 結論 — 地図 1 枚、五つの枝
2026 年の春、AI 画像生成の風景を 1 段落に圧縮するとこうなる。
美的感覚は Midjourney v7、フォトリアル リアリズムは FLUX 1.1 Pro Ultra と Imagen 3、テキストとベクターは Ideogram・Recraft、編集・合成は DALL·E 4・FLUX Tools・Photoshop Generative Fill、自分の GPU のベースは FLUX.1 [dev] と SD 3.5 Large、法的安全は Adobe Firefly 3、リアルタイムは Krea AI。ComfyUI のノードグラフがすべてを束ね、ControlNet・LoRA・IPAdapter がビルディング ブロックで、Aura SR・4x-UltraSharp が仕上げ、C2PA が出典を証明する。
2 年前の「1 つのモデル」は終わった。2026 年の答えは **「どの枝にいるか」**である。その枝を正確に描けることが、すなわちワークフローの半分である。
References
- Midjourney ドキュメント: https://docs.midjourney.com/
- Midjourney ウェブアプリ: https://alpha.midjourney.com/
- OpenAI 画像ガイド: https://platform.openai.com/docs/guides/images
- OpenAI gpt-image-1 発表: https://openai.com/index/introducing-4o-image-generation/
- Google Imagen 3 (Vertex AI): https://cloud.google.com/vertex-ai/generative-ai/docs/image/overview
- Google ImageFX (labs): https://labs.google/fx/tools/image-fx
- Google Whisk: https://labs.google/whisk
- Black Forest Labs FLUX: https://blackforestlabs.ai/
- FLUX on HuggingFace: https://huggingface.co/black-forest-labs
- FLUX.1 Tools: https://blackforestlabs.ai/flux-1-tools/
- Stable Diffusion 3.5 (Stability AI): https://stability.ai/news/introducing-stable-diffusion-3-5
- Stability AI ライセンス: https://stability.ai/community-license-agreement
- Ideogram: https://ideogram.ai/
- Recraft: https://www.recraft.ai/
- Adobe Firefly: https://www.adobe.com/products/firefly.html
- Reve Image: https://reve.art/
- Krea AI: https://www.krea.ai/
- Leonardo AI: https://leonardo.ai/
- Playground AI: https://playground.com/
- ComfyUI: https://github.com/comfyanonymous/ComfyUI
- AUTOMATIC1111: https://github.com/AUTOMATIC1111/stable-diffusion-webui
- Forge (lllyasviel): https://github.com/lllyasviel/stable-diffusion-webui-forge
- InvokeAI: https://github.com/invoke-ai/InvokeAI
- Fooocus: https://github.com/lllyasviel/Fooocus
- ControlNet 論文 (Lvmin Zhang): https://arxiv.org/abs/2302.05543
- kohya_ss LoRA 学習: https://github.com/bmaltais/kohya_ss
- AI-Toolkit (ostris): https://github.com/ostris/ai-toolkit
- Civitai (LoRA ハブ): https://civitai.com/
- 4x-UltraSharp: https://openmodeldb.info/models/4x-UltraSharp
- Real-ESRGAN: https://github.com/xinntao/Real-ESRGAN
- Aura SR (fal): https://fal.ai/models/fal-ai/aura-sr
- C2PA 標準: https://c2pa.org/
- SynthID (DeepMind): https://deepmind.google/technologies/synthid/
- Andersen v Stability AI (NDCA): https://www.courtlistener.com/docket/66732129/andersen-v-stability-ai-ltd/
- Getty Images v Stability AI: https://www.gettyimages.com/news/press-releases/
- NYT v OpenAI: https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
- Artificial Analysis 画像ベンチ: https://artificialanalysis.ai/text-to-image
- Naver CLOVA Studio: https://www.ncloud.com/product/aiService/clovaStudio
- Kakao Brain Karlo: https://github.com/kakaobrain/karlo
- Sakana AI: https://sakana.ai/