Skip to content
Published on

AI画像生成 2026 — Flux / Midjourney 7 / Ideogram 3 / Recraft / SD 3.5 / GPT-4o / Imagen 4 深掘りガイド

Authors

プロローグ — 2024年の一つのモデル、2026年の一つの生態系

2年前、誰かが「AIで画像を作る」と言ったら、私たちは自然にMidjourneyかDALL·E 3、あるいはStable Diffusion XLを思い浮かべた。モデルは3つだけで、選択は単純だった。美的感覚が欲しければMidjourney、チャットに繋ぎたければDALL·E、自分の手で扱いたければSDXL。

2026年春、その単純さは終わった。同じ質問に答えるには、まず聞き返さなければならない。「どんな種類の画像?写実的か、イラストか、テキスト入りのポスターか、ベクターロゴか、リアルタイム生成か?オープンウェイトが必要か、APIで十分か?学習データのライセンスが大事か、結果が良ければいいのか?」

本稿はその全ての分岐をたどる2026年のAI画像生成地図だ。Black Forest LabsのFlux 1.1 ProとKontextがオープンウェイトで写実的品質の新基準を立てた話、Midjourney 7が美的感覚の標準として地位を固めた話、Ideogram 3がテキスト入り画像で独走する話、Recraft V3がデザインという別カテゴリを開いた話、Stable Diffusion 3.5がStability AI再編後に再びコミュニティベースモデルとして帰ってきた話。そしてその間にGPT-4oのジブリ・モーメント、Imagen 4、Firefly 4、Krea・Photonのリアルタイム生成、ComfyUIのノードグラフ、LoRA・ControlNet・IPAdapterのビルディングブロック、韓国・日本の独自エコシステムまで。


第1章 · 2026年AI画像生成地図 — 三つの陣営

2026年のAI画像生成市場を一枚の地図に描くと、三つの陣営が現れる。

1. クローズドAPI陣営 — Midjourney 7、OpenAI(GPT-4o画像・DALL·E 4の噂)、Google(Imagen 3・4)、Adobe(Firefly 4)、Ideogram 3。重みは公開せず、自前のインフラで推論を回し、ユーザーはトークンまたはサブスクで支払う。品質の上限が高く、ツール統合が自然で、安全フィルタが強い。

2. オープンウェイト陣営 — Black Forest LabsのFlux(Schnell、Devはオープン、Pro・Ultra・KontextはAPI)、Stable Diffusion 3.5 Large・Medium、NovelAI(一部)、Sakana AIの日本モデル群。重みがHuggingFaceに公開されており、誰でもダウンロードして自分のGPUで動かせる。LoRAファインチューニング、ControlNet、IPAdapter、ComfyUIノードグラフがこの陣営の武器。Civitaiがコミュニティ LoRA のハブを担う。

3. リアルタイム生成陣営 — Krea AI、Luma Photon、fal.aiのLCM/Turboホスティング、そしてその上に積まれたキャンバスUI。一回の入力に5秒ではなく50ミリ秒が目標。スライダーを動かせばリアルタイムに画像が追従し、キャンバスにマウスで描けばその上にディフュージョンが即座に乗る。ユーザー体験が「プロンプト → 待ち → 結果」から「プロンプト → 即時 → インタラクティブ」へと変わる。

三陣営の境界はだんだん曖昧になる。Black Forest LabsはオープンウェイトのDevを公開しつつ、同時にAPIのPro・Ultra・Kontextを運営する。Krea AIは自社モデルよりFlux・SD3.5をLCMで蒸留してリアルタイムで配信する。それでもユーザーがあるモデルを選ぶときに投げる最初の質問 — 「自分が重みに触れるか?」「自分が支払う方式がトークンかGPU時間か?」「自分が結果を受け取る時間が5秒か50ミリ秒か?」 — はいまだにこの三陣営を分けている。

本稿の1部はクローズド(2〜4章)、2部はオープンウェイト(5〜7章)、3部はツール・リアルタイム(8〜12章)、4部は地域(13章)、5部は選択(14章)を扱う。


第2章 · Flux (Black Forest Labs) — SD創業者たちの新会社

2024年8月、Stability AIでStable Diffusionを作っていた中核の研究者たちが会社を離れ、新会社を立ち上げた。名前はBlack Forest Labs(BFL)。ドイツのシュトゥットガルト近郊に本社を置き、Andreessen Horowitzが約31M USDのシードラウンドを主導した。最初のモデルはFlux.1で、三つの変種で出た。

  • Flux.1 [schnell] — 4ステップほどで高速に生成する蒸留版。Apache 2.0ライセンス。商用利用自由。誰でもHuggingFaceから重みを取得できる。
  • Flux.1 [dev] — 50ステップほどの標準版。重みは公開だが非商用ライセンス。個人・研究は自由、商用利用には別ライセンスが要る。
  • Flux.1 [pro] — 一番大きい変種。重み非公開。BFL APIとfal.ai、Replicate、Together.aiなどのパートナーホスティング経由でのみアクセス可。

2024年10月には Flux 1.1 Pro が出た。同じインターフェース、より良い品質、より速い推論。価格は一枚あたり $0.04 程度。そして2025年には大きな発表が二つ続いた。

Flux Ultra — 4K解像度で直接生成する変種。1024 → 4Kアップスケーリングではなく、最初から4Kの潜在空間でディフュージョンを回す。写真を印刷用途に使うユーザー(商用広告、印刷物)に大きな意味がある。

Flux Kontext — BFL最大の一手。画像編集・再文脈化(re-contextualization)専用モデル。入力画像を受け取り、「この人物はそのままに背景だけ東京の街に変えてくれ」「この商品の色を赤から青に変えてくれ」のような指示を自然言語で受ける。前世代のInstructPix2Pix・SDEdit・IP2P系の作業が一段階精緻になった。

Fluxの技術的特徴は三つ。

第一に、Rectified Flowベースのディフュージョントランスフォーマー(MM-DiT)。Stable Diffusion 3が導入したMM-DiTアーキテクチャを引き継ぎ、テキストと画像の潜在変数を同じトランスフォーマーブロックでクロスアテンション処理する。結果、テキストプロンプトの微妙なニュアンス(空間関係、素材、ライティング)が画像によく反映される。

第二に、T5テキストエンコーダの積極利用。SDXLがCLIPを二つ使ったのに対し、Fluxは大きなT5(XXL)をテキストエンコーダに使う。T5は自然言語理解がCLIPよりはるかに優れているため、「左手に赤いリンゴを持って右手はポケットに入れたまま」のような構文的要求がより良く反映される。

第三に、人の手とテキストの弱点がほぼ消えた。SDXLまでのモデルは指の数、時計の針、画像内のテキスト(看板、標識)でよく失敗していた。Flux Proではこの三つがほぼ安定して出る。指は5本で描かれ、時計は12の数字を持ち、「OPEN」という看板は正確に「OPEN」と出る。

ComfyUIユーザーなら、Fluxを次のように使う。

# ComfyUIノードグラフ(要約。実際にはGUIでノードを接続する)
# 1) Load Diffusion Model -> flux1-dev.safetensors
# 2) Load CLIP -> t5xxl_fp8_e4m3fn.safetensors + clip_l.safetensors
# 3) Load VAE -> ae.safetensors
# 4) CLIP Text Encode (Positive) -> "a photo of a red ceramic mug on a wooden desk, soft window light"
# 5) Empty Latent Image -> 1024x1024
# 6) BasicScheduler / KSamplerSelect / RandomNoise / SamplerCustomAdvanced
# 7) VAE Decode -> Save Image

Flux DevはComfyUIで約16GBのVRAMがあればfp8重みで動く(RTX 4080、4090、5080、5090、A100など)。fp16フル精度が要るなら24GBが推奨。

2026年春時点でFluxの位置は明確だ。「オープンウェイトで取得できる写実的品質の最高線」。SDXLを置き換える新しいベースになり、CivitaiではFluxベースのLoRAが毎週数百個アップロードされる。


第3章 · Midjourney 7 — 美的感覚の標準

Midjourneyは最初から最後まで一貫した一つの路線を歩んできた。「技術的正確さではなく美的感覚を売る」。APIを開かず、Discord(そして2024年からは自前のWeb)でインタラクティブに動き、結果は常に「芸術的」だ。同じプロンプトでSDXLは写真のような結果を、Midjourneyは絵画のような結果を出す。

2024年後半に V7アルファ が出て、2025年の本格的なV7リリースを経て2026年春にはV7が基本モデルになった。V7の主要な変化は次の通り。

1. キャラクター・スタイルの一貫性強化。 --cref(character reference)、--sref(style reference)フラグがV6で登場し、V7で精度が大きく上がった。同じキャラクターを複数のシーンに登場させる、ある写真の画風を別のプロンプトに移す、といった作業が安定する。

2. パーソナライズモデル(Personalize)。 Midjourneyがユーザーのいいねデータから学習した「あなただけのモデル」。約200個のペア評価を経ると有効化され、--p フラグで呼び出す。同じプロンプトでもユーザーごとに違う美的結果が出る。

3. ビデオモード。 V1ビデオが2025年中盤に追加された。静止画像を5秒・10秒の動画にアニメーション化する。Luma、Runway、Pikaと競合するカテゴリだが、Midjourneyの美的感覚が動画でも一貫して保たれることが差別化要素。

4. ムードボード(Moodboards)UI。 Webインターフェースで複数の画像をグリッドに集めてムードボードを作り、そのムードボードを --sref の代わりにまるごとスタイルガイドとして使える。

Midjourney 7の価格は $10/月(Basic、約3.3時間のGPU時間)、$30/月(Standard、15時間)、$60/月(Pro、30時間+Stealth Mode)、$120/月(Mega)程度。無制限モードは「遅いキュー」で動き、一定時間は高速キューで処理される。

技術的にはMidjourneyは自社アーキテクチャを公開しない。推測は潜在ディフュージョン+独自強化学習(RLHF)程度。ユーザーデータがモデル改善の核心資産で、毎週新しい「スタイルトークン」が発見されコミュニティで共有される。

Midjourneyの弱点は二つ。APIがない。自動化・サービス統合が難しい(サードパーティがDiscordを迂回して作った非公式ラッパーはあるがToS違反)。テキスト入り画像で弱い。ポスター・看板のように文字が核心の画像はIdeogramかFlux Proに譲るしかない。

しかし「広告コンセプト、ファッションルックブック、本のカバー、ムードボード、イラスト、絵画スタイル」 — 美的感覚が結果の90%を占めるカテゴリでは、Midjourney 7はいまだに標準。


第4章 · Ideogram 3 — テキスト入り画像の正解

2023年末、Ideogramが初登場したとき最大の衝撃は 画像内のテキストが正確 ということだった。他の全てのモデルは「STORE」という看板を描こうとすると「STOORE」「STOPRE」「STORF」といった偽の文字が出ていた。Ideogramだけが正確に「STORE」を描いた。

Ideogram 2を経て、2025年に発表された Ideogram 3 はその強みをさらに広げた。

テキスト忠実度。 英語はほぼ完璧。韓国語・日本語・中国語もV2までの不自然さが大きく減った。フォントスタイル(セリフ、サンセリフ、手書き)、文字サイズ、整列、多言語混在 — 自然言語プロンプトで指示可能。

Magic Fill / Magic Prompt. Ideogramのインペインティング。画像の特定領域をマスクして「ここをこう変えてくれ」と指示する。テキスト領域の修正に特に強い。「BLACK FRIDAY」と書かれたポスターで「CYBER MONDAY」に文字だけ変える作業が自然に動く。

スタイルライブラリ。 約4400個の事前定義スタイルトークン(2026年春時点)。「Vintage Travel Poster」「1980s Anime」「Watercolor Illustration」といったトークンをプロンプトに添えれば一貫した結果が出る。

Ideogramの価格は $8/月(Basic)、$20/月(Plus)、$60/月(Pro)。無料枠もあり、誰でも一定量までは試せる。APIも公開されており、マーケティングツール・デザインツールへの統合に向く。

Ideogramが強いカテゴリは明確だ。ポスター、広告バナー、本のカバー、名刺、Tシャツデザイン、インスタグラムカード、メニュー — テキストが核心の画像。イラスト品質だけ見ればMidjourneyより一段下だが、「文字が正確であるべき」という制約の下ではIdeogramが正解。

技術的にIdeogramがテキストに強い理由は、テキストレンダリングを別の損失関数として扱う学習方式と推測される。通常のディフュージョンモデルは全てのピクセルを同等に扱うが、Ideogramは生成画像からOCRのような補助モデルでテキストを再認識して正確度を損失として返す方式を使うと言われている。


第5章 · Recraft V3 — デザイン(ベクター/ロゴ)特化

Recraftは他の全てのモデルとは違うカテゴリから出発した。ラスター(ピクセル)画像ではなくベクター(SVG)画像を出力するAI。ロゴ、アイコン、イラスト、パターン — デザイナーがイラストレーターやFigmaで使える形で結果を受け取る。

2024年末のRecraft V3はLMSYS Artificial Analysis Image Arenaでしばらく1位を取った。テキスト忠実度、デザイン品質、そして何より SVG 出力が評価に影響した。

Recraftの核心機能。

Vectorモード。 プロンプトを与えるとSVGで出力する。そのSVGをダウンロードしてイラストレーターで開けばさらに編集可能。カラーパレット、レイヤー構造が綺麗。ロゴデザインの初稿として非常に有用。

Brand Style. ユーザーが自社ブランドの画像数枚をアップロードすると、Recraftがそのスタイルを抽出して一貫した結果を作る。「我が社のイラストスタイル」を学習させるわけだ。

Mockup. デザインを作ると自動でTシャツ・マグカップ・ポスター・ノートパソコンケースなど多様なモックアップに適用して見せる。eコマース・POD(Print on Demand)ビジネスに有用。

Recraft API. デザインワークフローに統合できるAPI。Webflow、Framer、Figmaプラグインなどが既に統合済み。

価格は無料枠(毎日一定量)、Basic $10/月、Advanced $33/月、Enterpriseは別途。APIはコールごとの課金。

Recraftの弱点は 写実的画像。FluxやMidjourneyのように「実写のような写真」を作るのには向かない。デザイン・イラストという狭いカテゴリで専門化されたツールだ。

Recraftに意味がある理由は別にある。AI画像生成がもはや「汎用モデル一つ」ではなくカテゴリ別に分化し始めた信号。写真はFlux、美的イラストはMidjourney、テキストポスターはIdeogram、ベクター・ロゴはRecraft。しばらくは「全てを一つのモデルで」がトレンドだったが、2025-2026年には再びカテゴリ別専門化に戻る流れが見える。


第6章 · Stable Diffusion 3.5 — Stability AI 再編後

Stability AIは2024年に大きな激変を経た。CEOのEmad Mostaqueが去り、中核研究陣の多くがBlack Forest Labsに移り、会社はほぼ解体寸前まで行った。しかし新経営陣(Sean Parkerなどがボードに加入)の下で再編を経て、2024年10月に Stable Diffusion 3.5 を発表することで会社は安定を得た。

SD 3.5は三つの変種で出た。

  • SD 3.5 Large — 8.1Bパラメータ。フル精度では24GB VRAM推奨。fp8では16GBで動く。
  • SD 3.5 Medium — 2.5Bパラメータ。12GB VRAMで動く。
  • SD 3.5 Large Turbo — Largeの4ステップ蒸留版。高速推論用。

ライセンスは Stability AI Community License。年商1M USD未満の会社・個人は商用利用自由。それ以上は別途エンタープライズライセンス。2024年のSD3 Mediumでライセンスが厳しすぎるという反発があり、3.5で条件を緩めた。

技術的にSD 3.5はMM-DiT(Multimodal Diffusion Transformer)アーキテクチャをそのまま使う。Fluxと同じ系譜だが、BFLが会社として離れる前の最後の共同作業の痕跡が残っている。

ComfyUIでSD 3.5は次のように使う。

# 1) Load Checkpoint -> sd3.5_large.safetensors
# 2) CLIPTextEncodeSD3 (clip_g + clip_l + t5xxl)
#    Positive: "A close-up portrait of a woman with curly hair, golden hour lighting"
#    Negative: "blurry, low quality, distorted hands"
# 3) EmptySD3LatentImage -> 1024x1024
# 4) ModelSamplingSD3 -> shift 3.0
# 5) KSampler -> euler / sgm_uniform / 28 steps / cfg 4.5
# 6) VAE Decode (sd3.5 vae) -> Save Image

SD 3.5の位置は微妙。品質だけ見ればFlux Devが一段上。しかしSD 3.5は ライセンスがより明確(年商基準の明確な無料利用閾値)で、コミュニティLoRA・ControlNetがより豊富(SD 1.5/SDXLから続くエコシステムが移行中)。

2026年春時点で 「オープンウェイトのベースモデル2つ」が定着 した姿だ。写実性+テキスト忠実度+指が最優先ならFlux Dev、ライセンス明確性+広いコミュニティLoRAが最優先ならSD 3.5。SD 1.5とSDXLは徐々にレガシーの位置に押し出されつつある。


第7章 · Google Imagen 3 / 4 / ImageFX

GoogleはAI画像生成で常に「二番手リリース」の立場にあった。Imagen 1・2は論文だけ公開しモデルは非公開で、2024年中盤のImagen 3になってようやく一般ユーザーがアクセス可能な形でリリースされた。

Imagen 3は二つの経路で使える。

ImageFX — Google Labsの無料Webインターフェース。labs.google/fx/tools/image-fxで誰でも一定量を無料で使える。Imagen 3ベース。

Vertex AI / Gemini API — Google Cloudのエンタープライズ経路。API呼び出しごとに課金。安全フィルタ、SynthIDウォーターマーク、エンタープライズSLAが付いてくる。

2025年後半に Imagen 4 が発表され、2026年春時点ではImageFXとGemini APIの両方で使える。Imagen 4の変化:

  • テキスト忠実度 — Imagen 3までの弱点だった画像内テキストがIdeogram水準に近づいた。
  • 多言語プロンプト — 英語以外の韓国語・日本語・中国語プロンプトの理解度が上がった。韓国語で「노을 진 한강의 풍경」と入力すれば意味のある結果が出る。
  • SynthIDウォーターマーク — Googleが強く推進する目に見えないウォーターマーク。人の目には見えないがGoogleの検出器は「この画像はAI生成」と識別する。

Imagenの強みは Google生態系との統合。Geminiから直接画像生成を呼べ、Google Workspace(Docs、Slides)に一発で挿入でき、NotebookLMやGoogle AI Studioのようなツールで自然に使える。

弱点は 安全フィルタの保守性。人の顔生成に非常に保守的で(特に一部の人種・性別の組み合わせ)、政治的人物、暴力的想像、性的暗示に強い制約がある。広告・マーケティングイラスト用途には十分だが、自由な創作ツールとしては窮屈に感じることがある。


第8章 · OpenAI GPT-4o 画像(2025.3 ジブリ・モーメント) / DALL·E 4

OpenAIのDALL·E 3は2023年後半にChatGPTに統合され大きな影響を与えた。2025年に入ると流れが変わった。GPT-4oのネイティブ画像生成 が発表され、DALL·Eという別モデルではなくGPT-4o自体が画像を作る構造に移行した。

2025年3月のジブリ・モーメント。 GPT-4oの画像生成がすべてのChatGPTユーザーに開放された数日間、Twitter(X)では「スタジオジブリ風で作って」が爆発した。自分の写真、家族写真、会社のロゴ、街の風景 — 何でも宮崎駿風に変換されてアップされた。OpenAIサーバーは数日間ほぼ麻痺し、Sam Altmanは「ここまでとは思わなかった」とツイートした。

この事件が意味するもの三つ。

1. チャットUIでの自然な画像生成がカテゴリ自体を再定義した。 別のツールを開いてプロンプトを入力するのではなく、会話中に「これジブリ風に描いて」と言えば即座に結果が出る。UI摩擦の差が利用量で100倍の差を生んだ。

2. スタイル転送(style transfer)の文化的衝撃。 「ジブリ」という単語一つで一つのスタジオの画風が誰の日常写真にも適用される。著作権・クリエイター権についての議論が爆発し、宮崎駿本人の過去の発言(「AIアニメは生命に対する侮辱」)が再引用された。

3. モデル統合の未来。 「画像モデル」と「テキストモデル」の分離が崩れ始めた。GPT-4oはテキスト・画像・音声・動画を一つのモデル内で処理する。こうしたマルチモーダル統合が標準になれば、「DALL·Eを別途呼ぶ」UXは徐々に消えていく。

DALL·E 4の噂。 2026年春時点では正式発表はないが、業界筋では GPT-4o 画像生成を継ぐ新しい画像専用モデルが準備中という話がある。推測はビデオ生成(Sora系)との統合、そしてより大きなテキストエンコーダ適用程度。

GPT-4o画像の価格はChatGPT Plus($20/月)サブスクに含まれ、ChatGPT Freeユーザーも一定量無料、APIは別途(画像出力トークン基準の課金)。


第9章 · Adobe Firefly 4 — ライセンスの綺麗な学習データ

Adobeは2023年から自社画像生成モデル Firefly を運営してきた。他のモデルとの最大の違いはただ一つ。学習データのライセンスが綺麗だ。Adobe Stockの画像、パブリックドメイン画像、そしてライセンスが下りた画像だけで学習したと明記している。

このライセンス約束が意味する市場は明確だ。エンタープライズと広告代理店。クライアントに成果物を納品するときに「この画像が誰の著作権も侵害しない」保証が必要なユーザー。Adobeは Fireflyで作られた画像について 法的賠償まで提供 する。

2026年春基準でのFirefly 4の位置。

品質 — Flux Pro、Midjourney 7、Imagen 4と比べると一、二段下と評価されることが多い。しかし「比べると一、二段下」が日常使用で問題になるレベルではない。広告・マーケティング用途には十分。

統合 — Photoshop、Illustrator、Premiere Pro、Express。Adobeの全製品にFireflyが深く統合されている。PhotoshopのGenerative Fill、IllustratorのGenerative Recolor、PremiereのGenerative Extend(動画の長さ自動延長)など。Adobeユーザーには別のツールではなく日常の一部だ。

サブスク — Adobe Creative Cloudサブスクに含まれ、「生成クレジット」で使用量管理。別途のFirefly Premiumサブスクもある。

Custom Models — エンタープライズは自社の画像でFireflyをファインチューニングできる。ブランドガイドライン遵守、一貫したキャラクターなど。

Firefly 4の弱点は 創作の自由度。安全フィルタとライセンスポリシーが保守的なため、「なぜか作れない」画像がよく出る。自由な創作ツールとしては窮屈。

しかしFireflyの市場価値は別のところにある。「法的安全が優先」の企業市場 でFireflyはほぼ独占に近い。広告代理店、エンタープライズマーケティング、政府発注デザイン — こうした市場ではMidjourneyやFluxを使えない。


第10章 · Krea AI / Photon (Luma) — リアルタイム生成

2024-2025年に新たに浮上したカテゴリが リアルタイム画像生成。一枚の画像を受け取るのに5秒ではなく50ミリ秒かかるモデル・インターフェース。

Krea AI はこのカテゴリで最も知られたインターフェースだ。krea.aiで使う。キャンバスの上にマウスで大ざっぱにスケッチを描けば、その上にディフュージョンがリアルタイムに乗る。色を別に塗れば結果が即座に追従する。プロンプトを修正すればほぼ遅延なく結果が更新される。

内部的にKreaはFlux・SD3.5・SDXLのようなベースモデルを LCM(Latent Consistency Model)あるいはTurboで蒸留 して4ステップ以内で生成するようにする。そしてその上に独自のキャンバスUIをかぶせる。ユーザー体験が「プロンプト → 待ち」ではなく「プロンプト → インタラクティブキャンバス」になる。

Luma Photon はLuma Labsの画像モデル。Lumaは元々Dream Machineというビデオ生成で有名な会社で、2024年末に画像専用Photonを発表した。特徴は 高速推論と写実的品質のバランス。PhotonはAPIとLuma Webインターフェースで使える。

fal.ai はこうしたリアルタイム・高速推論をホスティングするインフラ会社。Flux Schnell、SDXL Lightning、SD 3.5 Turboのような高速変種をfal.ai APIで呼び出すとほぼリアルタイムの応答を得られる。ComfyUIワークフローをそのままfal.aiにアップロードして配信する機能もある。

リアルタイム生成が意味のある使用ケース三つ。

1. デザイン探索。 色・構図・素材をスライダーで動かしながら結果をリアルタイムで見る。「結果 → 修正 → 再生成」ループが50ミリ秒であれば、デザイン思考が完全に違う形になる。

2. リアルタイム協業。 Figma・Miroのような協業キャンバスにディフュージョン出力が統合される。一人がキャンバスに図形を描けば、他の人が見る画面でも即座にその図形の上にAI結果が乗る。

3. ライブコンテンツ。 ライブストリーミング、VJ-ing(ライブビジュアル)、リアルタイム広告 — ライブディフュージョンをコンテンツ自体の一部として使う使用ケースが増えている。

価格はモデル・インフラごとに違うが、fal.ai基準でFlux Schnell一枚が約 $0.003、SDXL Lightningは $0.001 程度。一時間使っても数ドルほどだ。


第11章 · ComfyUI — ノードベースワークフローの標準

オープンウェイト画像生成で2026年春時点の標準ツールは ComfyUI。2023年初に登場したノードベース(node-based)ワークフローGUIだが、今ではStability AI、Black Forest Labs、NVIDIA、Appleの全てが自社モデルの「ComfyUIワークフロー例」を公開する。

ComfyUIの核心は 全てのステップがノード という点。

  • モデルロード → ノード
  • テキストエンコーディング → ノード
  • 潜在空間ノイズ初期化 → ノード
  • ディフュージョンステップ → ノード
  • VAEデコーディング → ノード
  • 保存 → ノード

各ノードは入力ポートと出力ポートを持ち、ノードをワイヤーで繋いでグラフを作る。グラフはJSONで保存され、誰でもそのJSONをインポートして同じ結果を再現できる。

ComfyUIの強み。

1. 再現可能性。 ワークフローJSONを共有すれば誰でも同じ結果を得られる。CivitaiでLoRAを取得するとき「このLoRAに推奨されるComfyUIワークフロー」が一緒にアップロードされる。

2. 複雑なパイプラインの自然な表現。 「テキスト → 1次ディフュージョン → アップスケール → ControlNet適用 → 2次ディフュージョン → 後処理」のように複数段階あるパイプラインをグラフで表現するのに向いている。

3. カスタムノードエコシステム。 GitHubに数千個のカスタムノードパッケージがある。ComfyUI-Managerで一発インストールでき、「この使用ケースに必要なノード」をまとめて取得できる。

4. APIモード。 ComfyUIはGUIだけでなくHTTP APIも提供する。ComfyUIインスタンスにワークフローJSONをPOSTすると結果画像が返ってくる。fal.ai、RunPodなどでComfyUIをサーバーレスでホスティングする。

ComfyUIの弱点は 学習曲線。AUTOMATIC1111のWebUIやFooocusのようなフォームベースUIに慣れたユーザーにはノードグラフが最初は馴染みにくい。しかし複雑なワークフローを扱い始めると、ノードグラフ以外の選択肢は事実上ない。

代替ツールも挙げておこう。

  • AUTOMATIC1111 / SD WebUI — 最も古いSDのGUI。フォームベース。2026年春時点ではSDXLまではよくサポートしているがFlux/SD3.5はComfyUIより一拍遅い。
  • Forge — A1111のフォーク。パフォーマンス最適化に集中。VRAM使用量が減る。
  • InvokeAI — もう少しデザイナーフレンドリーなインターフェース。インペインティング・アウトペインティングが自然。
  • Fooocus — Midjourneyスタイルのシンプルなインターフェース。フォーム二、三個を埋めれば結果が出る。

Civitai はLoRA・チェックポイント・埋め込みのコミュニティハブ。ユーザーが自分のLoRAをアップロードし、他の人がダウンロードして使う。2026年春時点ではFlux・SD 3.5ベースのLoRAが最も多くアップロードされ、NSFWポリシーについての議論が続く。

HuggingFace はモデル重みの公式ハブ。BFLのFluxシリーズ、Stability AIのSD 3.5、そしてその上のファインチューンモデルがここにアップされる。Civitaiがコミュニティ LoRA 中心なら、HuggingFaceはベースモデル・研究用モデル中心。


第12章 · LoRA / ControlNet / IPAdapter — ワークフロービルディングブロック

オープンウェイト画像生成を本気で扱うなら、三つのビルディングブロックを知っておくべきだ。

1. LoRA (Low-Rank Adaptation). ベースモデル全体を再学習せず、小さなアダプタ(約10〜100MB)だけ学習してモデルの挙動を変える技法。一つのキャラクター、一つの画風、一つのコンセプトを教えるのに使う。SDXL用LoRAが最も豊富で、2026年春にはFlux Dev用LoRAに重心が移りつつある。

LoRAを作るのに必要なもの:20〜100枚の画像(リファレンス)、その画像へのキャプション、そして約10〜30分のGPU時間(RTX 4090基準)。Kohya_ss、OneTrainer、ai-toolkitのようなツールで学習する。

ComfyUIでLoRAを使う方法:

# 1) Load Checkpoint -> ベースモデル
# 2) Load LoRA -> my_character.safetensors / strength 0.8
# 3) CLIP Text Encode -> "a portrait of <trigger_word>, soft lighting"
# 4) 以降は標準のKSamplerフロー

trigger_word はLoRA学習時に決めたトークン。そのトークンがプロンプトに入るとLoRAが活性化する。

2. ControlNet. 入力画像の構造情報(輪郭、ポーズ、深度マップ、セグメンテーション)を抽出して、その構造に合わせて新しい画像を生成する技法。「この写真のポーズを維持しながら衣装だけ変えてくれ」のような作業が可能。

ControlNetの主なモード:

  • Canny edge — 輪郭抽出。原本の構図を維持。
  • OpenPose — 人のポーズ抽出。同じポーズで違うキャラクターを生成。
  • Depth — 深度マップ抽出。空間構造維持。
  • Tile — ディテール強化・アップスケール。
  • Inpaint — マスク領域だけ再生成。

SDXL用ControlNetは非常に豊富で、Flux用ControlNetも急速に埋まりつつある。SD 3.5用はまだSDXLほどではないが主要なモードは揃っている。

3. IPAdapter (Image Prompt Adapter). 画像そのものをプロンプトとして使うアダプタ。テキストプロンプトだけでは表現しにくい「こんなスタイル・雰囲気・色味」をリファレンス画像で伝える。CLIP埋め込みを活用し、リファレンス画像の意味をディフュージョンの過程に注入する。

IPAdapterの使用ケース。

  • スタイル転送 — 写真を絵画風に、絵画を写真風に。
  • カラーパレットの一貫性 — 一連の画像が同じ色味を維持。
  • キャラクターの一貫性 — 一つの顔が複数のシーンに登場。

ControlNetとIPAdapterは一緒に使うと強力。ControlNetで構造を作り、IPAdapterでスタイル・雰囲気を取ってくる。

Img-to-Img / Inpainting / Outpainting も欠かせない。Img-to-Imgは既存の画像を入力として受け取り、部分的にノイズを加えてから再びデノイズする技法。Inpaintingはマスクされた領域だけ再生成。Outpaintingは画像の外側境界を拡張。この三つは全てのオープンウェイトモデルで基本サポートされる。


第13章 · 韓国 / 日本のAI画像(NovelAI、Sakana、Tsuzumi)

英語圏のモデルだけ見ると市場の全体像が見えない。韓国と日本では独自のエコシステムが別途動いている。

韓国。

  • カカオKoGPT画像 — カカオの自社画像生成。KakaoTalk、カカオトーク・チャンネルなどに統合されている。韓国風イラスト(ウェブトゥーンスタイル、韓服、韓国料理など)に強み。
  • ネイバー・クローバX (CLOVA Studio) — ネイバーのLLM・画像統合プラットフォーム。HyperCLOVA Xベース。ネイバー検索、ネイバーブログ、ネイバーショッピングに統合。韓国語プロンプトの理解が自然。
  • lytics(ライティクス) — 韓国のスタートアップ。広告・マーケティング用AI画像生成に特化。モデル自体はSDXL・Fluxベースに韓国商品データでファインチューンしたLoRA集合を運用。

日本。

  • NovelAI — 2022年から運営される日本アニメスタイル画像生成の事実上の標準。NovelAI Diffusion V4(2025年)基準でアニメ・イラスト品質がSDXLベースの他モデルとは次元が違う。独自の学習データセットと独自ファインチューン。
  • Sakana AI — 東京本社。英国出身の研究者David Haが共同創業。進化的モデルマージ(evolutionary model merging)のような独自研究で知られる。日本語LLMと日本語マルチモーダルモデルを開発中で、政府・大企業との協業が増えている。
  • NTT つづみ(Tsuzumi) — NTTが開発した日本語LLM。画像生成そのものよりはマルチモーダル理解(画像をテキストで説明)で強みがあると知られる。
  • Yi-Vision — 01.AI(中国)のモデルだが日本・韓国でもよく言及される。マルチモーダル理解モデルでOCR・文書分析に強い。

地域モデルに意味がある理由は二つ。第一に、言語・文化理解。韓国語で「갈치조림」と言えば韓国モデルは正確な料理を描く。グローバルモデルは「갈치」が何か知らないことが多い。第二に、データ主権。政府発注、公共機関、そして一部の大企業は外国クラウドにデータを送りたくない。韓国・日本国内のデータセンターで運営される自社モデルが必要だ。

しかし地域モデルの弱点も明確だ。品質の絶対水準 がFlux・Midjourney・Imagen 4には及ばない。一般の写実的画像ではグローバルモデルが一段上。地域モデルは「韓国的文脈」「日本アニメスタイル」のような狭いカテゴリで強みを持つ。


第14章 · 誰が何を選ぶべきか — 広告 / 製品デザイン / 漫画 / マーケティング

ここまで11個のモデル・ツールを見た。では実際のユーザーは何を選ぶべきか?使用ケース別に整理する。

広告・マーケティング・ビジュアル(代理店・インハウス)。

最も無難な組み合わせ:Midjourney 7(コンセプト)+ Adobe Firefly 4(納品用)。Midjourneyでムードボード・コンセプト案を素早く作り、クライアントOKが出たらFireflyで最終版を作る。Fireflyはライセンスが綺麗で法的リスクがない。テキスト入り広告バナーはIdeogram 3で別途処理。

製品写真(eコマース、ブランド)。

Flux 1.1 Pro または Flux Kontext。製品写真の写実的品質が最も安定する。Kontextで背景だけ変える作業が非常に有用。SDXL時代のIPAdapter + ControlNetワークフローをComfyUIでそのまま運用するチームも多い。

ロゴ・アイコン・イラストデザイン。

Recraft V3。ベクター出力が決定的な理由。他のモデルで作ると再びイラストレーターで描き直す必要があるが、Recraftは最初からSVGで出る。補助でMidjourney 7でコンセプトを掴みRecraftでベクター化する流れもある。

本の表紙・ポスター・アルバムカバー。

Ideogram 3(テキストが核心の時)+ Midjourney 7(画像が核心の時)。テキストが大きな比重を占めるならIdeogram、画像が主でテキストは小さいならMidjourneyで一旦作りテキストはPhotoshop・Figmaで別途乗せる。

ウェブトゥーン・漫画・イラスト。

NovelAI(アニメスタイルが核心の時)または SD 3.5/Flux Dev + LoRA。NovelAIはイラスト品質が圧倒的だがライセンス・サービス依存がある。自分の画風を育てたいならSD 3.5またはFlux Devをベースに自作品でLoRAを学習。ComfyUIワークフローで一貫性を保つ。

個人創作・実験。

ChatGPT(GPT-4o 画像) が最も摩擦が少ない。「これ作って」とチャットに入力するだけ。より自由な結果が欲しければStable Diffusion 3.5やFlux Devをローカルで直接運用。

デザイン探索・リアルタイム協業。

Krea AI または Photon。リアルタイム生成の摩擦がデザイン思考そのものを変える。Figma・Miroとの統合が次第に自然になっている。

エンタープライズ・政府。

Adobe Firefly 4(ライセンス)、Google Imagen 4 (Vertex AI)(インフラ・SLA)、または 自社ホスティング SD 3.5/Flux(データ主権)。ユーザーが一つのツールを選ぶのではなく、セキュリティ・法務・財務が一緒に選ぶカテゴリ。

もう一つ — 「どこでも一つのモデル」の時代は終わった。 2024年には「Midjourney一つで全て」のような答えがある程度可能だった。2026年には本気のユーザーなら二、三のモデルは並行運用する。写真はFlux、イラストはMidjourney、テキストはIdeogram、ベクターはRecraft、そして自社LoRAはSD 3.5。一つのモデル・一つの企業に縛られる時代は過ぎた。


エピローグ — 次の2年

最後に、2026年春時点で見える次の2年の方向を二つだけ挙げる。

1. マルチモーダル統合。 GPT-4oが見せた「一つのモデル内でテキスト・画像・音声・動画」が標準になる。DALL·E・Imagenのような「別途の画像モデル」の位置がだんだん小さくなる。ユーザーUXはチャット+キャンバスが統合された形に収束する。

2. ビデオ生成の爆発。 2024年のSora、2025年のVeo 2・Kling・Hailuo・Runway Gen-3、2026年のVeo 3・Sora 2・Luma Dream Machine 2など。画像生成で検証された技術がビデオに移っていく流れが加速する。「画像モデル」と「ビデオモデル」の境界も曖昧になる(同じ会社が両方運営、同じインターフェースで両方呼ぶ)。

画像生成自体はもはや「AIの最も衝撃的な技術」ではない。2022年のDALL·E 2が与えた衝撃はもう日常になった。2026年の私たちは画像生成をツールとして使い、その上に次の衝撃を待つ。次の衝撃が何になるかはわからないが、その次もこの記事のモデル群 — Flux、Midjourney、Ideogram、Recraft、SD 3.5、Imagen、GPT-4o、Firefly — は誰かの日常の作業ツールとして残っているだろう。


参考 / References