Split View: AI 이미지 생성 2026 — Flux · Imagen 4 · Midjourney v7 · Ideogram · Recraft · Firefly · DALL-E · Stable Diffusion 정직 비교
AI 이미지 생성 2026 — Flux · Imagen 4 · Midjourney v7 · Ideogram · Recraft · Firefly · DALL-E · Stable Diffusion 정직 비교
프롤로그 — 두 번의 흔들림
2022년 8월, Stable Diffusion 1.4가 공개됐다. 그 전까지 이미지 생성 AI는 OpenAI DALL-E 2와 Midjourney v3의 비공개 베타였다. SD가 오픈웨이트로 풀리는 순간, 카테고리 전체가 재편됐다. 누구나 4090 한 장으로 무한히 이미지를 만들 수 있게 됐고, ComfyUI · Automatic1111 · Fooocus · Forge 같은 커뮤니티 UI가 폭발했고, LoRA · ControlNet · IP-Adapter 같은 확장이 줄줄이 나왔다. 2023년은 "SD 생태계의 해"였다.
2024년 초, Black Forest Labs라는 이름이 등장했다. SD의 원 개발자들(Robin Rombach, Andreas Blattmann 등)이 Stability AI를 떠나 차린 회사다. 그해 8월, Flux.1이 발표됐다. 오픈웨이트 Schnell(Apache 2.0), 비상업 Dev, 상업 Pro의 3단 체계. 첫 출시 시점에 SD-XL을 명확히 능가했고, 1년 만에 오픈웨이트 이미지 모델의 새 기준이 됐다. 이게 첫 번째 흔들림이다.
2025년 봄, 두 번째 흔들림이 왔다. Midjourney v7이 4월 출시되며 컨슈머 미학을 다시 끌어올렸다. 같은 해 6월에는 Google Imagen 4가 일반공급(GA)됐고, Adobe Firefly Image 4가 그 다음 분기에 따라왔다. 8월에는 Black Forest Labs가 Flux.1 Kontext를 공개해 "이미지 편집"이라는 별도 트랙을 열었다. 11월, OpenAI는 ChatGPT의 기본 이미지 생성기를 DALL-E 3에서 gpt-image-1로 교체했다. Ideogram은 v3에서 텍스트 렌더링의 격차를 더 벌렸다.
2026년 5월 지금 풍경은 이렇다.
- 오픈웨이트의 왕좌: Flux가 SD-XL/3.5의 자리를 차지했다. ComfyUI/Forge에서 가장 많이 도는 베이스 모델이 Flux 계열이다. Stability AI는 SD 3.5 Large 이후 한 박자 늦었다.
- 컨슈머 미학의 정점: Midjourney v7 + 그 뒤를 잇는 Imagen 4 Ultra. 디자이너가 한 장만 뽑아야 한다면 여전히 이 둘 중 하나.
- 타이포의 단독 1위: Ideogram v3. 포스터에 글자가 들어가야 하면 다른 선택지가 거의 없다.
- 디자이너의 도구: Recraft가 "벡터까지 만드는 AI"로 카테고리를 만들었고, Firefly가 "어도비 워크플로 안에서 안전한 이미지"를 강화했다.
- 개발자 백엔드: OpenAI gpt-image-1, Google Imagen 4, Flux Pro 1.1 — API에서 가장 많이 호출되는 셋.
- 소송과 라이선스: Stability AI 대 Getty Images 영국 판결(2025년 11월)이 부분적으로 정리되며 "학습 자체"는 합법, "출력의 상표 유사성"은 별개의 문제로 갈렸다. 이게 라이선스 클린함을 마케팅 포인트로 만든 Firefly · Imagen · gpt-image-1의 입지를 더 굳혔다.
이 글은 그 풍경을 도구별 · 사용처별 · 워크플로별로 정직하게 정리한다. 어떤 모델이 무엇을 가장 잘하는지, 로컬 vs 클라우드의 진짜 선택지가 무엇인지, ComfyUI는 정말 끝났는지(아니다), 그리고 소송이 어떻게 풀리고 있는지를 같이 본다.
핵심 한 줄: 2026년 이미지 생성에서 "단일 최고 모델"은 없다. 타이포 · 일관성 · 편집 · 라이선스 · 미학 다섯 축이 다 다른 도구로 갈라졌다. 도구를 알면 한 작업에 한 시간 걸리던 게 10분이 된다.
1장 · Flux 시대의 도착 — 오픈웨이트의 새 기준
1.1 Black Forest Labs는 누구인가
2024년 3월, Stability AI의 핵심 연구진(Robin Rombach, Andreas Blattmann, Patrick Esser, Dominik Lorenz)이 회사를 떠나 Black Forest Labs를 설립했다. 본사는 독일 프라이부르크. 시드 라운드(2024년 8월, 약 3,100만 달러)에 Andreessen Horowitz가 리드했고, General Catalyst, Y Combinator, MätchVC가 참여했다.
이들은 SD 1.x, 2.x, SD-XL의 원저자다. 즉 "오픈웨이트 이미지 생성"이라는 카테고리를 만든 사람들이 회사를 새로 차렸다. 첫 결과물이 Flux.1이다.
1.2 Flux.1의 3단 체계
Flux.1은 같은 아키텍처 · 같은 학습 데이터에서 세 가지 변형으로 출시됐다.
- Flux.1 Schnell. Apache 2.0 라이선스. 1-4 스텝 추론. 가장 가볍고 가장 자유롭다. 상업 사용 OK. 4090 한 장에 6~8GB VRAM이면 돈다.
- Flux.1 Dev. Black Forest Labs Non-Commercial License. 가중치는 공개됐지만 상업 사용 불가. 연구 · 학습 · 개인 프로젝트용. 50 스텝 가이드 추론.
- Flux.1 Pro. 비공개. API로만 접근. 가장 좋은 품질. fal.ai · Replicate · Together AI 같은 호스팅 파트너에서 호출.
이 3단 구조가 영리하다. 무료로 풀어 생태계를 만들되, 상업 가치는 Pro와 라이선스에서 회수한다. 2025년 들어 Flux.1.1 Pro와 Flux.1.1 Pro Ultra(4MP까지)가 추가되며 Pro 라인이 더 단단해졌다.
1.3 왜 SD-XL을 능가했나
Flux.1의 기술적 차별점은 세 가지다.
- 120억 파라미터. SD-XL(2.6B)의 약 4.6배. SD 3.5 Large(8B)보다 50% 큼.
- Rectified Flow. 디퓨전의 변형. 표준 디퓨전이 노이즈에서 이미지로 가는 경로를 곡선으로 학습한다면, Rectified Flow는 직선으로 학습하려 한다. 결과적으로 적은 스텝에서도 품질이 높다.
- MMDiT 아키텍처. Stable Diffusion 3에서 도입된 멀티모달 디퓨전 트랜스포머. 텍스트와 이미지를 같은 트랜스포머 블록에서 동시에 처리한다. 텍스트 정합성(prompt adherence)이 SD-XL 대비 큰 폭으로 개선됐다.
실측 결과(2024년 8월 출시 시점 벤치마크): 인간 평가에서 Flux Pro가 Midjourney v6, DALL-E 3, SD 3을 모두 앞섰다. 손가락 · 텍스트 정합성 · 해부학 같은 약점 영역에서 특히 차이가 컸다.
1.4 Flux Kontext — 이미지 편집의 정답
2025년 5월, Black Forest Labs는 Flux.1 Kontext를 공개했다. "이미지 + 텍스트 → 편집된 이미지" 모델이다. 기존 텍스트-투-이미지(text-to-image, T2I)와 다르다.
Kontext의 특별한 점.
- 다중 입력. 참조 이미지 1~여러 장 + 텍스트 지시. "이 사람의 얼굴을 유지하면서 옷만 검은 정장으로", "두 입력 이미지를 같은 톤으로 합치기" 같은 작업이 된다.
- 국소 편집. "이 부분만 바꾸고 나머지는 보존". 인페인팅 마스크가 필요 없다. 텍스트로 지시.
- 다중 턴. 같은 이미지에서 여러 번 편집을 누적. "옷 → 배경 → 라이팅 → 머리색" 순으로 점진 수정.
- 3가지 변형. Kontext Pro(API), Kontext Max(고품질), Kontext Dev(오픈웨이트, 비상업).
Kontext가 등장하기 전, 이미지 편집은 ControlNet · IP-Adapter · 인페인팅 마스크 · LoRA의 조합이었다. 이제는 한 줄 텍스트면 된다.
1.5 Flux Tools — 보조 도구 묶음
2024년 11월, Black Forest Labs는 Flux Tools를 공개했다.
- Flux Fill. 인페인팅 · 아웃페인팅 전용 모델. 마스크 + 텍스트로 지정 영역만 채움.
- Flux Canny. Canny edge 가이드 ControlNet 대체.
- Flux Depth. depth map 가이드.
- Flux Redux. 이미지 변주(image variation). 한 입력에서 비슷한 분위기의 변형 생성.
이 도구들이 ControlNet · IP-Adapter 같은 SD 1.5/XL 시대의 보조 도구를 대부분 흡수했다.
1.6 로컬 실행 현실
Flux Dev를 4090에서 돌릴 때.
- 풀 정밀도(FP16). 24GB VRAM 필요. 한 장 생성에 약 20초.
- FP8 양자화. 12~16GB로 줄어듦. 한 장 약 15초. 품질 차이 미미.
- NF4 양자화. 6~8GB까지 가능. 한 장 약 25초(느려짐). 품질이 살짝 떨어지지만 4060 8GB에서도 돈다.
- Schnell. 4 스텝이면 됨. 한 장 5초 이하.
ComfyUI · Forge · SwarmUI · InvokeAI에서 모두 네이티브 지원. 2025년부터 "로컬 이미지 생성 = Flux"가 거의 기본값이 됐다.
2장 · 컨슈머 미학의 정점 — Midjourney와 Imagen
2.1 Midjourney v7
Midjourney는 카테고리의 미학 기준이다. 다른 모델이 따라가는 룩을 만든다. v7은 2025년 4월에 알파, 6월에 GA로 갔다.
v7의 핵심 변화.
- 개인화(Personalization). 첫 사용 시 200장 정도의 이미지를 평가(좋아요/싫어요)하면 모델이 사용자 취향을 학습한다. 같은 프롬프트에서도 사용자마다 다른 결과가 나온다.
- Draft Mode. 빠르고 저렴한 초안 모드. 토큰 비용 1/10에 가까운 가격으로 30초 이내 4장 생성. 마음에 드는 초안을 정식 모드로 업스케일.
- Style Reference v2.
--sref코드 또는 참조 이미지로 일관된 스타일 유지. v6보다 안정성이 크게 좋아졌다. - Character Reference (
--cref). 같은 캐릭터를 여러 컷에 걸쳐 유지. 만화/그림책 워크플로의 핵심.
품질은 한마디로 "단일 장면의 미적 완성도"에서 가장 강하다. 한 장의 포스터, 한 컷의 일러스트, 무드보드 한 장을 만들 때 Midjourney의 결과물이 디자이너의 눈을 가장 적게 거슬린다.
약점.
- 텍스트 렌더링. v7도 글자는 약하다. Ideogram에 못 미친다.
- 사진 같은 사실주의. Imagen 4 Ultra에 사진 분야는 양보한다.
- API 부재. Midjourney는 공식 API가 없다. Discord 봇 + 비공식 래퍼만 있음. 자동화에 부적합.
- 상업 라이선스. Pro 이상 가능. 단 "학습 데이터의 명시적 라이선스 클리어"는 광고하지 않음.
2.2 Google Imagen 4
Imagen 4는 2025년 6월 GA로 출시됐다. Imagen 3(2024년 12월)에서 두 단계 점프했다.
- Imagen 4 Standard. 빠르고 보편적.
- Imagen 4 Ultra. 사진 같은 사실주의의 정점. 인물 사진 · 풍경 · 제품 사진에서 Midjourney v7 Photo 스타일과 정면 경쟁.
- Imagen 4 Fast. 토큰 비용 절감 버전.
특징.
- 텍스트 렌더링이 크게 개선됨. Imagen 3 때까지 약점이었던 "이미지 안의 글자"가 v4에서 사용 가능 수준이 됐다. Ideogram만큼은 아니지만 Midjourney보다 낫다.
- SynthID 워터마킹 의무. 모든 출력에 보이지 않는 워터마크가 들어간다. AI 출처 검증이 표준화되는 흐름과 맞물려 있다.
- Vertex AI 통합. 엔터프라이즈가 가장 쉽게 받아들이는 경로. SOC 2, HIPAA 컴플라이언스를 그대로 가져간다.
- 상업 안전성. Google이 출력에 대한 면책(indemnification)을 명시적으로 제공한다. Firefly와 같은 라인.
약점.
- 창의적 미학. 사진은 잘하지만 "일러스트의 개성"은 Midjourney/Flux 대비 평범하다.
- 콘텐츠 필터. 엔터프라이즈 안전 기준이 강해서 가끔 합법적 프롬프트도 거부된다.
2.3 OpenAI gpt-image-1
OpenAI는 2025년 4월 ChatGPT에 새 기본 이미지 모델 gpt-image-1을 도입했다. 그 전까지 ChatGPT가 쓰던 DALL-E 3는 백업으로 빠졌다.
gpt-image-1의 위치.
- 컨버세이셔널 편집. "이거 만들어 → 색 바꿔 → 글자 추가" 같은 다중 턴이 자연스럽다. Flux Kontext와 비슷한 방향이지만 인터페이스가 채팅이다.
- 텍스트 렌더링. DALL-E 3보다 크게 개선됐다. Imagen 4와 비슷한 레벨. Ideogram에는 못 미침.
- 사실주의. Imagen 4 Ultra와 비교하면 한 박자 부족. Midjourney v7과 비교하면 미학이 평범.
- API 가격. 출력 토큰 기준 과금. 한 장당 약 0.02~0.19달러(품질 옵션에 따라).
ChatGPT 안에서 가장 많이 호출되는 모델이 됐기 때문에, 사용량 기준으로는 2026년 카테고리 1위일 가능성이 크다. 다만 "최고 품질"이 아니라 "가장 편한 인터페이스"라는 점이 정확하다.
2.4 비교 — 컨슈머/API 모델
| 도구 | 미학 | 사실주의 | 텍스트 렌더링 | 편집 | 라이선스 | API |
|---|---|---|---|---|---|---|
| Midjourney v7 | 최상 | 매우 높음 | 약함 | --cref 일관성 | Pro 이상 | 없음(비공식만) |
| Imagen 4 Ultra | 높음 | 최상 | 보통 | 별도(Imagen Edit) | 면책 제공 | Vertex AI |
| gpt-image-1 | 보통 | 높음 | 보통 | 강함(채팅) | 표준 OpenAI | OpenAI API |
| Flux Pro 1.1 | 높음 | 매우 높음 | 보통 | Kontext 별도 | 상업 OK(Pro) | fal/Replicate |
| DALL-E 3 | 보통 | 높음 | 보통 | 약함 | 표준 OpenAI | OpenAI API(레거시) |
3장 · 타이포 · 디자이너 도구 — Ideogram · Recraft · Firefly
3.1 Ideogram v3 — 글자가 들어가야 하면 여기
Ideogram은 2023년 8월에 출발한 토론토 기반 스타트업이다. CEO는 Mohammad Norouzi(전 Google Brain, Imagen 원저자 중 한 명). 처음부터 "이미지 안의 텍스트"를 핵심 차별점으로 잡았다.
- Ideogram 1.0(2024년 2월). 텍스트 렌더링이 카테고리에서 가장 정확하다고 평가받음.
- Ideogram 2.0(2024년 8월). 사실주의 · 스타일 컨트롤 강화.
- Ideogram 3.0(2025년 3월). 텍스트와 미학을 동시에 끌어올림. 포스터, 명함, 광고 카피, 책 표지에서 사실상 단독 1위.
핵심 기능.
- Magic Prompt. 입력 프롬프트를 모델이 자동 확장해 결과를 개선.
- Canvas. 인페인팅 · 아웃페인팅 · 마스크 편집 통합 워크플로.
- Style Reference. 참조 이미지로 일관된 스타일.
- Character Consistency. v3에서 추가. 같은 캐릭터를 여러 장에 걸쳐 유지.
타이포 정확도는 단순히 "글자가 알아볼 수 있다"가 아니라 "디자이너가 출력 그대로 쓸 수 있다"는 레벨이다. 이게 Midjourney/Flux/Imagen과 결정적으로 다르다.
약점은 사실주의가 Imagen 4 Ultra만큼 정밀하진 않다는 것, 그리고 캐릭터 일관성이 Midjourney의 --cref보다 약간 약하다는 것 정도.
3.2 Recraft — 디자이너의 AI
Recraft는 "그래픽 디자이너를 위한 AI"라는 단일 포지션을 잡았다. 2024년 10월 Recraft V3가 출시되며 Hugging Face TTI(text-to-image) 리더보드에서 한동안 1위를 차지했다.
차별점.
- 벡터 출력. SVG 직접 생성. 로고, 아이콘, 일러스트를 벡터로 받는다. AI 도구 중 유일에 가까운 기능.
- 브랜드 라이브러리. 컬러 팔레트, 폰트, 스타일을 저장해 모든 출력에 일관 적용.
- 이미지 + 텍스트 통합. 포스터에서 텍스트가 디자인 요소처럼 다뤄진다. Ideogram보다 더 "디자인 친화적"으로 텍스트를 배치.
- 이미지 편집. 인페인팅, 아웃페인팅, 객체 제거, 배경 변경이 통합 UI에 있다.
- 3D 모크업. 이미지를 3D 객체(컵, 책, 폰)에 자동 매핑.
Recraft V3 다음의 V3 Plus가 2025년에 출시되며 사실주의를 더 끌어올렸다. 2026년 5월 시점에는 V3.5가 베타. 디자이너 입장에서 "이미지를 만들고 → 그걸로 작업하고 → 다른 포맷으로 받기"의 단일 도구다.
가격은 무료 50 크레딧/일, Basic 33/월 수준.
3.3 Adobe Firefly — 라이선스의 명료성
Adobe Firefly의 가치 제안은 한 문장이다. "Adobe Stock과 퍼블릭 도메인만 학습했다." 즉 다른 모델이 라이선스 회색지대에 있을 때 Firefly는 명확하다.
2025년 5월에 Firefly Image 4가 출시됐고, 같은 해 가을에 Image 4 Ultra가 추가됐다.
- Firefly Image 4. 보편 사용. 사실주의, 일러스트, 텍스트 렌더링 모두 균형.
- Firefly Image 4 Ultra. 고해상도, 디테일 강화. 광고 · 출판 · 제품 디자인 워크플로.
Adobe 생태계 안에서의 강점.
- Photoshop Generative Fill. Photoshop 안에서 인페인팅/아웃페인팅에 Firefly가 들어가 있다. 디자이너 워크플로에 마찰 없이 통합.
- Illustrator Generative Recolor. 벡터 색상 자동 변경.
- Premiere Pro Generative Extend. 영상 클립을 텍스트로 연장(Firefly Video로 별도).
- Adobe Express. 비전문가용 통합 UI.
- 면책. 기업 고객에게 출력에 대한 IP 면책 제공.
약점.
- 단독 미학. Midjourney v7만큼의 "와우 모먼트"는 약하다.
- 콘텐츠 필터. 안전 기준이 강해서 사람 얼굴, 유명인, 일부 상업 콘셉트에서 거부가 많다.
- 가격. Creative Cloud 구독을 이미 쓰는 사용자에게는 무료에 가깝지만, 단독으로는 비싸다.
3.4 비교 — 타이포 · 디자이너 도구
| 도구 | 텍스트 정확도 | 벡터 | 디자인 워크플로 | 라이선스 명료성 | 가격 |
|---|---|---|---|---|---|
| Ideogram v3 | 최상 | 미지원 | 캔버스 통합 | 보통 | 무료-$20/월 |
| Recraft V3 | 매우 높음 | 지원(SVG) | 브랜드 라이브러리 | 보통 | 무료-$33/월 |
| Firefly Image 4 | 높음 | 미지원 | Adobe 통합 | 최상 | CC 포함 |
4장 · 오픈소스 / 로컬 — Stable Diffusion 3.5 · SD-XL · HiDream · Janus-Pro
4.1 Stable Diffusion의 현재 상태
2022년에 카테고리를 만든 Stability AI는 2024-2025년에 부침을 겪었다.
- SD 3 Medium(2024년 6월). 출시 직후 "해부학적 문제"로 커뮤니티 반발. 라이선스 변경(Creator/Enterprise 분리)도 논란.
- SD 3.5 Large/Medium/Large Turbo(2024년 10월). SD 3의 약점을 보완. 8B/2.5B/8B 파라미터. 라이선스는 Stability AI Community License(연 매출 100만 달러 이하 무료).
- SD-XL 1.0(2023년 7월). 여전히 사용량 기준 가장 큰 베이스. LoRA 생태계가 SD-XL을 중심으로 형성됐기 때문.
2026년 5월 시점에서 SD 3.5는 "여전히 쓰이지만 카테고리 1위가 아니다." Flux가 명확히 앞선다. Stability AI는 회사 재정 어려움(2024년 CEO 교체)을 거쳐, 2025년부터는 Stable Audio · Stable Video · 3D 쪽으로 무게 중심이 옮겨가는 분위기.
4.2 SD-XL — 레거시의 힘
SD-XL이 살아 있는 이유는 단순하다. LoRA · ControlNet · IP-Adapter · Textual Inversion 생태계가 거대하다. Civitai에 수만 개의 LoRA가 SD-XL용으로 올라와 있다. 특정 화풍, 특정 캐릭터, 특정 미학을 가장 다양하게 다룰 수 있는 베이스 모델이 여전히 SD-XL이다.
언제 SD-XL을 쓰나.
- 특정 LoRA가 필수일 때. 애니메 스타일, 특정 일러스트레이터 스타일, 캐릭터 일관성.
- ControlNet으로 정밀 제어가 필요할 때. 포즈, 깊이, edge.
- 하드웨어가 제한적일 때. SD-XL은 8GB VRAM에서도 잘 돈다.
- 이미 SD-XL 워크플로가 정착됐을 때. ComfyUI 노드 그래프를 그대로 재사용.
언제 Flux로 가나.
- 새로운 베이스 모델로 처음부터 작업할 때.
- 텍스트 정합성(prompt adherence)이 중요할 때. Flux가 압도적.
- 상업 사용에 명확한 라이선스가 필요할 때. Flux Schnell.
4.3 HiDream — 2025년의 신성
HiDream-I1은 2025년 4월에 공개된 17B 파라미터 오픈웨이트 모델이다. MIT 라이선스 — 가장 자유롭다. 학술 벤치마크에서 일부 항목에서 Flux Dev를 앞서기도 했다.
- 하드웨어. 24GB VRAM 권장. NF4 양자화로 12GB까지 다운.
- 품질. 사실주의 · 텍스트 · 일관성 모두 균형. Flux Dev와 어깨를 나란히 함.
- 라이선스. MIT — 상업 사용 완전 자유. 이 점이 Flux Dev(비상업)보다 큰 강점.
ComfyUI에서 네이티브 지원. 2026년 5월 시점 "Flux Dev의 진짜 무료 대안"으로 평가받는다.
4.4 Janus-Pro / Krea — 다른 모달리티
Janus-Pro(DeepSeek, 2025년 1월). 멀티모달 LLM이 이미지를 생성하는 방향. 텍스트와 이미지를 같은 모델이 다룬다. 7B 파라미터, MIT 라이선스. 품질은 Flux 수준은 아니지만 "LLM이 이미지를 만든다"는 패러다임이 흥미롭다.
Krea AI. 모델 제공사가 아니라 워크플로 플랫폼. 여러 모델을 통합한 인터페이스. 실시간 캔버스 모드(스케치하는 동안 AI가 따라 그리기)가 차별점. 2025년에 자체 모델 Krea-1을 발표.
4.5 비교 — 오픈소스 / 로컬
| 모델 | 파라미터 | 라이선스 | 최소 VRAM | 강점 |
|---|---|---|---|---|
| Flux.1 Schnell | 12B | Apache 2.0 | 6GB(NF4) | 빠름, 무료, 상업 OK |
| Flux.1 Dev | 12B | BFL Non-Commercial | 6-24GB | 최고 품질 오픈웨이트(비상업) |
| HiDream-I1 | 17B | MIT | 12-24GB | 상업 OK, Flux 대안 |
| SD 3.5 Large | 8B | Stability Community | 8-16GB | 카탈로그 잘 익음 |
| SD-XL 1.0 | 2.6B | OpenRAIL++ | 6-8GB | LoRA 생태계 |
| HiDream Dev | 17B | MIT | 12GB | HiDream 베이스의 distill |
5장 · 도구 vs 모델 — ComfyUI/Forge/A1111의 현재
5.1 UI 도구는 끝났는가? 아니다
2023~2024년에 한창이던 SD UI들(Automatic1111, ComfyUI, Forge, Fooocus, InvokeAI)이 2025년에 가라앉았다는 이야기를 가끔 듣는다. 틀렸다. 카테고리가 달라졌을 뿐이다.
ComfyUI는 2025-2026년에 더 커졌다. 노드 기반 UI라 새 모델이 나올 때마다 빠르게 노드가 만들어진다. Flux · HiDream · 모든 비디오 모델(Wan, HunyuanVideo, LTX-Video)이 ComfyUI에서 가장 먼저 돈다. "AI 이미지/비디오 워크플로 자동화의 사실상 표준"이 됐다.
Forge UI(Forge / Forge Classic). Automatic1111의 포크. 메모리 최적화로 Flux를 8GB GPU에서도 돌린다. ComfyUI보다 UI가 직관적이라 입문자에게 인기.
Automatic1111 (A1111). 2025년 들어 업데이트가 느려졌다. Flux 지원이 Forge보다 늦었고, ControlNet도 좀 처졌다. "전통 SD-XL 사용자"가 남아 있지만 신규 유입은 Forge/ComfyUI로 갔다.
InvokeAI. 상업 SaaS로 피벗. 엔터프라이즈 워크플로 솔루션 방향.
SwarmUI. ComfyUI를 백엔드로 쓰면서 더 친절한 UI를 제공. ComfyUI 노드 그래프를 그릴 줄 모르는 사람에게 추천.
Fooocus. 미드저니풍 단순 UI. 입문자에게 좋다.
5.2 ComfyUI 노드 그래프 워크플로 예시
Flux Dev + Flux Kontext + LoRA + 업스케일을 한 그래프에 묶는 예시.
[LoadCheckpoint Flux Dev]
│
├─[Text Encoder] ← [Prompt: "cyberpunk alley, neon"]
│ │
│ [KSampler] ← [Empty Latent 1024x1024]
│ │
│ [VAE Decode]
│ │
├─[LoadKontext] ← [Reference image]
│ │
│ [Kontext Edit] ← [Instruction: "make it sunset"]
│ │
├─[LoadLora char-v1] ← [Strength 0.8]
│ │
├─[Upscale 4x ESRGAN]
│ │
└─[Save Image]
이런 그래프를 한 번 만들어두면, 입력 프롬프트만 바꿔서 수백 장을 자동 생성할 수 있다. API를 직접 호출하는 것과 같은 자동화 수준이지만, 출력의 모든 중간 단계를 시각적으로 볼 수 있다.
5.3 새로 진입하는 UI들
- Krea. 실시간 캔버스. 그리는 동안 AI가 채워줌. 디자이너에게 인기.
- Magnific. 업스케일 · 디테일 강화 전문. 다른 모델 출력을 후처리.
- Leonardo.AI. SaaS UI + 자체 모델 + 통합 워크플로.
- OpenArt. ComfyUI 워크플로를 웹에서 호스팅. 서버 관리 없이 노드 그래프 공유.
5.4 "내 워크플로를 어디에 두나"
선택 기준 한 줄.
- 빠르게 한 장: Midjourney v7, Ideogram, Imagen 4 (웹 인터페이스).
- 자동화 · 배치: API(fal.ai, Replicate, OpenAI, Vertex AI) 또는 로컬 ComfyUI.
- 세밀한 통제(LoRA, ControlNet): 로컬 ComfyUI 또는 Forge.
- 디자이너 워크플로: Recraft, Firefly, Krea.
- 개발 통합: API.
6장 · 소송과 라이선스 — 정직하게
6.1 Stability AI 대 Getty Images
가장 많이 언급되는 소송. Getty Images가 Stability AI를 영국과 미국에서 동시 제소했다(2023년).
영국 판결(2025년 11월, High Court of Justice).
- 학습 행위 자체는 영국 저작권 침해가 아니다. 모델 가중치에 원본 이미지가 보존돼 있지 않다고 판단.
- 상표 침해는 별도. Getty 워터마크가 출력에 부분적으로 나타난 사례에 대해서는 상표 침해 인정.
- 요약. 학습은 합법, 출력의 상표 유사성은 불법.
미국 사건은 2026년 5월 시점에도 진행 중. 미국 법은 영국과 달라 결과가 다를 수 있다.
6.2 다른 진행 중인 소송들
- Andersen v. Stability AI. 아티스트 그룹이 Stability, Midjourney, DeviantArt를 상대로 제기한 클래스 액션. 일부 청구는 기각, 저작권 침해 청구는 유지 중.
- NYT v. OpenAI. 텍스트 학습 데이터에 관한 소송이지만, 이미지 모델 학습에도 영향을 미칠 판례를 만들 수 있다.
- Disney 라이선싱 시도. Disney가 일부 AI 회사와 라이선싱 협상을 진행 중이라는 보도가 2025년에 나왔다. 메이저 IP의 직접 라이선싱이 표준화될 가능성.
6.3 사용자가 할 일
상업 사용에 안전한 선택지(2026년 5월 기준).
- Adobe Firefly. Adobe Stock + 퍼블릭 도메인만 학습. 면책 제공. 가장 안전.
- Google Imagen 4. 면책 제공. 학습 데이터의 라이선스 클리어 마케팅.
- OpenAI gpt-image-1. 표준 OpenAI 약관. 면책은 Enterprise 플랜.
- Flux Schnell + 자체 호스팅. Apache 2.0 모델 가중치. 출력은 사용자 소유.
- HiDream-I1. MIT 라이선스 모델 가중치. 상업 사용 OK.
회색지대.
- Midjourney. 출력의 상업 사용은 Pro 이상 가능. 다만 학습 데이터의 명시적 라이선스 클리어는 광고하지 않음.
- SD-XL + 커뮤니티 LoRA. LoRA의 학습 데이터 출처가 불명확한 경우가 많다. 특히 "특정 아티스트 스타일" LoRA.
- Recraft. 라이선스 정책은 명시되어 있지만, 학습 데이터 출처는 부분 공개.
위험 행위.
- 유명 아티스트 · 일러스트레이터 이름을 프롬프트에. "in the style of [Artist]" 출력의 상업 사용은 명백한 위험.
- 상표 · 캐릭터 IP를 직접 흉내내기. Disney 캐릭터, 게임 캐릭터, 브랜드 로고.
- 출력에 명시적 라이선스 표기 없이 NFT/굿즈 판매.
6.4 소송의 결말이 어떻게 나도
세 가지 시나리오를 본다.
시나리오 A — "학습은 변혁적 공정 이용" 판결로 정착. AI 학습은 합법화. 출력의 상표/유사성 침해만 별개로 다룸. Firefly/Imagen의 "명시적 라이선스" 마케팅 가치가 줄어듦.
시나리오 B — "학습 라이선스 필요" 판결. Stable Diffusion, Midjourney가 라이선스 합의 또는 재학습 강제. 비용 증가, 구독료 인상. Firefly/Imagen이 시장 우위.
시나리오 C — 합의/라이선싱으로 표준화. Disney-AI 회사 합의처럼 메이저 IP 라이선싱이 표준. 학술/오픈소스는 별도 트랙. 가장 가능성 높은 시나리오.
7장 · 의사결정 프레임 — 무엇을 골라야 하나
7.1 사용처별 추천
| 상황 | 1순위 | 2순위 | 메모 |
|---|---|---|---|
| 컨셉 일러스트 한 장 | Midjourney v7 | Flux Pro 1.1 | 미학 우선 |
| 사진 같은 인물/제품 | Imagen 4 Ultra | Flux Pro | 사실주의 |
| 포스터·광고(글자) | Ideogram v3 | Recraft V3 | 타이포 정확도 |
| 로고·아이콘(벡터) | Recraft V3 | Adobe Illustrator | 벡터 출력 |
| 브랜드 일관성 | Firefly Image 4 | Midjourney --sref | 면책 + 워크플로 |
| 캐릭터 일관성(만화) | Midjourney --cref | Flux Kontext | 다중 컷 |
| 이미지 편집 | Flux Kontext | gpt-image-1 | 텍스트 기반 |
| 인페인팅/아웃페인팅 | Photoshop + Firefly | Flux Fill | 워크플로 |
| API 자동화 | fal.ai + Flux Pro | Vertex AI Imagen 4 | SLA |
| 로컬·프라이빗 | Flux Dev(비상업) | HiDream-I1(상업 OK) | 자가 호스팅 |
| 무료 시작 | Flux Schnell + Forge | SD-XL + Civitai LoRA | 4GB+ GPU |
| 상업 안전 우선 | Firefly | Imagen 4 | 면책 |
| 학술/연구 | SD 3.5 + 논문 재현 | Flux Dev | 검증 가능 |
7.2 결정 트리
시작
│
├─ 이미지에 글자가 들어가야 하나?
│ ├─ 예 → Ideogram v3 또는 Recraft V3
│ └─ 아니오 ↓
│
├─ 사진 같은 사실주의가 필요한가?
│ ├─ 예 → Imagen 4 Ultra 또는 Flux Pro 1.1
│ └─ 아니오 ↓
│
├─ 디자이너 워크플로(브랜드, 벡터)인가?
│ ├─ 예 → Recraft 또는 Adobe Firefly
│ └─ 아니오 ↓
│
├─ 캐릭터/장면 일관성이 필요한가?
│ ├─ 예 → Midjourney `--cref` 또는 Flux Kontext
│ └─ 아니오 ↓
│
├─ 라이선스 클린함이 최우선인가?
│ ├─ 예 → Firefly 또는 Imagen 4(면책)
│ └─ 아니오 ↓
│
├─ 로컬·프라이빗 실행이 필요한가?
│ ├─ 예 → Flux Dev/Schnell 또는 HiDream-I1
│ └─ 아니오 ↓
│
├─ API 자동화 · 배치가 필요한가?
│ ├─ 예 → fal.ai Flux Pro 또는 OpenAI gpt-image-1
│ └─ 아니오 → Midjourney v7 (단일 장면 미학)
7.3 예산별 가이드
| 예산 | 추천 |
|---|---|
$0/월 | Flux Schnell 로컬 + Forge UI. 4GB+ GPU. 무제한 생성. |
$10/월 | Midjourney Basic 또는 Ideogram Basic. 단일 도구. |
$30/월 | Midjourney Standard + Ideogram + ChatGPT Plus. 미학 + 타이포 + 편집. |
$60/월 | + Recraft Pro 또는 Adobe CC. 디자이너 풀세트. |
$200+/월 | API 사용(fal.ai Flux Pro + Imagen 4 + gpt-image-1) + 위 구독. 프로덕션 자동화. |
에필로그 — 체크리스트, 안티패턴, 다음 글 예고
2022년 SD 1.4의 충격, 2024년 Flux 1의 추월, 2025년 Midjourney v7/Imagen 4의 컨슈머 점프, 2026년 Flux Kontext와 gpt-image-1의 편집 패러다임 전환 — 카테고리는 한 자리에 머무른 적이 없다. 같은 시기에 음악과 비디오도 비슷하게 흔들렸다. 차이라면 이미지 쪽이 가장 먼저 안정화됐다는 점이다. 사용자는 이제 "어떤 모델로 만들까"가 아니라 "어떤 작업에 어떤 도구를 쓸까"를 고민한다. 그 질문에 한 줄로 답하는 표는 없다. 하지만 큰 축은 다섯이다 — 미학(Midjourney), 사실주의(Imagen), 타이포(Ideogram), 디자이너(Recraft/Firefly), 오픈웨이트(Flux/HiDream).
도구 선택 체크리스트
- 이미지에 텍스트가 있나? — Yes면 Ideogram 또는 Recraft 우선.
- 상업 사용인가? — Yes면 Firefly/Imagen 면책 또는 Flux Schnell + 자체 호스팅.
- 단일 컷인가 시리즈인가? — 시리즈면 캐릭터 일관성(Midjourney
--cref, Flux Kontext) 필수. - 편집이 필요한가? — Flux Kontext, gpt-image-1, Photoshop Generative Fill 중 하나.
- 로컬이 가능한가? — 16GB+ GPU 있으면 Flux Dev. 24GB면 HiDream.
- 자동화가 필요한가? — API 우선. Midjourney는 자동화에 부적합.
- 벡터가 필요한가? — Recraft가 거의 단독.
- 사실주의 vs 일러스트? — 전자는 Imagen 4 Ultra, 후자는 Midjourney v7.
- 다중 턴 편집인가? — gpt-image-1(채팅) 또는 Flux Kontext.
- 라이선스 안전성이 최우선인가? — Firefly 우선, Imagen 차순.
안티패턴
| 안티패턴 | 왜 나쁜가 | 대신 |
|---|---|---|
| 첫 번째 생성을 그대로 사용 | 평균 품질이 낮음 | 4-8장 생성 후 큐레이션 |
| 유명 아티스트 이름을 프롬프트에 | 라이선스 회색지대, 소송 위험 | 추상 묘사 ("late-80s synthwave poster") |
| Midjourney로 자동화 시도 | 공식 API 없음, 비공식 래퍼는 약관 위반 | fal.ai Flux Pro, gpt-image-1, Imagen 4 |
| SD-XL에 머무르며 Flux 무시 | 텍스트 정합성 격차가 크다 | Flux Schnell부터 시작, LoRA 필요시만 SD-XL |
| ComfyUI는 너무 복잡하다고 회피 | 자동화 격차가 누적된다 | Fooocus/Forge로 시작, 익숙해지면 ComfyUI |
| Flux Dev로 상업 출시 | Non-Commercial 라이선스 위반 | Flux Schnell, Flux Pro, HiDream |
| 글자가 들어간 포스터를 Midjourney로 | 텍스트가 깨짐 | Ideogram v3 또는 Recraft |
| 라이선스 표기 없이 NFT/굿즈 판매 | IP 분쟁 위험 | 출력의 명시적 상업권 확인 |
| 4K 이상을 단일 생성으로 기대 | 모델 출력은 보통 1-2MP | Magnific/Topaz로 업스케일 |
| 무료 티어로 클라이언트 작업 | 라이선스 위반, 워터마크 | 최소 Pro 구독 |
| 단일 모델만 의존 | 미학/타이포/편집 갭이 누적 | 2-3 모델 조합 (미학 + 타이포 + 편집) |
다음 글 예고
다음 글은 **"AI 비디오 생성 2026 — Sora 2 · Veo 3 · Runway Gen-4 · Kling 2 · Pika 2 · Open-Sora, 어디까지 왔나"**다. 이미지와 같은 패턴으로, 카테고리의 폭발(2024 Sora 데모)과 성숙(2026 상용 도구들), 보컬에 해당하는 가장 어려운 영역(긴 일관성, 캐릭터 동일성, 손가락과 물리), 오픈소스 옵션(Open-Sora, Mochi, HunyuanVideo, Wan), 사용처(광고, 짧은 영상, 콘셉트 비주얼), 그리고 저작권 논쟁(NYT-OpenAI, Disney 라이선싱 모델)을 같은 깊이로 다룰 예정이다. 이미지 → 음악 → 비디오의 삼각형이 그 글로 닫힌다.
참고 / References
- Black Forest Labs 공식 사이트
- Flux.1 발표 — Announcing Black Forest Labs
- Flux.1.1 Pro Ultra · Raw 모드 발표
- Flux.1 Kontext 발표 — Image Editing as a Foundation
- Flux Tools 발표 — Fill, Canny, Depth, Redux
- Flux.1 Schnell — Hugging Face
- Flux.1 Dev — Hugging Face
- Midjourney 공식
- Midjourney v7 발표 — Midjourney Blog
- Google DeepMind — Imagen 4
- Imagen 4 GA — Google Cloud Vertex AI
- OpenAI gpt-image-1 — DevDay
- OpenAI gpt-image-1 — API Docs
- DALL-E 3 공식
- Ideogram 공식
- Ideogram 3.0 발표
- Recraft 공식
- Recraft V3 Hugging Face TTI 1위 — TechCrunch
- Adobe Firefly 공식
- Firefly Image 4 발표 — Adobe
- Adobe Firefly 학습 데이터 — Adobe FAQ
- Stable Diffusion 3.5 발표 — Stability AI
- SD 3.5 Large Hugging Face
- Stable Diffusion XL — Stability AI
- HiDream-I1 GitHub
- HiDream-I1 Hugging Face
- Janus-Pro — DeepSeek
- Krea AI 공식
- ComfyUI GitHub
- Forge UI GitHub
- Automatic1111 GitHub
- InvokeAI 공식
- SwarmUI GitHub
- Fooocus GitHub
- Civitai — LoRA 카탈로그
- fal.ai — Flux Pro API
- Replicate — Flux 모델
- Getty Images v. Stability AI 영국 판결 요약 — Reuters
- Andersen v. Stability AI 사건 추적 — Justia
- Reuters — AI 학습 저작권 판결 트래커
- Vertex AI Imagen 4 가격
- Magnific 공식
- Leonardo.AI 공식
- OpenArt — ComfyUI 워크플로 호스팅
AI Image Generation 2026 — Flux, Imagen 4, Midjourney v7, Ideogram, Recraft, Firefly, DALL-E, Stable Diffusion: An Honest Comparison
Prologue — Two Earthquakes
August 2022. Stable Diffusion 1.4 was released. Before that, image generation AI lived inside the closed betas of OpenAI's DALL-E 2 and Midjourney v3. The moment SD shipped with open weights, the whole category was reshaped. Anyone with a 4090 could generate unlimited images locally. ComfyUI, Automatic1111, Fooocus, and Forge exploded. LoRA, ControlNet, and IP-Adapter extensions arrived in waves. 2023 was "the year of the SD ecosystem."
Early 2024. A name appeared called Black Forest Labs. It was the original SD core team — Robin Rombach, Andreas Blattmann, Patrick Esser, Dominik Lorenz — who had left Stability AI to start a new company. In August they announced Flux.1, a three-tier system: open-weight Schnell (Apache 2.0), non-commercial Dev, and API-only Pro. On day one Flux beat SD-XL, and within a year it became the new default for open-weight image models. That was the first earthquake.
Spring 2025. The second earthquake hit. Midjourney v7 launched in April and reset the bar for consumer aesthetic again. In June Google's Imagen 4 went GA. Adobe Firefly Image 4 followed the next quarter. In August, Black Forest Labs released Flux.1 Kontext, opening a separate track called "image editing." In November, OpenAI replaced DALL-E 3 with gpt-image-1 as the default model inside ChatGPT. Ideogram pushed its typography lead further with v3.
As of May 2026, the landscape looks like this.
- The open-weight throne. Flux replaced SD-XL/3.5. The most-loaded base model in ComfyUI and Forge is now a Flux derivative. Stability AI has lagged a beat since SD 3.5 Large.
- The consumer aesthetic peak. Midjourney v7, followed by Imagen 4 Ultra. If a designer must pick one image to ship, the answer is still one of these two.
- The solo typography champion. Ideogram v3. If a poster needs legible text, there is almost no other choice.
- The designer tools. Recraft built a category as "the AI that also exports vectors." Firefly hardened the position of "safe-to-use image inside Adobe workflows."
- The developer backends. OpenAI gpt-image-1, Google Imagen 4, Flux Pro 1.1 — the three most-called image APIs in production.
- Lawsuits and licensing. The UK Stability AI vs Getty ruling in November 2025 separated the question: training is lawful, output-level trademark similarity is a different problem. That ruling firmed up the marketing position of Firefly, Imagen, and gpt-image-1 as "license-clean."
This post tries to map that landscape honestly. Which model wins which slice, what local vs cloud actually means in 2026, whether ComfyUI is really dead (it is not), and where the lawsuits land. The same shape as the music post — five axes, one decision tree, an anti-pattern table at the end.
One-line take: in 2026 image generation there is no "single best model." The five axes — typography, consistency, editing, licensing, aesthetic — have split into different tools. Knowing the tool turns an hour-long job into a ten-minute one.
1 · The Arrival of the Flux Era — A New Baseline for Open Weights
1.1 Who Is Black Forest Labs
March 2024. The core researchers at Stability AI — Robin Rombach, Andreas Blattmann, Patrick Esser, Dominik Lorenz — left to start Black Forest Labs. Headquartered in Freiburg, Germany. Seed round in August 2024, around 31 million USD, led by Andreessen Horowitz with General Catalyst, Y Combinator, and MätchVC joining.
These are the original authors of SD 1.x, 2.x, and SD-XL. The people who built the open-weight image generation category started a new company, and their first product was Flux.1.
1.2 The Three Tiers of Flux.1
Flux.1 shipped as three variants of the same architecture trained on the same data.
- Flux.1 Schnell. Apache 2.0 license. 1-4 step inference. The lightest, the most permissive. Commercial use allowed. Runs on a 4090 with 6-8 GB VRAM.
- Flux.1 Dev. Black Forest Labs Non-Commercial License. Weights are public but commercial use is forbidden. For research, learning, and personal projects. 50-step guided inference.
- Flux.1 Pro. Closed. API-only. Highest quality. Hosted on fal.ai, Replicate, Together AI.
The structure is clever. Open the weights to build the ecosystem; recover commercial value through Pro and licensing. In 2025, Flux.1.1 Pro and Flux.1.1 Pro Ultra (up to 4 megapixels) extended the Pro lane.
1.3 Why It Beat SD-XL
Three technical points explain the jump.
- 12 billion parameters. Roughly 4.6x SD-XL (2.6B) and 50 percent larger than SD 3.5 Large (8B).
- Rectified Flow. A variant of diffusion. Standard diffusion learns a curved path from noise to image; Rectified Flow tries to learn a straight one. Fewer sampling steps produce higher quality.
- MMDiT architecture. The multimodal diffusion transformer introduced in Stable Diffusion 3. Text and image flow through the same transformer blocks together. Prompt adherence jumped sharply over SD-XL.
In human-evaluation benchmarks at launch (August 2024), Flux Pro beat Midjourney v6, DALL-E 3, and SD 3 across the board. Hands, in-image text, and anatomy — the classic weak spots — improved the most.
1.4 Flux Kontext — The Editing Answer
May 2025. Black Forest Labs released Flux.1 Kontext. It is an "image + text -> edited image" model. Different from text-to-image.
What makes Kontext different.
- Multi-input. One or more reference images plus a text instruction. Things like "preserve this face, change the outfit to a black suit" or "blend these two inputs into a unified tone" work natively.
- Local edits. "Change this part, keep the rest." No inpainting mask required. The instruction is in text.
- Multi-turn. Stack edits on the same image — outfit, then background, then lighting, then hair color.
- Three variants. Kontext Pro (API), Kontext Max (highest quality), Kontext Dev (open weights, non-commercial).
Before Kontext, image editing was a stack of ControlNet, IP-Adapter, inpainting masks, and LoRA. Now a single text instruction does most of it.
1.5 Flux Tools — Auxiliary Models
November 2024. Black Forest Labs released Flux Tools.
- Flux Fill. Inpainting and outpainting. Mask plus text to fill a region.
- Flux Canny. Replacement for Canny-edge ControlNet.
- Flux Depth. Depth-map guidance.
- Flux Redux. Image variation. Generate similar-mood variants of a single input.
These absorbed most of the ControlNet and IP-Adapter ecosystem from the SD 1.5 and XL era.
1.6 The Local Execution Reality
Running Flux Dev on a 4090.
- Full precision (FP16). 24 GB VRAM. One image in around 20 seconds.
- FP8 quantization. 12-16 GB. One image in around 15 seconds. Quality drop is negligible.
- NF4 quantization. 6-8 GB. One image in around 25 seconds (slower). Slight quality dip, but a 4060 8 GB can run it.
- Schnell. Four steps is enough. Under 5 seconds per image.
ComfyUI, Forge, SwarmUI, and InvokeAI all support Flux natively. By 2025 "local image generation = Flux" became the default.
2 · The Consumer Aesthetic Peak — Midjourney and Imagen
2.1 Midjourney v7
Midjourney is the aesthetic reference for the category. Other models chase the look Midjourney sets. v7 went to alpha in April 2025 and GA in June.
Key changes in v7.
- Personalization. On first use, the model asks you to rate around 200 images. It learns your taste, and the same prompt produces different output for different users.
- Draft Mode. A fast, cheap draft. Roughly one-tenth the token cost, four images in under thirty seconds. Pick the favorite and upscale to full mode.
- Style Reference v2. A
--srefcode or a reference image holds a consistent style. Much more stable than v6. - Character Reference (
--cref). Keeps the same character across many panels. The core of comic and storybook workflows.
In a single line — Midjourney wins on "the aesthetic finish of a single scene." For a poster, an illustration, a single moodboard frame, the output is the least-corrected by a working designer.
Weaknesses.
- Text rendering. v7 is still weak at letters. Below Ideogram.
- Photo-grade realism. Concedes to Imagen 4 Ultra for photographic work.
- No API. Midjourney has no official API. Discord bot plus unofficial wrappers. Unsuitable for production automation.
- Commercial license. Allowed at Pro and above. But the training-data licensing is not advertised as clean.
2.2 Google Imagen 4
Imagen 4 went GA in June 2025. Two big steps up from Imagen 3 (December 2024).
- Imagen 4 Standard. Fast, general.
- Imagen 4 Ultra. The peak of photo-grade realism. Portraits, landscapes, product shots — head-to-head with Midjourney v7 Photo.
- Imagen 4 Fast. Cost-optimized variant.
What stands out.
- Text rendering improved sharply. Imagen 3's weak spot is now usable in v4. Not as accurate as Ideogram, but better than Midjourney.
- Mandatory SynthID watermarking. Every output carries an invisible watermark. Lines up with the broader standardization push for AI provenance.
- Vertex AI integration. The easiest path for enterprise adoption. Inherits SOC 2 and HIPAA compliance.
- Commercial safety. Google offers explicit IP indemnification on outputs, same lane as Firefly.
Weaknesses.
- Creative aesthetic. Strong at photo, average at "the personality of an illustration." Midjourney and Flux still win there.
- Content filters. Enterprise safety thresholds are strict; some legitimate prompts get rejected.
2.3 OpenAI gpt-image-1
In April 2025 OpenAI introduced a new default image model called gpt-image-1 inside ChatGPT. The earlier default, DALL-E 3, moved to backup.
Where gpt-image-1 sits.
- Conversational editing. "Make this -> change the color -> add this caption" feels natural across turns. Same direction as Flux Kontext but with a chat interface.
- Text rendering. A big step up from DALL-E 3, roughly at Imagen 4's level. Still under Ideogram.
- Realism. A step behind Imagen 4 Ultra. Average aesthetic compared to Midjourney v7.
- API pricing. Output-token based. Roughly 0.02 to 0.19 USD per image depending on quality.
Because it is the model most invoked inside ChatGPT, by raw call volume it may be the category leader in 2026. The accurate framing is "not the highest quality, but the lowest-friction interface."
2.4 Comparison — Consumer and API Models
| Tool | Aesthetic | Realism | Text Rendering | Editing | License | API |
|---|---|---|---|---|---|---|
| Midjourney v7 | Top | Very high | Weak | --cref consistency | Pro and above | None (unofficial only) |
| Imagen 4 Ultra | High | Top | Decent | Separate (Imagen Edit) | Indemnified | Vertex AI |
| gpt-image-1 | Decent | High | Decent | Strong (chat) | Standard OpenAI | OpenAI API |
| Flux Pro 1.1 | High | Very high | Decent | Kontext (separate) | Commercial (Pro) | fal/Replicate |
| DALL-E 3 | Decent | High | Decent | Weak | Standard OpenAI | OpenAI API (legacy) |
3 · Typography and Designer Tools — Ideogram, Recraft, Firefly
3.1 Ideogram v3 — When Text Has to Appear
Ideogram is a Toronto startup founded in August 2023. CEO is Mohammad Norouzi, formerly at Google Brain and one of the original Imagen authors. From day one the company picked "text inside images" as its core differentiator.
- Ideogram 1.0 (Feb 2024). Most accurate text rendering in the category.
- Ideogram 2.0 (Aug 2024). Strengthened realism and style control.
- Ideogram 3.0 (Mar 2025). Pushed typography and aesthetic up together. Effectively solo leader for posters, business cards, ad copy, and book covers.
Core features.
- Magic Prompt. Auto-expands prompts to improve results.
- Canvas. Inpainting, outpainting, and mask editing in a single workflow.
- Style Reference. Reference image for consistent style.
- Character Consistency. Added in v3. Hold a character across multiple frames.
Typography accuracy is not "the letters are readable" but "the designer can ship the output as-is." That gap is decisive against Midjourney, Flux, and Imagen.
Weaknesses: realism slightly behind Imagen 4 Ultra, and character consistency slightly behind Midjourney's --cref.
3.2 Recraft — AI for Designers
Recraft picked a single position — "AI for graphic designers." Recraft V3 launched in October 2024 and briefly topped the Hugging Face TTI leaderboard.
Differentiators.
- Vector output. Direct SVG generation. Logos, icons, illustrations as vectors. Nearly unique among AI tools.
- Brand library. Save palette, fonts, and style; apply consistently across outputs.
- Integrated image plus text. Posters treat type as a design element. More design-friendly typesetting than Ideogram.
- Image editing. Inpainting, outpainting, object removal, background change in a unified UI.
- 3D mockups. Auto-mapping images to 3D objects (mugs, books, phones).
After V3, V3 Plus shipped in 2025 with further realism gains. V3.5 is in beta as of May 2026. For a designer, Recraft is the single tool that handles "generate -> edit -> deliver in another format."
Pricing: 50 free credits per day, Basic 12 USD per month, Pro 33 USD per month.
3.3 Adobe Firefly — The Licensing Clarity Story
Adobe Firefly's value prop is one sentence: "trained only on Adobe Stock and public domain." Other models live in a licensing grey zone; Firefly does not.
Firefly Image 4 launched in May 2025 and Image 4 Ultra arrived that autumn.
- Firefly Image 4. General-purpose. Balanced across realism, illustration, and text.
- Firefly Image 4 Ultra. High resolution and detail. Ads, publishing, product design.
Strengths inside the Adobe ecosystem.
- Photoshop Generative Fill. Firefly powers inpainting and outpainting inside Photoshop. Zero-friction adoption in the designer workflow.
- Illustrator Generative Recolor. Auto color variants for vectors.
- Premiere Pro Generative Extend. Extends video clips with text (a separate Firefly Video model).
- Adobe Express. Integrated UI for non-experts.
- Indemnification. Enterprise customers get IP indemnification on outputs.
Weaknesses.
- Standalone aesthetic. Less of a "wow" than Midjourney v7.
- Content filters. Strong safety thresholds reject many faces, public figures, and certain commercial concepts.
- Price. Effectively free for existing Creative Cloud subscribers, expensive standalone.
3.4 Comparison — Typography and Designer Tools
| Tool | Text Accuracy | Vector | Designer Workflow | License Clarity | Price |
|---|---|---|---|---|---|
| Ideogram v3 | Top | No | Canvas integrated | Decent | Free to 20 USD/mo |
| Recraft V3 | Very high | Yes (SVG) | Brand library | Decent | Free to 33 USD/mo |
| Firefly Image 4 | High | No | Adobe integrated | Top | Included with CC |
4 · Open Source and Local — Stable Diffusion 3.5, SD-XL, HiDream, Janus-Pro
4.1 Where Stable Diffusion Stands
Stability AI, who created the category in 2022, had a rough 2024-2025.
- SD 3 Medium (June 2024). Hit immediate backlash over anatomy issues. License changes (Creator vs Enterprise split) were also controversial.
- SD 3.5 Large/Medium/Large Turbo (October 2024). Addressed SD 3's weak spots. 8B/2.5B/8B parameters. Stability AI Community License (free under 1 million USD annual revenue).
- SD-XL 1.0 (July 2023). Still the most-used base model by sheer volume. The LoRA ecosystem grew up around SD-XL.
In May 2026, SD 3.5 is "still used but not the category leader." Flux is clearly ahead. Stability AI, after a 2024 CEO turnover and financial struggles, has shifted weight toward Stable Audio, Stable Video, and 3D.
4.2 SD-XL — The Power of the Legacy
SD-XL persists for one reason. The LoRA, ControlNet, IP-Adapter, and Textual Inversion ecosystem is enormous. Tens of thousands of SD-XL LoRAs live on Civitai. For specific art styles, characters, and aesthetics, SD-XL still offers the deepest catalog.
When to stay on SD-XL.
- A required LoRA exists only for SD-XL. Anime styles, specific illustrator looks, recurring characters.
- Precise control via ControlNet. Pose, depth, edges.
- Hardware is limited. SD-XL runs comfortably on 8 GB VRAM.
- An existing ComfyUI graph is in production. Don't break what works.
When to move to Flux.
- Starting a new base workflow.
- Prompt adherence matters. Flux is far ahead.
- Commercial licensing must be unambiguous. Flux Schnell.
4.3 HiDream — The 2025 Newcomer
HiDream-I1, released April 2025, is a 17B open-weight model under the MIT license. In some academic benchmarks it edges out Flux Dev.
- Hardware. 24 GB VRAM recommended. NF4 quantization drops to 12 GB.
- Quality. Balanced across realism, text, and consistency. Roughly level with Flux Dev.
- License. MIT — fully commercial. The decisive advantage over Flux Dev (non-commercial).
ComfyUI supports it natively. As of May 2026, HiDream is the "real free alternative to Flux Dev."
4.4 Janus-Pro / Krea — Adjacent Directions
Janus-Pro (DeepSeek, January 2025). A multimodal LLM that also generates images. Text and images flow through the same model. 7B parameters, MIT license. Quality is below Flux, but the paradigm of "LLM as image generator" is worth tracking.
Krea AI. Not a model vendor but a workflow platform. Aggregates multiple models behind one interface. Its real-time canvas (the AI fills in as you sketch) is the differentiator. Krea launched its own model Krea-1 in 2025.
4.5 Comparison — Open Source and Local
| Model | Params | License | Min VRAM | Strength |
|---|---|---|---|---|
| Flux.1 Schnell | 12B | Apache 2.0 | 6 GB (NF4) | Fast, free, commercial OK |
| Flux.1 Dev | 12B | BFL Non-Commercial | 6-24 GB | Top open-weight (non-commercial) |
| HiDream-I1 | 17B | MIT | 12-24 GB | Commercial Flux alternative |
| SD 3.5 Large | 8B | Stability Community | 8-16 GB | Mature catalog |
| SD-XL 1.0 | 2.6B | OpenRAIL++ | 6-8 GB | LoRA ecosystem |
| HiDream Dev | 17B | MIT | 12 GB | Distilled HiDream |
5 · Tools vs Models — Where ComfyUI, Forge, and A1111 Are
5.1 Are the UIs Dead? No.
A common myth in 2025 was that Automatic1111, ComfyUI, Forge, Fooocus, and InvokeAI faded as the category moved to hosted models. Wrong. The category shape just changed.
ComfyUI got bigger in 2025-2026. Node-based, so new models get new nodes quickly. Flux, HiDream, and every video model (Wan, HunyuanVideo, LTX-Video) lands in ComfyUI first. It is now the de-facto standard for AI image and video workflow automation.
Forge UI (Forge / Forge Classic). A fork of Automatic1111. Memory optimization runs Flux on 8 GB GPUs. The UI is friendlier than ComfyUI, so it became the entry point for beginners.
Automatic1111 (A1111). Update cadence slowed in 2025. Flux support arrived later than Forge, and ControlNet lagged. The legacy SD-XL user base stays, but new entrants moved to Forge/ComfyUI.
InvokeAI. Pivoted to commercial SaaS. Targets enterprise workflow solutions.
SwarmUI. Uses ComfyUI as a backend but presents a friendlier UI. Recommended for users who don't want to draw node graphs.
Fooocus. Midjourney-style simple UI. Best onboarding for non-technical users.
5.2 A Sample ComfyUI Graph
Flux Dev plus Flux Kontext plus LoRA plus upscale, in a single graph.
[LoadCheckpoint Flux Dev]
|
+-[Text Encoder] <- [Prompt: "cyberpunk alley, neon"]
| |
| [KSampler] <- [Empty Latent 1024x1024]
| |
| [VAE Decode]
| |
+-[LoadKontext] <- [Reference image]
| |
| [Kontext Edit] <- [Instruction: "make it sunset"]
| |
+-[LoadLora char-v1] <- [Strength 0.8]
| |
+-[Upscale 4x ESRGAN]
| |
+-[Save Image]
Build the graph once and you can rerun it with different prompts to generate hundreds of variants. The automation matches direct API use, with the bonus of seeing every intermediate step visually.
5.3 New Entrant UIs
- Krea. Real-time canvas. The AI fills in as you sketch. Popular with designers.
- Magnific. Upscaling and detail enhancement specialist. Post-processes other models' outputs.
- Leonardo.AI. SaaS UI plus in-house model plus integrated workflow.
- OpenArt. Hosts ComfyUI workflows on the web. Share node graphs without managing your own server.
5.4 Where to Put Your Workflow
One-line picks.
- One quick shot: Midjourney v7, Ideogram, Imagen 4 (web UI).
- Automation and batch: API (fal.ai, Replicate, OpenAI, Vertex AI) or local ComfyUI.
- Fine control (LoRA, ControlNet): Local ComfyUI or Forge.
- Designer workflow: Recraft, Firefly, Krea.
- Engineering integration: API.
6 · Lawsuits and Licensing — Honestly
6.1 Stability AI vs Getty Images
The most-cited case. Getty Images sued Stability AI in both the UK and US (2023).
UK ruling, November 2025, High Court of Justice.
- Training itself is not UK copyright infringement. The court found that original images are not preserved inside model weights.
- Trademark infringement is separate. Where outputs partially reproduced the Getty watermark, the court did find trademark infringement.
- Summary. Training is lawful, output-level trademark similarity is not.
The US case is still pending in May 2026. US law differs and the outcome may differ.
6.2 Other Active Cases
- Andersen v. Stability AI. A class action by an artist group against Stability, Midjourney, and DeviantArt. Some claims dismissed; copyright claims remain alive.
- NYT v. OpenAI. A text-training case, but its precedent will affect image-training case law.
- Disney licensing. Reports in 2025 indicated Disney was negotiating direct licensing deals with several AI companies. Direct major-IP licensing may become standard.
6.3 What Users Should Do
Safer commercial options (May 2026).
- Adobe Firefly. Adobe Stock plus public domain only. Indemnification. The safest.
- Google Imagen 4. Indemnification. License-clean training data marketed explicitly.
- OpenAI gpt-image-1. Standard OpenAI terms. Indemnification only on the Enterprise plan.
- Flux Schnell, self-hosted. Apache 2.0 weights. Outputs belong to the user.
- HiDream-I1. MIT weights. Commercial use OK.
Grey zone.
- Midjourney. Commercial use of outputs allowed at Pro and above, but explicit training-data licensing is not advertised.
- SD-XL plus community LoRA. Many LoRAs have unclear training-data provenance, especially "specific artist style" LoRAs.
- Recraft. License policy is stated, but training-data sources are only partially disclosed.
Risky behavior.
- Famous artist or illustrator names in the prompt. "In the style of [Artist]" output, used commercially, is clearly risky.
- Direct imitation of trademarked characters and IP. Disney characters, game characters, brand logos.
- Selling NFTs or merchandise without explicit license confirmation.
6.4 However the Lawsuits End
Three scenarios.
Scenario A — "training is transformative fair use" prevails. AI training is legalized. Output-level trademark and similarity issues remain separate. The "explicit licensing" marketing edge of Firefly and Imagen narrows.
Scenario B — "training requires licensing" prevails. Stable Diffusion and Midjourney face licensing settlements or forced retraining. Costs jump, subscriptions rise, and Firefly and Imagen pull further ahead.
Scenario C — Settlement and licensing standardize. Like the Disney-AI rumored deals: major-IP licensing becomes the norm, academic and open-source models live in a separate track. The most likely outcome.
7 · The Decision Framework — How to Pick
7.1 Recommendations by Use Case
| Situation | First Choice | Second Choice | Note |
|---|---|---|---|
| Single concept illustration | Midjourney v7 | Flux Pro 1.1 | Aesthetic first |
| Photo-grade portrait or product | Imagen 4 Ultra | Flux Pro | Realism |
| Poster or ad with text | Ideogram v3 | Recraft V3 | Typography accuracy |
| Logo or icon (vector) | Recraft V3 | Adobe Illustrator | Vector output |
| Brand consistency | Firefly Image 4 | Midjourney --sref | Indemnification + workflow |
| Character consistency (comics) | Midjourney --cref | Flux Kontext | Multi-panel |
| Image editing | Flux Kontext | gpt-image-1 | Text-driven |
| Inpainting / outpainting | Photoshop + Firefly | Flux Fill | Workflow |
| API automation | fal.ai + Flux Pro | Vertex AI Imagen 4 | SLA |
| Local / private | Flux Dev (non-commercial) | HiDream-I1 (commercial) | Self-host |
| Free start | Flux Schnell + Forge | SD-XL + Civitai LoRA | 4 GB+ GPU |
| Commercial safety first | Firefly | Imagen 4 | Indemnification |
| Academic / research | SD 3.5 + paper repro | Flux Dev | Verifiability |
7.2 Decision Tree
Start
|
+- Must the image contain text?
| +- Yes -> Ideogram v3 or Recraft V3
| +- No -> next
|
+- Photo-grade realism required?
| +- Yes -> Imagen 4 Ultra or Flux Pro 1.1
| +- No -> next
|
+- Designer workflow (brand, vector)?
| +- Yes -> Recraft or Adobe Firefly
| +- No -> next
|
+- Character or scene consistency required?
| +- Yes -> Midjourney `--cref` or Flux Kontext
| +- No -> next
|
+- License cleanliness top priority?
| +- Yes -> Firefly or Imagen 4 (indemnified)
| +- No -> next
|
+- Local / private execution required?
| +- Yes -> Flux Dev or Schnell, or HiDream-I1
| +- No -> next
|
+- API automation / batch needed?
+- Yes -> fal.ai Flux Pro or OpenAI gpt-image-1
+- No -> Midjourney v7 (single-scene aesthetic)
7.3 Budget Guide
| Budget | Recommendation |
|---|---|
0 USD/month | Flux Schnell locally with Forge. 4 GB+ GPU. Unlimited. |
10 USD/month | Midjourney Basic or Ideogram Basic. One tool. |
30 USD/month | Midjourney Standard + Ideogram + ChatGPT Plus. Aesthetic + typography + editing. |
60 USD/month | + Recraft Pro or Adobe CC. Full designer stack. |
200+ USD/month | API usage (fal.ai Flux Pro + Imagen 4 + gpt-image-1) on top. Production automation. |
Epilogue — Checklist, Anti-Patterns, Next Post
The shock of SD 1.4 in 2022, Flux 1's overtake in 2024, the Midjourney v7 / Imagen 4 consumer jump in 2025, and the Flux Kontext / gpt-image-1 editing paradigm shift in 2026 — the category has never sat still. Music and video shifted the same way. The difference is that images stabilized first. Users now ask "which tool for which job" rather than "which model is best." There is no one-line answer, but the five axes are clear — aesthetic (Midjourney), realism (Imagen), typography (Ideogram), designer workflow (Recraft / Firefly), open weights (Flux / HiDream).
Tool Selection Checklist
- Does the image contain text? If yes, lead with Ideogram or Recraft.
- Commercial use? If yes, Firefly / Imagen indemnification or self-hosted Flux Schnell.
- Single shot or a series? If a series, character consistency (
--cref, Flux Kontext) is mandatory. - Editing required? Pick one of Flux Kontext, gpt-image-1, or Photoshop Generative Fill.
- Local feasible? 16 GB+ GPU runs Flux Dev. 24 GB runs HiDream.
- Automation required? Use APIs. Midjourney is unsuitable for automation.
- Vector required? Recraft is nearly alone here.
- Realism or illustration? Realism -> Imagen 4 Ultra. Illustration -> Midjourney v7.
- Multi-turn editing? gpt-image-1 (chat) or Flux Kontext.
- License safety top priority? Firefly first, Imagen second.
Anti-Patterns
| Anti-Pattern | Why It Hurts | Instead |
|---|---|---|
| Shipping the first generation | Average quality is low | Generate 4-8, curate |
| Famous artist names in prompts | Licensing grey zone, lawsuit risk | Abstract descriptions ("late-80s synthwave poster") |
| Automating Midjourney | No official API; unofficial wrappers violate ToS | fal.ai Flux Pro, gpt-image-1, Imagen 4 |
| Staying on SD-XL, ignoring Flux | Prompt-adherence gap compounds | Start with Flux Schnell; keep SD-XL only when a LoRA is required |
| Avoiding ComfyUI as "too complex" | Automation gap compounds | Start with Fooocus / Forge, graduate to ComfyUI |
| Shipping Flux Dev commercially | Violates the Non-Commercial license | Use Flux Schnell, Flux Pro, or HiDream |
| Posters with text via Midjourney | Letters break | Ideogram v3 or Recraft |
| Selling NFTs or merch without license labels | IP risk | Confirm explicit commercial rights on outputs |
| Expecting 4K+ from a single generation | Model outputs are usually 1-2 MP | Upscale with Magnific / Topaz |
| Free-tier for client work | License violations, watermarks | At minimum Pro |
| Single-model dependence | Aesthetic / typography / editing gaps accumulate | Combine 2-3 models (aesthetic + typography + editing) |
Next Post
The next post is "AI Video Generation 2026 — Sora 2, Veo 3, Runway Gen-4, Kling 2, Pika 2, Open-Sora: Where Are We Really?". Same shape — category explosion (the 2024 Sora demos) and maturation (2026's commercial tools), the hardest slice (long consistency, character identity, fingers and physics), open-source options (Open-Sora, Mochi, HunyuanVideo, Wan), real workflows (ads, short-form, concept visuals), and the licensing fight (NYT-OpenAI, Disney licensing). With that post the image / music / video triangle closes.
References
- Black Forest Labs — Official Site
- Flux.1 Announcement — Announcing Black Forest Labs
- Flux.1.1 Pro Ultra and Raw Mode
- Flux.1 Kontext — Image Editing as a Foundation
- Flux Tools — Fill, Canny, Depth, Redux
- Flux.1 Schnell — Hugging Face
- Flux.1 Dev — Hugging Face
- Midjourney — Official
- Midjourney v7 — Updates
- Google DeepMind — Imagen
- Imagen 4 GA — Google Cloud Vertex AI
- OpenAI — gpt-image-1 / 4o Image Generation
- OpenAI Images API Docs
- DALL-E 3 — OpenAI
- Ideogram — Official
- Ideogram 3.0 Launch
- Recraft — Official
- Recraft V3 Tops Hugging Face TTI — TechCrunch
- Adobe Firefly — Official
- Firefly Image 4 — Adobe Blog
- Adobe Firefly Training Data FAQ
- Stable Diffusion 3.5 Announcement — Stability AI
- SD 3.5 Large — Hugging Face
- SDXL — Stability AI
- HiDream-I1 — GitHub
- HiDream-I1 — Hugging Face
- Janus-Pro — DeepSeek
- Krea AI — Official
- ComfyUI — GitHub
- Forge UI — GitHub
- Automatic1111 — GitHub
- InvokeAI — Official
- SwarmUI — GitHub
- Fooocus — GitHub
- Civitai — LoRA Catalog
- fal.ai — Flux Pro API
- Replicate — Flux Models
- Getty Images v. Stability AI UK Ruling — Reuters
- Andersen v. Stability AI — Justia
- Reuters — AI Training Copyright Tracker
- Vertex AI Imagen 4 Pricing
- Magnific — Official
- Leonardo.AI — Official
- OpenArt — ComfyUI Workflow Hosting