Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 두 번의 흔들림

2022년 8월, Stable Diffusion 1.4가 공개됐다. 그 전까지 이미지 생성 AI는 OpenAI DALL-E 2와 Midjourney v3의 비공개 베타였다. SD가 오픈웨이트로 풀리는 순간, 카테고리 전체가 재편됐다. 누구나 4090 한 장으로 무한히 이미지를 만들 수 있게 됐고, ComfyUI · Automatic1111 · Fooocus · Forge 같은 커뮤니티 UI가 폭발했고, LoRA · ControlNet · IP-Adapter 같은 확장이 줄줄이 나왔다. 2023년은 "SD 생태계의 해"였다.

2024년 초, Black Forest Labs라는 이름이 등장했다. SD의 원 개발자들(Robin Rombach, Andreas Blattmann 등)이 Stability AI를 떠나 차린 회사다. 그해 8월, Flux.1이 발표됐다. 오픈웨이트 Schnell(Apache 2.0), 비상업 Dev, 상업 Pro의 3단 체계. 첫 출시 시점에 SD-XL을 명확히 능가했고, 1년 만에 오픈웨이트 이미지 모델의 새 기준이 됐다. 이게 첫 번째 흔들림이다.

2025년 봄, 두 번째 흔들림이 왔다. Midjourney v7이 4월 출시되며 컨슈머 미학을 다시 끌어올렸다. 같은 해 6월에는 Google Imagen 4가 일반공급(GA)됐고, Adobe Firefly Image 4가 그 다음 분기에 따라왔다. 8월에는 Black Forest Labs가 Flux.1 Kontext를 공개해 "이미지 편집"이라는 별도 트랙을 열었다. 11월, OpenAI는 ChatGPT의 기본 이미지 생성기를 DALL-E 3에서 gpt-image-1로 교체했다. Ideogram은 v3에서 텍스트 렌더링의 격차를 더 벌렸다.

2026년 5월 지금 풍경은 이렇다.

- **오픈웨이트의 왕좌:** Flux가 SD-XL/3.5의 자리를 차지했다. ComfyUI/Forge에서 가장 많이 도는 베이스 모델이 Flux 계열이다. Stability AI는 SD 3.5 Large 이후 한 박자 늦었다.

- **컨슈머 미학의 정점:** Midjourney v7 + 그 뒤를 잇는 Imagen 4 Ultra. 디자이너가 한 장만 뽑아야 한다면 여전히 이 둘 중 하나.

- **타이포의 단독 1위:** Ideogram v3. 포스터에 글자가 들어가야 하면 다른 선택지가 거의 없다.

- **디자이너의 도구:** Recraft가 "벡터까지 만드는 AI"로 카테고리를 만들었고, Firefly가 "어도비 워크플로 안에서 안전한 이미지"를 강화했다.

- **개발자 백엔드:** OpenAI gpt-image-1, Google Imagen 4, Flux Pro 1.1 — API에서 가장 많이 호출되는 셋.

- **소송과 라이선스:** Stability AI 대 Getty Images 영국 판결(2025년 11월)이 부분적으로 정리되며 "학습 자체"는 합법, "출력의 상표 유사성"은 별개의 문제로 갈렸다. 이게 라이선스 클린함을 마케팅 포인트로 만든 Firefly · Imagen · gpt-image-1의 입지를 더 굳혔다.

이 글은 그 풍경을 도구별 · 사용처별 · 워크플로별로 정직하게 정리한다. 어떤 모델이 무엇을 가장 잘하는지, 로컬 vs 클라우드의 진짜 선택지가 무엇인지, ComfyUI는 정말 끝났는지(아니다), 그리고 소송이 어떻게 풀리고 있는지를 같이 본다.

> 핵심 한 줄: 2026년 이미지 생성에서 "단일 최고 모델"은 없다. **타이포 · 일관성 · 편집 · 라이선스 · 미학** 다섯 축이 다 다른 도구로 갈라졌다. 도구를 알면 한 작업에 한 시간 걸리던 게 10분이 된다.

1장 · Flux 시대의 도착 — 오픈웨이트의 새 기준

1.1 Black Forest Labs는 누구인가

2024년 3월, Stability AI의 핵심 연구진(Robin Rombach, Andreas Blattmann, Patrick Esser, Dominik Lorenz)이 회사를 떠나 Black Forest Labs를 설립했다. 본사는 독일 프라이부르크. 시드 라운드(2024년 8월, 약 3,100만 달러)에 Andreessen Horowitz가 리드했고, General Catalyst, Y Combinator, MätchVC가 참여했다.

이들은 SD 1.x, 2.x, SD-XL의 원저자다. 즉 "오픈웨이트 이미지 생성"이라는 카테고리를 만든 사람들이 회사를 새로 차렸다. 첫 결과물이 Flux.1이다.

1.2 Flux.1의 3단 체계

Flux.1은 같은 아키텍처 · 같은 학습 데이터에서 세 가지 변형으로 출시됐다.

- **Flux.1 Schnell.** Apache 2.0 라이선스. 1-4 스텝 추론. 가장 가볍고 가장 자유롭다. 상업 사용 OK. 4090 한 장에 6~8GB VRAM이면 돈다.

- **Flux.1 Dev.** Black Forest Labs Non-Commercial License. 가중치는 공개됐지만 상업 사용 불가. 연구 · 학습 · 개인 프로젝트용. 50 스텝 가이드 추론.

- **Flux.1 Pro.** 비공개. API로만 접근. 가장 좋은 품질. fal.ai · Replicate · Together AI 같은 호스팅 파트너에서 호출.

이 3단 구조가 영리하다. **무료로 풀어 생태계를 만들되, 상업 가치는 Pro와 라이선스에서 회수한다.** 2025년 들어 Flux.1.1 Pro와 Flux.1.1 Pro Ultra(4MP까지)가 추가되며 Pro 라인이 더 단단해졌다.

1.3 왜 SD-XL을 능가했나

Flux.1의 기술적 차별점은 세 가지다.

1. **120억 파라미터.** SD-XL(2.6B)의 약 4.6배. SD 3.5 Large(8B)보다 50% 큼.

2. **Rectified Flow.** 디퓨전의 변형. 표준 디퓨전이 노이즈에서 이미지로 가는 경로를 곡선으로 학습한다면, Rectified Flow는 직선으로 학습하려 한다. 결과적으로 적은 스텝에서도 품질이 높다.

3. **MMDiT 아키텍처.** Stable Diffusion 3에서 도입된 멀티모달 디퓨전 트랜스포머. 텍스트와 이미지를 같은 트랜스포머 블록에서 동시에 처리한다. 텍스트 정합성(prompt adherence)이 SD-XL 대비 큰 폭으로 개선됐다.

실측 결과(2024년 8월 출시 시점 벤치마크): 인간 평가에서 Flux Pro가 Midjourney v6, DALL-E 3, SD 3을 모두 앞섰다. 손가락 · 텍스트 정합성 · 해부학 같은 약점 영역에서 특히 차이가 컸다.

1.4 Flux Kontext — 이미지 편집의 정답

2025년 5월, Black Forest Labs는 Flux.1 Kontext를 공개했다. **"이미지 + 텍스트 → 편집된 이미지"** 모델이다. 기존 텍스트-투-이미지(text-to-image, T2I)와 다르다.

Kontext의 특별한 점.

- **다중 입력.** 참조 이미지 1~여러 장 + 텍스트 지시. "이 사람의 얼굴을 유지하면서 옷만 검은 정장으로", "두 입력 이미지를 같은 톤으로 합치기" 같은 작업이 된다.

- **국소 편집.** "이 부분만 바꾸고 나머지는 보존". 인페인팅 마스크가 필요 없다. 텍스트로 지시.

- **다중 턴.** 같은 이미지에서 여러 번 편집을 누적. "옷 → 배경 → 라이팅 → 머리색" 순으로 점진 수정.

- **3가지 변형.** Kontext Pro(API), Kontext Max(고품질), Kontext Dev(오픈웨이트, 비상업).

Kontext가 등장하기 전, 이미지 편집은 ControlNet · IP-Adapter · 인페인팅 마스크 · LoRA의 조합이었다. 이제는 한 줄 텍스트면 된다.

1.5 Flux Tools — 보조 도구 묶음

2024년 11월, Black Forest Labs는 Flux Tools를 공개했다.

- **Flux Fill.** 인페인팅 · 아웃페인팅 전용 모델. 마스크 + 텍스트로 지정 영역만 채움.

- **Flux Canny.** Canny edge 가이드 ControlNet 대체.

- **Flux Depth.** depth map 가이드.

- **Flux Redux.** 이미지 변주(image variation). 한 입력에서 비슷한 분위기의 변형 생성.

이 도구들이 ControlNet · IP-Adapter 같은 SD 1.5/XL 시대의 보조 도구를 대부분 흡수했다.

1.6 로컬 실행 현실

Flux Dev를 4090에서 돌릴 때.

- **풀 정밀도(FP16).** 24GB VRAM 필요. 한 장 생성에 약 20초.

- **FP8 양자화.** 12~16GB로 줄어듦. 한 장 약 15초. 품질 차이 미미.

- **NF4 양자화.** 6~8GB까지 가능. 한 장 약 25초(느려짐). 품질이 살짝 떨어지지만 4060 8GB에서도 돈다.

- **Schnell.** 4 스텝이면 됨. 한 장 5초 이하.

ComfyUI · Forge · SwarmUI · InvokeAI에서 모두 네이티브 지원. 2025년부터 "로컬 이미지 생성 = Flux"가 거의 기본값이 됐다.

2장 · 컨슈머 미학의 정점 — Midjourney와 Imagen

2.1 Midjourney v7

Midjourney는 카테고리의 미학 기준이다. 다른 모델이 따라가는 룩을 만든다. v7은 2025년 4월에 알파, 6월에 GA로 갔다.

v7의 핵심 변화.

- **개인화(Personalization).** 첫 사용 시 200장 정도의 이미지를 평가(좋아요/싫어요)하면 모델이 사용자 취향을 학습한다. 같은 프롬프트에서도 사용자마다 다른 결과가 나온다.

- **Draft Mode.** 빠르고 저렴한 초안 모드. 토큰 비용 1/10에 가까운 가격으로 30초 이내 4장 생성. 마음에 드는 초안을 정식 모드로 업스케일.

- **Style Reference v2.** `--sref` 코드 또는 참조 이미지로 일관된 스타일 유지. v6보다 안정성이 크게 좋아졌다.

- **Character Reference (`--cref`).** 같은 캐릭터를 여러 컷에 걸쳐 유지. 만화/그림책 워크플로의 핵심.

품질은 한마디로 "단일 장면의 미적 완성도"에서 가장 강하다. 한 장의 포스터, 한 컷의 일러스트, 무드보드 한 장을 만들 때 Midjourney의 결과물이 디자이너의 눈을 가장 적게 거슬린다.

약점.

- **텍스트 렌더링.** v7도 글자는 약하다. Ideogram에 못 미친다.

- **사진 같은 사실주의.** Imagen 4 Ultra에 사진 분야는 양보한다.

- **API 부재.** Midjourney는 공식 API가 없다. Discord 봇 + 비공식 래퍼만 있음. 자동화에 부적합.

- **상업 라이선스.** Pro 이상 가능. 단 "학습 데이터의 명시적 라이선스 클리어"는 광고하지 않음.

2.2 Google Imagen 4

Imagen 4는 2025년 6월 GA로 출시됐다. Imagen 3(2024년 12월)에서 두 단계 점프했다.

- **Imagen 4 Standard.** 빠르고 보편적.

- **Imagen 4 Ultra.** 사진 같은 사실주의의 정점. 인물 사진 · 풍경 · 제품 사진에서 Midjourney v7 Photo 스타일과 정면 경쟁.

- **Imagen 4 Fast.** 토큰 비용 절감 버전.

특징.

- **텍스트 렌더링이 크게 개선됨.** Imagen 3 때까지 약점이었던 "이미지 안의 글자"가 v4에서 사용 가능 수준이 됐다. Ideogram만큼은 아니지만 Midjourney보다 낫다.

- **SynthID 워터마킹 의무.** 모든 출력에 보이지 않는 워터마크가 들어간다. AI 출처 검증이 표준화되는 흐름과 맞물려 있다.

- **Vertex AI 통합.** 엔터프라이즈가 가장 쉽게 받아들이는 경로. SOC 2, HIPAA 컴플라이언스를 그대로 가져간다.

- **상업 안전성.** Google이 출력에 대한 면책(indemnification)을 명시적으로 제공한다. Firefly와 같은 라인.

약점.

- **창의적 미학.** 사진은 잘하지만 "일러스트의 개성"은 Midjourney/Flux 대비 평범하다.

- **콘텐츠 필터.** 엔터프라이즈 안전 기준이 강해서 가끔 합법적 프롬프트도 거부된다.

2.3 OpenAI gpt-image-1

OpenAI는 2025년 4월 ChatGPT에 새 기본 이미지 모델 gpt-image-1을 도입했다. 그 전까지 ChatGPT가 쓰던 DALL-E 3는 백업으로 빠졌다.

gpt-image-1의 위치.

- **컨버세이셔널 편집.** "이거 만들어 → 색 바꿔 → 글자 추가" 같은 다중 턴이 자연스럽다. Flux Kontext와 비슷한 방향이지만 인터페이스가 채팅이다.

- **텍스트 렌더링.** DALL-E 3보다 크게 개선됐다. Imagen 4와 비슷한 레벨. Ideogram에는 못 미침.

- **사실주의.** Imagen 4 Ultra와 비교하면 한 박자 부족. Midjourney v7과 비교하면 미학이 평범.

- **API 가격.** 출력 토큰 기준 과금. 한 장당 약 0.02~0.19달러(품질 옵션에 따라).

ChatGPT 안에서 가장 많이 호출되는 모델이 됐기 때문에, 사용량 기준으로는 2026년 카테고리 1위일 가능성이 크다. 다만 "최고 품질"이 아니라 "가장 편한 인터페이스"라는 점이 정확하다.

2.4 비교 — 컨슈머/API 모델

| 도구 | 미학 | 사실주의 | 텍스트 렌더링 | 편집 | 라이선스 | API |

| --- | --- | --- | --- | --- | --- | --- |

| Imagen 4 Ultra | 높음 | 최상 | 보통 | 별도(Imagen Edit) | 면책 제공 | Vertex AI |

| gpt-image-1 | 보통 | 높음 | 보통 | 강함(채팅) | 표준 OpenAI | OpenAI API |

| DALL-E 3 | 보통 | 높음 | 보통 | 약함 | 표준 OpenAI | OpenAI API(레거시) |

3장 · 타이포 · 디자이너 도구 — Ideogram · Recraft · Firefly

3.1 Ideogram v3 — 글자가 들어가야 하면 여기

Ideogram은 2023년 8월에 출발한 토론토 기반 스타트업이다. CEO는 Mohammad Norouzi(전 Google Brain, Imagen 원저자 중 한 명). 처음부터 "이미지 안의 텍스트"를 핵심 차별점으로 잡았다.

- **Ideogram 1.0(2024년 2월).** 텍스트 렌더링이 카테고리에서 가장 정확하다고 평가받음.

- **Ideogram 2.0(2024년 8월).** 사실주의 · 스타일 컨트롤 강화.

- **Ideogram 3.0(2025년 3월).** 텍스트와 미학을 동시에 끌어올림. 포스터, 명함, 광고 카피, 책 표지에서 사실상 단독 1위.

핵심 기능.

- **Magic Prompt.** 입력 프롬프트를 모델이 자동 확장해 결과를 개선.

- **Canvas.** 인페인팅 · 아웃페인팅 · 마스크 편집 통합 워크플로.

- **Style Reference.** 참조 이미지로 일관된 스타일.

- **Character Consistency.** v3에서 추가. 같은 캐릭터를 여러 장에 걸쳐 유지.

타이포 정확도는 단순히 "글자가 알아볼 수 있다"가 아니라 "디자이너가 출력 그대로 쓸 수 있다"는 레벨이다. 이게 Midjourney/Flux/Imagen과 결정적으로 다르다.

약점은 사실주의가 Imagen 4 Ultra만큼 정밀하진 않다는 것, 그리고 캐릭터 일관성이 Midjourney의 `--cref`보다 약간 약하다는 것 정도.

3.2 Recraft — 디자이너의 AI

Recraft는 "그래픽 디자이너를 위한 AI"라는 단일 포지션을 잡았다. 2024년 10월 Recraft V3가 출시되며 Hugging Face TTI(text-to-image) 리더보드에서 한동안 1위를 차지했다.

차별점.

- **벡터 출력.** SVG 직접 생성. 로고, 아이콘, 일러스트를 벡터로 받는다. AI 도구 중 유일에 가까운 기능.

- **브랜드 라이브러리.** 컬러 팔레트, 폰트, 스타일을 저장해 모든 출력에 일관 적용.

- **이미지 + 텍스트 통합.** 포스터에서 텍스트가 디자인 요소처럼 다뤄진다. Ideogram보다 더 "디자인 친화적"으로 텍스트를 배치.

- **이미지 편집.** 인페인팅, 아웃페인팅, 객체 제거, 배경 변경이 통합 UI에 있다.

- **3D 모크업.** 이미지를 3D 객체(컵, 책, 폰)에 자동 매핑.

Recraft V3 다음의 V3 Plus가 2025년에 출시되며 사실주의를 더 끌어올렸다. 2026년 5월 시점에는 V3.5가 베타. 디자이너 입장에서 "이미지를 만들고 → 그걸로 작업하고 → 다른 포맷으로 받기"의 단일 도구다.

가격은 무료 50 크레딧/일, Basic $12/월, Pro $33/월 수준.

3.3 Adobe Firefly — 라이선스의 명료성

Adobe Firefly의 가치 제안은 한 문장이다. **"Adobe Stock과 퍼블릭 도메인만 학습했다."** 즉 다른 모델이 라이선스 회색지대에 있을 때 Firefly는 명확하다.

2025년 5월에 Firefly Image 4가 출시됐고, 같은 해 가을에 Image 4 Ultra가 추가됐다.

- **Firefly Image 4.** 보편 사용. 사실주의, 일러스트, 텍스트 렌더링 모두 균형.

- **Firefly Image 4 Ultra.** 고해상도, 디테일 강화. 광고 · 출판 · 제품 디자인 워크플로.

Adobe 생태계 안에서의 강점.

- **Photoshop Generative Fill.** Photoshop 안에서 인페인팅/아웃페인팅에 Firefly가 들어가 있다. 디자이너 워크플로에 마찰 없이 통합.

- **Illustrator Generative Recolor.** 벡터 색상 자동 변경.

- **Premiere Pro Generative Extend.** 영상 클립을 텍스트로 연장(Firefly Video로 별도).

- **Adobe Express.** 비전문가용 통합 UI.

- **면책.** 기업 고객에게 출력에 대한 IP 면책 제공.

약점.

- **단독 미학.** Midjourney v7만큼의 "와우 모먼트"는 약하다.

- **콘텐츠 필터.** 안전 기준이 강해서 사람 얼굴, 유명인, 일부 상업 콘셉트에서 거부가 많다.

- **가격.** Creative Cloud 구독을 이미 쓰는 사용자에게는 무료에 가깝지만, 단독으로는 비싸다.

3.4 비교 — 타이포 · 디자이너 도구

| 도구 | 텍스트 정확도 | 벡터 | 디자인 워크플로 | 라이선스 명료성 | 가격 |

| --- | --- | --- | --- | --- | --- |

| Ideogram v3 | 최상 | 미지원 | 캔버스 통합 | 보통 | 무료-$20/월 |

| Firefly Image 4 | 높음 | 미지원 | Adobe 통합 | 최상 | CC 포함 |

4장 · 오픈소스 / 로컬 — Stable Diffusion 3.5 · SD-XL · HiDream · Janus-Pro

4.1 Stable Diffusion의 현재 상태

2022년에 카테고리를 만든 Stability AI는 2024-2025년에 부침을 겪었다.

- **SD 3 Medium(2024년 6월).** 출시 직후 "해부학적 문제"로 커뮤니티 반발. 라이선스 변경(Creator/Enterprise 분리)도 논란.

- **SD 3.5 Large/Medium/Large Turbo(2024년 10월).** SD 3의 약점을 보완. 8B/2.5B/8B 파라미터. 라이선스는 Stability AI Community License(연 매출 100만 달러 이하 무료).

- **SD-XL 1.0(2023년 7월).** 여전히 사용량 기준 가장 큰 베이스. LoRA 생태계가 SD-XL을 중심으로 형성됐기 때문.

2026년 5월 시점에서 SD 3.5는 "여전히 쓰이지만 카테고리 1위가 아니다." Flux가 명확히 앞선다. Stability AI는 회사 재정 어려움(2024년 CEO 교체)을 거쳐, 2025년부터는 Stable Audio · Stable Video · 3D 쪽으로 무게 중심이 옮겨가는 분위기.

4.2 SD-XL — 레거시의 힘

SD-XL이 살아 있는 이유는 단순하다. **LoRA · ControlNet · IP-Adapter · Textual Inversion 생태계가 거대하다.** Civitai에 수만 개의 LoRA가 SD-XL용으로 올라와 있다. 특정 화풍, 특정 캐릭터, 특정 미학을 가장 다양하게 다룰 수 있는 베이스 모델이 여전히 SD-XL이다.

언제 SD-XL을 쓰나.

- **특정 LoRA가 필수일 때.** 애니메 스타일, 특정 일러스트레이터 스타일, 캐릭터 일관성.

- **ControlNet으로 정밀 제어가 필요할 때.** 포즈, 깊이, edge.

- **하드웨어가 제한적일 때.** SD-XL은 8GB VRAM에서도 잘 돈다.

- **이미 SD-XL 워크플로가 정착됐을 때.** ComfyUI 노드 그래프를 그대로 재사용.

언제 Flux로 가나.

- **새로운 베이스 모델로 처음부터 작업할 때.**

- **텍스트 정합성(prompt adherence)이 중요할 때.** Flux가 압도적.

- **상업 사용에 명확한 라이선스가 필요할 때.** Flux Schnell.

4.3 HiDream — 2025년의 신성

HiDream-I1은 2025년 4월에 공개된 17B 파라미터 오픈웨이트 모델이다. MIT 라이선스 — 가장 자유롭다. 학술 벤치마크에서 일부 항목에서 Flux Dev를 앞서기도 했다.

- **하드웨어.** 24GB VRAM 권장. NF4 양자화로 12GB까지 다운.

- **품질.** 사실주의 · 텍스트 · 일관성 모두 균형. Flux Dev와 어깨를 나란히 함.

- **라이선스.** MIT — 상업 사용 완전 자유. 이 점이 Flux Dev(비상업)보다 큰 강점.

ComfyUI에서 네이티브 지원. 2026년 5월 시점 "Flux Dev의 진짜 무료 대안"으로 평가받는다.

4.4 Janus-Pro / Krea — 다른 모달리티

**Janus-Pro(DeepSeek, 2025년 1월).** 멀티모달 LLM이 이미지를 생성하는 방향. 텍스트와 이미지를 같은 모델이 다룬다. 7B 파라미터, MIT 라이선스. 품질은 Flux 수준은 아니지만 "LLM이 이미지를 만든다"는 패러다임이 흥미롭다.

**Krea AI.** 모델 제공사가 아니라 워크플로 플랫폼. 여러 모델을 통합한 인터페이스. 실시간 캔버스 모드(스케치하는 동안 AI가 따라 그리기)가 차별점. 2025년에 자체 모델 Krea-1을 발표.

4.5 비교 — 오픈소스 / 로컬

| --- | --- | --- | --- | --- |

| HiDream-I1 | 17B | MIT | 12-24GB | 상업 OK, Flux 대안 |

| HiDream Dev | 17B | MIT | 12GB | HiDream 베이스의 distill |

5장 · 도구 vs 모델 — ComfyUI/Forge/A1111의 현재

5.1 UI 도구는 끝났는가? 아니다

2023~2024년에 한창이던 SD UI들(Automatic1111, ComfyUI, Forge, Fooocus, InvokeAI)이 2025년에 가라앉았다는 이야기를 가끔 듣는다. **틀렸다.** 카테고리가 달라졌을 뿐이다.

**ComfyUI는 2025-2026년에 더 커졌다.** 노드 기반 UI라 새 모델이 나올 때마다 빠르게 노드가 만들어진다. Flux · HiDream · 모든 비디오 모델(Wan, HunyuanVideo, LTX-Video)이 ComfyUI에서 가장 먼저 돈다. "AI 이미지/비디오 워크플로 자동화의 사실상 표준"이 됐다.

**Forge UI(Forge / Forge Classic).** Automatic1111의 포크. 메모리 최적화로 Flux를 8GB GPU에서도 돌린다. ComfyUI보다 UI가 직관적이라 입문자에게 인기.

**Automatic1111 (A1111).** 2025년 들어 업데이트가 느려졌다. Flux 지원이 Forge보다 늦었고, ControlNet도 좀 처졌다. "전통 SD-XL 사용자"가 남아 있지만 신규 유입은 Forge/ComfyUI로 갔다.

**InvokeAI.** 상업 SaaS로 피벗. 엔터프라이즈 워크플로 솔루션 방향.

**SwarmUI.** ComfyUI를 백엔드로 쓰면서 더 친절한 UI를 제공. ComfyUI 노드 그래프를 그릴 줄 모르는 사람에게 추천.

**Fooocus.** 미드저니풍 단순 UI. 입문자에게 좋다.

5.2 ComfyUI 노드 그래프 워크플로 예시

Flux Dev + Flux Kontext + LoRA + 업스케일을 한 그래프에 묶는 예시.

[LoadCheckpoint Flux Dev]

│

├─[Text Encoder] ← [Prompt: "cyberpunk alley, neon"]

│ │

│ [KSampler] ← [Empty Latent 1024x1024]

│ │

│ [VAE Decode]

│ │

├─[LoadKontext] ← [Reference image]

│ │

│ [Kontext Edit] ← [Instruction: "make it sunset"]

│ │

├─[LoadLora char-v1] ← [Strength 0.8]

│ │

├─[Upscale 4x ESRGAN]

│ │

└─[Save Image]

이런 그래프를 한 번 만들어두면, 입력 프롬프트만 바꿔서 수백 장을 자동 생성할 수 있다. API를 직접 호출하는 것과 같은 자동화 수준이지만, 출력의 모든 중간 단계를 시각적으로 볼 수 있다.

5.3 새로 진입하는 UI들

- **Krea.** 실시간 캔버스. 그리는 동안 AI가 채워줌. 디자이너에게 인기.

- **Magnific.** 업스케일 · 디테일 강화 전문. 다른 모델 출력을 후처리.

- **Leonardo.AI.** SaaS UI + 자체 모델 + 통합 워크플로.

- **OpenArt.** ComfyUI 워크플로를 웹에서 호스팅. 서버 관리 없이 노드 그래프 공유.

5.4 "내 워크플로를 어디에 두나"

선택 기준 한 줄.

- **빠르게 한 장:** Midjourney v7, Ideogram, Imagen 4 (웹 인터페이스).

- **자동화 · 배치:** API(fal.ai, Replicate, OpenAI, Vertex AI) 또는 로컬 ComfyUI.

- **세밀한 통제(LoRA, ControlNet):** 로컬 ComfyUI 또는 Forge.

- **디자이너 워크플로:** Recraft, Firefly, Krea.

- **개발 통합:** API.

6장 · 소송과 라이선스 — 정직하게

6.1 Stability AI 대 Getty Images

가장 많이 언급되는 소송. Getty Images가 Stability AI를 영국과 미국에서 동시 제소했다(2023년).

영국 판결(2025년 11월, High Court of Justice).

- **학습 행위 자체는 영국 저작권 침해가 아니다.** 모델 가중치에 원본 이미지가 보존돼 있지 않다고 판단.

- **상표 침해는 별도.** Getty 워터마크가 출력에 부분적으로 나타난 사례에 대해서는 상표 침해 인정.

- **요약.** 학습은 합법, 출력의 상표 유사성은 불법.

미국 사건은 2026년 5월 시점에도 진행 중. 미국 법은 영국과 달라 결과가 다를 수 있다.

6.2 다른 진행 중인 소송들

- **Andersen v. Stability AI.** 아티스트 그룹이 Stability, Midjourney, DeviantArt를 상대로 제기한 클래스 액션. 일부 청구는 기각, 저작권 침해 청구는 유지 중.

- **NYT v. OpenAI.** 텍스트 학습 데이터에 관한 소송이지만, 이미지 모델 학습에도 영향을 미칠 판례를 만들 수 있다.

- **Disney 라이선싱 시도.** Disney가 일부 AI 회사와 라이선싱 협상을 진행 중이라는 보도가 2025년에 나왔다. 메이저 IP의 직접 라이선싱이 표준화될 가능성.

6.3 사용자가 할 일

**상업 사용에 안전한 선택지(2026년 5월 기준).**

1. **Adobe Firefly.** Adobe Stock + 퍼블릭 도메인만 학습. 면책 제공. 가장 안전.

2. **Google Imagen 4.** 면책 제공. 학습 데이터의 라이선스 클리어 마케팅.

3. **OpenAI gpt-image-1.** 표준 OpenAI 약관. 면책은 Enterprise 플랜.

4. **Flux Schnell + 자체 호스팅.** Apache 2.0 모델 가중치. 출력은 사용자 소유.

5. **HiDream-I1.** MIT 라이선스 모델 가중치. 상업 사용 OK.

**회색지대.**

- **Midjourney.** 출력의 상업 사용은 Pro 이상 가능. 다만 학습 데이터의 명시적 라이선스 클리어는 광고하지 않음.

- **SD-XL + 커뮤니티 LoRA.** LoRA의 학습 데이터 출처가 불명확한 경우가 많다. 특히 "특정 아티스트 스타일" LoRA.

- **Recraft.** 라이선스 정책은 명시되어 있지만, 학습 데이터 출처는 부분 공개.

**위험 행위.**

- **유명 아티스트 · 일러스트레이터 이름을 프롬프트에.** "in the style of [Artist]" 출력의 상업 사용은 명백한 위험.

- **상표 · 캐릭터 IP를 직접 흉내내기.** Disney 캐릭터, 게임 캐릭터, 브랜드 로고.

- **출력에 명시적 라이선스 표기 없이 NFT/굿즈 판매.**

6.4 소송의 결말이 어떻게 나도

세 가지 시나리오를 본다.

**시나리오 A — "학습은 변혁적 공정 이용" 판결로 정착.** AI 학습은 합법화. 출력의 상표/유사성 침해만 별개로 다룸. Firefly/Imagen의 "명시적 라이선스" 마케팅 가치가 줄어듦.

**시나리오 B — "학습 라이선스 필요" 판결.** Stable Diffusion, Midjourney가 라이선스 합의 또는 재학습 강제. 비용 증가, 구독료 인상. Firefly/Imagen이 시장 우위.

**시나리오 C — 합의/라이선싱으로 표준화.** Disney-AI 회사 합의처럼 메이저 IP 라이선싱이 표준. 학술/오픈소스는 별도 트랙. 가장 가능성 높은 시나리오.

7장 · 의사결정 프레임 — 무엇을 골라야 하나

7.1 사용처별 추천

| 상황 | 1순위 | 2순위 | 메모 |

| --- | --- | --- | --- |

7.2 결정 트리

시작

│

├─ 이미지에 글자가 들어가야 하나?

│ ├─ 예 → Ideogram v3 또는 Recraft V3

│ └─ 아니오 ↓

│

├─ 사진 같은 사실주의가 필요한가?

│ ├─ 예 → Imagen 4 Ultra 또는 Flux Pro 1.1

│ └─ 아니오 ↓

│

├─ 디자이너 워크플로(브랜드, 벡터)인가?

│ ├─ 예 → Recraft 또는 Adobe Firefly

│ └─ 아니오 ↓

│

├─ 캐릭터/장면 일관성이 필요한가?

│ ├─ 예 → Midjourney `--cref` 또는 Flux Kontext

│ └─ 아니오 ↓

│

├─ 라이선스 클린함이 최우선인가?

│ ├─ 예 → Firefly 또는 Imagen 4(면책)

│ └─ 아니오 ↓

│

├─ 로컬·프라이빗 실행이 필요한가?

│ ├─ 예 → Flux Dev/Schnell 또는 HiDream-I1

│ └─ 아니오 ↓

│

├─ API 자동화 · 배치가 필요한가?

│ ├─ 예 → fal.ai Flux Pro 또는 OpenAI gpt-image-1

│ └─ 아니오 → Midjourney v7 (단일 장면 미학)

7.3 예산별 가이드

| 예산 | 추천 |

| --- | --- |

| `$0/월` | Flux Schnell 로컬 + Forge UI. 4GB+ GPU. 무제한 생성. |

| `$10/월` | Midjourney Basic 또는 Ideogram Basic. 단일 도구. |

| `$30/월` | Midjourney Standard + Ideogram + ChatGPT Plus. 미학 + 타이포 + 편집. |

| `$60/월` | + Recraft Pro 또는 Adobe CC. 디자이너 풀세트. |

| `$200+/월` | API 사용(fal.ai Flux Pro + Imagen 4 + gpt-image-1) + 위 구독. 프로덕션 자동화. |

에필로그 — 체크리스트, 안티패턴, 다음 글 예고

2022년 SD 1.4의 충격, 2024년 Flux 1의 추월, 2025년 Midjourney v7/Imagen 4의 컨슈머 점프, 2026년 Flux Kontext와 gpt-image-1의 편집 패러다임 전환 — 카테고리는 한 자리에 머무른 적이 없다. 같은 시기에 음악과 비디오도 비슷하게 흔들렸다. 차이라면 이미지 쪽이 가장 먼저 안정화됐다는 점이다. 사용자는 이제 "어떤 모델로 만들까"가 아니라 "어떤 작업에 어떤 도구를 쓸까"를 고민한다. 그 질문에 한 줄로 답하는 표는 없다. 하지만 큰 축은 다섯이다 — 미학(Midjourney), 사실주의(Imagen), 타이포(Ideogram), 디자이너(Recraft/Firefly), 오픈웨이트(Flux/HiDream).

도구 선택 체크리스트

1. **이미지에 텍스트가 있나?** — Yes면 Ideogram 또는 Recraft 우선.

2. **상업 사용인가?** — Yes면 Firefly/Imagen 면책 또는 Flux Schnell + 자체 호스팅.

3. **단일 컷인가 시리즈인가?** — 시리즈면 캐릭터 일관성(Midjourney `--cref`, Flux Kontext) 필수.

4. **편집이 필요한가?** — Flux Kontext, gpt-image-1, Photoshop Generative Fill 중 하나.

5. **로컬이 가능한가?** — 16GB+ GPU 있으면 Flux Dev. 24GB면 HiDream.

6. **자동화가 필요한가?** — API 우선. Midjourney는 자동화에 부적합.

7. **벡터가 필요한가?** — Recraft가 거의 단독.

8. **사실주의 vs 일러스트?** — 전자는 Imagen 4 Ultra, 후자는 Midjourney v7.

9. **다중 턴 편집인가?** — gpt-image-1(채팅) 또는 Flux Kontext.

10. **라이선스 안전성이 최우선인가?** — Firefly 우선, Imagen 차순.

안티패턴

| 안티패턴 | 왜 나쁜가 | 대신 |

| --- | --- | --- |

| 첫 번째 생성을 그대로 사용 | 평균 품질이 낮음 | 4-8장 생성 후 큐레이션 |

| 유명 아티스트 이름을 프롬프트에 | 라이선스 회색지대, 소송 위험 | 추상 묘사 ("late-80s synthwave poster") |

| Midjourney로 자동화 시도 | 공식 API 없음, 비공식 래퍼는 약관 위반 | fal.ai Flux Pro, gpt-image-1, Imagen 4 |

| SD-XL에 머무르며 Flux 무시 | 텍스트 정합성 격차가 크다 | Flux Schnell부터 시작, LoRA 필요시만 SD-XL |

| ComfyUI는 너무 복잡하다고 회피 | 자동화 격차가 누적된다 | Fooocus/Forge로 시작, 익숙해지면 ComfyUI |

| Flux Dev로 상업 출시 | Non-Commercial 라이선스 위반 | Flux Schnell, Flux Pro, HiDream |

| 글자가 들어간 포스터를 Midjourney로 | 텍스트가 깨짐 | Ideogram v3 또는 Recraft |

| 라이선스 표기 없이 NFT/굿즈 판매 | IP 분쟁 위험 | 출력의 명시적 상업권 확인 |

| 4K 이상을 단일 생성으로 기대 | 모델 출력은 보통 1-2MP | Magnific/Topaz로 업스케일 |

| 무료 티어로 클라이언트 작업 | 라이선스 위반, 워터마크 | 최소 Pro 구독 |

| 단일 모델만 의존 | 미학/타이포/편집 갭이 누적 | 2-3 모델 조합 (미학 + 타이포 + 편집) |

다음 글 예고

다음 글은 **"AI 비디오 생성 2026 — Sora 2 · Veo 3 · Runway Gen-4 · Kling 2 · Pika 2 · Open-Sora, 어디까지 왔나"**다. 이미지와 같은 패턴으로, 카테고리의 폭발(2024 Sora 데모)과 성숙(2026 상용 도구들), 보컬에 해당하는 가장 어려운 영역(긴 일관성, 캐릭터 동일성, 손가락과 물리), 오픈소스 옵션(Open-Sora, Mochi, HunyuanVideo, Wan), 사용처(광고, 짧은 영상, 콘셉트 비주얼), 그리고 저작권 논쟁(NYT-OpenAI, Disney 라이선싱 모델)을 같은 깊이로 다룰 예정이다. 이미지 → 음악 → 비디오의 삼각형이 그 글로 닫힌다.

참고 / References

- [Black Forest Labs 공식 사이트](https://blackforestlabs.ai/)

- [Flux.1 발표 — Announcing Black Forest Labs](https://blackforestlabs.ai/announcing-black-forest-labs/)

- [Flux.1.1 Pro Ultra · Raw 모드 발표](https://blackforestlabs.ai/flux-1-1-ultra/)

- [Flux.1 Kontext 발표 — Image Editing as a Foundation](https://blackforestlabs.ai/flux-1-kontext/)

- [Flux Tools 발표 — Fill, Canny, Depth, Redux](https://blackforestlabs.ai/flux-1-tools/)

- [Flux.1 Schnell — Hugging Face](https://huggingface.co/black-forest-labs/FLUX.1-schnell)

- [Flux.1 Dev — Hugging Face](https://huggingface.co/black-forest-labs/FLUX.1-dev)

- [Midjourney 공식](https://www.midjourney.com/)

- [Midjourney v7 발표 — Midjourney Blog](https://www.midjourney.com/updates)

- [Google DeepMind — Imagen 4](https://deepmind.google/models/imagen/)

- [Imagen 4 GA — Google Cloud Vertex AI](https://cloud.google.com/vertex-ai/generative-ai/docs/image/generate-images)

- [OpenAI gpt-image-1 — DevDay](https://openai.com/index/introducing-4o-image-generation/)

- [OpenAI gpt-image-1 — API Docs](https://platform.openai.com/docs/guides/images)

- [DALL-E 3 공식](https://openai.com/index/dall-e-3/)

- [Ideogram 공식](https://ideogram.ai/)

- [Ideogram 3.0 발표](https://ideogram.ai/launch)

- [Recraft 공식](https://www.recraft.ai/)

- [Recraft V3 Hugging Face TTI 1위 — TechCrunch](https://techcrunch.com/2024/10/30/recraft-can-generate-images-better-than-flux-and-midjourney/)

- [Adobe Firefly 공식](https://www.adobe.com/products/firefly.html)

- [Firefly Image 4 발표 — Adobe](https://blog.adobe.com/en/publish/2025/04/24/firefly-image-4-launch)

- [Adobe Firefly 학습 데이터 — Adobe FAQ](https://helpx.adobe.com/firefly/faq.html)

- [Stable Diffusion 3.5 발표 — Stability AI](https://stability.ai/news/introducing-stable-diffusion-3-5)

- [SD 3.5 Large Hugging Face](https://huggingface.co/stabilityai/stable-diffusion-3.5-large)

- [Stable Diffusion XL — Stability AI](https://stability.ai/news/stable-diffusion-sdxl-1-announcement)

- [HiDream-I1 GitHub](https://github.com/HiDream-ai/HiDream-I1)

- [HiDream-I1 Hugging Face](https://huggingface.co/HiDream-ai/HiDream-I1-Full)

- [Janus-Pro — DeepSeek](https://huggingface.co/deepseek-ai/Janus-Pro-7B)

- [Krea AI 공식](https://www.krea.ai/)

- [ComfyUI GitHub](https://github.com/comfyanonymous/ComfyUI)

- [Forge UI GitHub](https://github.com/lllyasviel/stable-diffusion-webui-forge)

- [Automatic1111 GitHub](https://github.com/AUTOMATIC1111/stable-diffusion-webui)

- [InvokeAI 공식](https://www.invoke.com/)

- [SwarmUI GitHub](https://github.com/mcmonkeyprojects/SwarmUI)

- [Fooocus GitHub](https://github.com/lllyasviel/Fooocus)

- [Civitai — LoRA 카탈로그](https://civitai.com/)

- [fal.ai — Flux Pro API](https://fal.ai/models/fal-ai/flux-pro)

- [Replicate — Flux 모델](https://replicate.com/black-forest-labs)

- [Getty Images v. Stability AI 영국 판결 요약 — Reuters](https://www.reuters.com/world/uk/getty-mostly-loses-uk-copyright-case-against-stability-ai-2025-11-04/)

- [Andersen v. Stability AI 사건 추적 — Justia](https://law.justia.com/cases/federal/district-courts/california/candce/3:2023cv00201/)

- [Vertex AI Imagen 4 가격](https://cloud.google.com/vertex-ai/generative-ai/pricing)

- [Magnific 공식](https://magnific.ai/)

- [Leonardo.AI 공식](https://leonardo.ai/)

- [OpenArt — ComfyUI 워크플로 호스팅](https://openart.ai/workflows)