필사 모드: AI 이미지 생성 2026 — Flux · Imagen 4 · Midjourney v7 · Ideogram · Recraft · Firefly · DALL-E · Stable Diffusion 정직 비교
한국어프롤로그 — 두 번의 흔들림
2022년 8월, Stable Diffusion 1.4가 공개됐다. 그 전까지 이미지 생성 AI는 OpenAI DALL-E 2와 Midjourney v3의 비공개 베타였다. SD가 오픈웨이트로 풀리는 순간, 카테고리 전체가 재편됐다. 누구나 4090 한 장으로 무한히 이미지를 만들 수 있게 됐고, ComfyUI · Automatic1111 · Fooocus · Forge 같은 커뮤니티 UI가 폭발했고, LoRA · ControlNet · IP-Adapter 같은 확장이 줄줄이 나왔다. 2023년은 "SD 생태계의 해"였다.
2024년 초, Black Forest Labs라는 이름이 등장했다. SD의 원 개발자들(Robin Rombach, Andreas Blattmann 등)이 Stability AI를 떠나 차린 회사다. 그해 8월, Flux.1이 발표됐다. 오픈웨이트 Schnell(Apache 2.0), 비상업 Dev, 상업 Pro의 3단 체계. 첫 출시 시점에 SD-XL을 명확히 능가했고, 1년 만에 오픈웨이트 이미지 모델의 새 기준이 됐다. 이게 첫 번째 흔들림이다.
2025년 봄, 두 번째 흔들림이 왔다. Midjourney v7이 4월 출시되며 컨슈머 미학을 다시 끌어올렸다. 같은 해 6월에는 Google Imagen 4가 일반공급(GA)됐고, Adobe Firefly Image 4가 그 다음 분기에 따라왔다. 8월에는 Black Forest Labs가 Flux.1 Kontext를 공개해 "이미지 편집"이라는 별도 트랙을 열었다. 11월, OpenAI는 ChatGPT의 기본 이미지 생성기를 DALL-E 3에서 gpt-image-1로 교체했다. Ideogram은 v3에서 텍스트 렌더링의 격차를 더 벌렸다.
2026년 5월 지금 풍경은 이렇다.
- **오픈웨이트의 왕좌:** Flux가 SD-XL/3.5의 자리를 차지했다. ComfyUI/Forge에서 가장 많이 도는 베이스 모델이 Flux 계열이다. Stability AI는 SD 3.5 Large 이후 한 박자 늦었다.
- **컨슈머 미학의 정점:** Midjourney v7 + 그 뒤를 잇는 Imagen 4 Ultra. 디자이너가 한 장만 뽑아야 한다면 여전히 이 둘 중 하나.
- **타이포의 단독 1위:** Ideogram v3. 포스터에 글자가 들어가야 하면 다른 선택지가 거의 없다.
- **디자이너의 도구:** Recraft가 "벡터까지 만드는 AI"로 카테고리를 만들었고, Firefly가 "어도비 워크플로 안에서 안전한 이미지"를 강화했다.
- **개발자 백엔드:** OpenAI gpt-image-1, Google Imagen 4, Flux Pro 1.1 — API에서 가장 많이 호출되는 셋.
- **소송과 라이선스:** Stability AI 대 Getty Images 영국 판결(2025년 11월)이 부분적으로 정리되며 "학습 자체"는 합법, "출력의 상표 유사성"은 별개의 문제로 갈렸다. 이게 라이선스 클린함을 마케팅 포인트로 만든 Firefly · Imagen · gpt-image-1의 입지를 더 굳혔다.
이 글은 그 풍경을 도구별 · 사용처별 · 워크플로별로 정직하게 정리한다. 어떤 모델이 무엇을 가장 잘하는지, 로컬 vs 클라우드의 진짜 선택지가 무엇인지, ComfyUI는 정말 끝났는지(아니다), 그리고 소송이 어떻게 풀리고 있는지를 같이 본다.
> 핵심 한 줄: 2026년 이미지 생성에서 "단일 최고 모델"은 없다. **타이포 · 일관성 · 편집 · 라이선스 · 미학** 다섯 축이 다 다른 도구로 갈라졌다. 도구를 알면 한 작업에 한 시간 걸리던 게 10분이 된다.
1장 · Flux 시대의 도착 — 오픈웨이트의 새 기준
1.1 Black Forest Labs는 누구인가
2024년 3월, Stability AI의 핵심 연구진(Robin Rombach, Andreas Blattmann, Patrick Esser, Dominik Lorenz)이 회사를 떠나 Black Forest Labs를 설립했다. 본사는 독일 프라이부르크. 시드 라운드(2024년 8월, 약 3,100만 달러)에 Andreessen Horowitz가 리드했고, General Catalyst, Y Combinator, MätchVC가 참여했다.
이들은 SD 1.x, 2.x, SD-XL의 원저자다. 즉 "오픈웨이트 이미지 생성"이라는 카테고리를 만든 사람들이 회사를 새로 차렸다. 첫 결과물이 Flux.1이다.
1.2 Flux.1의 3단 체계
Flux.1은 같은 아키텍처 · 같은 학습 데이터에서 세 가지 변형으로 출시됐다.
- **Flux.1 Schnell.** Apache 2.0 라이선스. 1-4 스텝 추론. 가장 가볍고 가장 자유롭다. 상업 사용 OK. 4090 한 장에 6~8GB VRAM이면 돈다.
- **Flux.1 Dev.** Black Forest Labs Non-Commercial License. 가중치는 공개됐지만 상업 사용 불가. 연구 · 학습 · 개인 프로젝트용. 50 스텝 가이드 추론.
- **Flux.1 Pro.** 비공개. API로만 접근. 가장 좋은 품질. fal.ai · Replicate · Together AI 같은 호스팅 파트너에서 호출.
이 3단 구조가 영리하다. **무료로 풀어 생태계를 만들되, 상업 가치는 Pro와 라이선스에서 회수한다.** 2025년 들어 Flux.1.1 Pro와 Flux.1.1 Pro Ultra(4MP까지)가 추가되며 Pro 라인이 더 단단해졌다.
1.3 왜 SD-XL을 능가했나
Flux.1의 기술적 차별점은 세 가지다.
1. **120억 파라미터.** SD-XL(2.6B)의 약 4.6배. SD 3.5 Large(8B)보다 50% 큼.
2. **Rectified Flow.** 디퓨전의 변형. 표준 디퓨전이 노이즈에서 이미지로 가는 경로를 곡선으로 학습한다면, Rectified Flow는 직선으로 학습하려 한다. 결과적으로 적은 스텝에서도 품질이 높다.
3. **MMDiT 아키텍처.** Stable Diffusion 3에서 도입된 멀티모달 디퓨전 트랜스포머. 텍스트와 이미지를 같은 트랜스포머 블록에서 동시에 처리한다. 텍스트 정합성(prompt adherence)이 SD-XL 대비 큰 폭으로 개선됐다.
실측 결과(2024년 8월 출시 시점 벤치마크): 인간 평가에서 Flux Pro가 Midjourney v6, DALL-E 3, SD 3을 모두 앞섰다. 손가락 · 텍스트 정합성 · 해부학 같은 약점 영역에서 특히 차이가 컸다.
1.4 Flux Kontext — 이미지 편집의 정답
2025년 5월, Black Forest Labs는 Flux.1 Kontext를 공개했다. **"이미지 + 텍스트 → 편집된 이미지"** 모델이다. 기존 텍스트-투-이미지(text-to-image, T2I)와 다르다.
Kontext의 특별한 점.
- **다중 입력.** 참조 이미지 1~여러 장 + 텍스트 지시. "이 사람의 얼굴을 유지하면서 옷만 검은 정장으로", "두 입력 이미지를 같은 톤으로 합치기" 같은 작업이 된다.
- **국소 편집.** "이 부분만 바꾸고 나머지는 보존". 인페인팅 마스크가 필요 없다. 텍스트로 지시.
- **다중 턴.** 같은 이미지에서 여러 번 편집을 누적. "옷 → 배경 → 라이팅 → 머리색" 순으로 점진 수정.
- **3가지 변형.** Kontext Pro(API), Kontext Max(고품질), Kontext Dev(오픈웨이트, 비상업).
Kontext가 등장하기 전, 이미지 편집은 ControlNet · IP-Adapter · 인페인팅 마스크 · LoRA의 조합이었다. 이제는 한 줄 텍스트면 된다.
1.5 Flux Tools — 보조 도구 묶음
2024년 11월, Black Forest Labs는 Flux Tools를 공개했다.
- **Flux Fill.** 인페인팅 · 아웃페인팅 전용 모델. 마스크 + 텍스트로 지정 영역만 채움.
- **Flux Canny.** Canny edge 가이드 ControlNet 대체.
- **Flux Depth.** depth map 가이드.
- **Flux Redux.** 이미지 변주(image variation). 한 입력에서 비슷한 분위기의 변형 생성.
이 도구들이 ControlNet · IP-Adapter 같은 SD 1.5/XL 시대의 보조 도구를 대부분 흡수했다.
1.6 로컬 실행 현실
Flux Dev를 4090에서 돌릴 때.
- **풀 정밀도(FP16).** 24GB VRAM 필요. 한 장 생성에 약 20초.
- **FP8 양자화.** 12~16GB로 줄어듦. 한 장 약 15초. 품질 차이 미미.
- **NF4 양자화.** 6~8GB까지 가능. 한 장 약 25초(느려짐). 품질이 살짝 떨어지지만 4060 8GB에서도 돈다.
- **Schnell.** 4 스텝이면 됨. 한 장 5초 이하.
ComfyUI · Forge · SwarmUI · InvokeAI에서 모두 네이티브 지원. 2025년부터 "로컬 이미지 생성 = Flux"가 거의 기본값이 됐다.
2장 · 컨슈머 미학의 정점 — Midjourney와 Imagen
2.1 Midjourney v7
Midjourney는 카테고리의 미학 기준이다. 다른 모델이 따라가는 룩을 만든다. v7은 2025년 4월에 알파, 6월에 GA로 갔다.
v7의 핵심 변화.
- **개인화(Personalization).** 첫 사용 시 200장 정도의 이미지를 평가(좋아요/싫어요)하면 모델이 사용자 취향을 학습한다. 같은 프롬프트에서도 사용자마다 다른 결과가 나온다.
- **Draft Mode.** 빠르고 저렴한 초안 모드. 토큰 비용 1/10에 가까운 가격으로 30초 이내 4장 생성. 마음에 드는 초안을 정식 모드로 업스케일.
- **Style Reference v2.** `--sref` 코드 또는 참조 이미지로 일관된 스타일 유지. v6보다 안정성이 크게 좋아졌다.
- **Character Reference (`--cref`).** 같은 캐릭터를 여러 컷에 걸쳐 유지. 만화/그림책 워크플로의 핵심.
품질은 한마디로 "단일 장면의 미적 완성도"에서 가장 강하다. 한 장의 포스터, 한 컷의 일러스트, 무드보드 한 장을 만들 때 Midjourney의 결과물이 디자이너의 눈을 가장 적게 거슬린다.
약점.
- **텍스트 렌더링.** v7도 글자는 약하다. Ideogram에 못 미친다.
- **사진 같은 사실주의.** Imagen 4 Ultra에 사진 분야는 양보한다.
- **API 부재.** Midjourney는 공식 API가 없다. Discord 봇 + 비공식 래퍼만 있음. 자동화에 부적합.
- **상업 라이선스.** Pro 이상 가능. 단 "학습 데이터의 명시적 라이선스 클리어"는 광고하지 않음.
2.2 Google Imagen 4
Imagen 4는 2025년 6월 GA로 출시됐다. Imagen 3(2024년 12월)에서 두 단계 점프했다.
- **Imagen 4 Standard.** 빠르고 보편적.
- **Imagen 4 Ultra.** 사진 같은 사실주의의 정점. 인물 사진 · 풍경 · 제품 사진에서 Midjourney v7 Photo 스타일과 정면 경쟁.
- **Imagen 4 Fast.** 토큰 비용 절감 버전.
특징.
- **텍스트 렌더링이 크게 개선됨.** Imagen 3 때까지 약점이었던 "이미지 안의 글자"가 v4에서 사용 가능 수준이 됐다. Ideogram만큼은 아니지만 Midjourney보다 낫다.
- **SynthID 워터마킹 의무.** 모든 출력에 보이지 않는 워터마크가 들어간다. AI 출처 검증이 표준화되는 흐름과 맞물려 있다.
- **Vertex AI 통합.** 엔터프라이즈가 가장 쉽게 받아들이는 경로. SOC 2, HIPAA 컴플라이언스를 그대로 가져간다.
- **상업 안전성.** Google이 출력에 대한 면책(indemnification)을 명시적으로 제공한다. Firefly와 같은 라인.
약점.
- **창의적 미학.** 사진은 잘하지만 "일러스트의 개성"은 Midjourney/Flux 대비 평범하다.
- **콘텐츠 필터.** 엔터프라이즈 안전 기준이 강해서 가끔 합법적 프롬프트도 거부된다.
2.3 OpenAI gpt-image-1
OpenAI는 2025년 4월 ChatGPT에 새 기본 이미지 모델 gpt-image-1을 도입했다. 그 전까지 ChatGPT가 쓰던 DALL-E 3는 백업으로 빠졌다.
gpt-image-1의 위치.
- **컨버세이셔널 편집.** "이거 만들어 → 색 바꿔 → 글자 추가" 같은 다중 턴이 자연스럽다. Flux Kontext와 비슷한 방향이지만 인터페이스가 채팅이다.
- **텍스트 렌더링.** DALL-E 3보다 크게 개선됐다. Imagen 4와 비슷한 레벨. Ideogram에는 못 미침.
- **사실주의.** Imagen 4 Ultra와 비교하면 한 박자 부족. Midjourney v7과 비교하면 미학이 평범.
- **API 가격.** 출력 토큰 기준 과금. 한 장당 약 0.02~0.19달러(품질 옵션에 따라).
ChatGPT 안에서 가장 많이 호출되는 모델이 됐기 때문에, 사용량 기준으로는 2026년 카테고리 1위일 가능성이 크다. 다만 "최고 품질"이 아니라 "가장 편한 인터페이스"라는 점이 정확하다.
2.4 비교 — 컨슈머/API 모델
| 도구 | 미학 | 사실주의 | 텍스트 렌더링 | 편집 | 라이선스 | API |
| --- | --- | --- | --- | --- | --- | --- |
| Midjourney v7 | 최상 | 매우 높음 | 약함 | `--cref` 일관성 | Pro 이상 | 없음(비공식만) |
| Imagen 4 Ultra | 높음 | 최상 | 보통 | 별도(Imagen Edit) | 면책 제공 | Vertex AI |
| gpt-image-1 | 보통 | 높음 | 보통 | 강함(채팅) | 표준 OpenAI | OpenAI API |
| Flux Pro 1.1 | 높음 | 매우 높음 | 보통 | Kontext 별도 | 상업 OK(Pro) | fal/Replicate |
| DALL-E 3 | 보통 | 높음 | 보통 | 약함 | 표준 OpenAI | OpenAI API(레거시) |
3장 · 타이포 · 디자이너 도구 — Ideogram · Recraft · Firefly
3.1 Ideogram v3 — 글자가 들어가야 하면 여기
Ideogram은 2023년 8월에 출발한 토론토 기반 스타트업이다. CEO는 Mohammad Norouzi(전 Google Brain, Imagen 원저자 중 한 명). 처음부터 "이미지 안의 텍스트"를 핵심 차별점으로 잡았다.
- **Ideogram 1.0(2024년 2월).** 텍스트 렌더링이 카테고리에서 가장 정확하다고 평가받음.
- **Ideogram 2.0(2024년 8월).** 사실주의 · 스타일 컨트롤 강화.
- **Ideogram 3.0(2025년 3월).** 텍스트와 미학을 동시에 끌어올림. 포스터, 명함, 광고 카피, 책 표지에서 사실상 단독 1위.
핵심 기능.
- **Magic Prompt.** 입력 프롬프트를 모델이 자동 확장해 결과를 개선.
- **Canvas.** 인페인팅 · 아웃페인팅 · 마스크 편집 통합 워크플로.
- **Style Reference.** 참조 이미지로 일관된 스타일.
- **Character Consistency.** v3에서 추가. 같은 캐릭터를 여러 장에 걸쳐 유지.
타이포 정확도는 단순히 "글자가 알아볼 수 있다"가 아니라 "디자이너가 출력 그대로 쓸 수 있다"는 레벨이다. 이게 Midjourney/Flux/Imagen과 결정적으로 다르다.
약점은 사실주의가 Imagen 4 Ultra만큼 정밀하진 않다는 것, 그리고 캐릭터 일관성이 Midjourney의 `--cref`보다 약간 약하다는 것 정도.
3.2 Recraft — 디자이너의 AI
Recraft는 "그래픽 디자이너를 위한 AI"라는 단일 포지션을 잡았다. 2024년 10월 Recraft V3가 출시되며 Hugging Face TTI(text-to-image) 리더보드에서 한동안 1위를 차지했다.
차별점.
- **벡터 출력.** SVG 직접 생성. 로고, 아이콘, 일러스트를 벡터로 받는다. AI 도구 중 유일에 가까운 기능.
- **브랜드 라이브러리.** 컬러 팔레트, 폰트, 스타일을 저장해 모든 출력에 일관 적용.
- **이미지 + 텍스트 통합.** 포스터에서 텍스트가 디자인 요소처럼 다뤄진다. Ideogram보다 더 "디자인 친화적"으로 텍스트를 배치.
- **이미지 편집.** 인페인팅, 아웃페인팅, 객체 제거, 배경 변경이 통합 UI에 있다.
- **3D 모크업.** 이미지를 3D 객체(컵, 책, 폰)에 자동 매핑.
Recraft V3 다음의 V3 Plus가 2025년에 출시되며 사실주의를 더 끌어올렸다. 2026년 5월 시점에는 V3.5가 베타. 디자이너 입장에서 "이미지를 만들고 → 그걸로 작업하고 → 다른 포맷으로 받기"의 단일 도구다.
가격은 무료 50 크레딧/일, Basic $12/월, Pro $33/월 수준.
3.3 Adobe Firefly — 라이선스의 명료성
Adobe Firefly의 가치 제안은 한 문장이다. **"Adobe Stock과 퍼블릭 도메인만 학습했다."** 즉 다른 모델이 라이선스 회색지대에 있을 때 Firefly는 명확하다.
2025년 5월에 Firefly Image 4가 출시됐고, 같은 해 가을에 Image 4 Ultra가 추가됐다.
- **Firefly Image 4.** 보편 사용. 사실주의, 일러스트, 텍스트 렌더링 모두 균형.
- **Firefly Image 4 Ultra.** 고해상도, 디테일 강화. 광고 · 출판 · 제품 디자인 워크플로.
Adobe 생태계 안에서의 강점.
- **Photoshop Generative Fill.** Photoshop 안에서 인페인팅/아웃페인팅에 Firefly가 들어가 있다. 디자이너 워크플로에 마찰 없이 통합.
- **Illustrator Generative Recolor.** 벡터 색상 자동 변경.
- **Premiere Pro Generative Extend.** 영상 클립을 텍스트로 연장(Firefly Video로 별도).
- **Adobe Express.** 비전문가용 통합 UI.
- **면책.** 기업 고객에게 출력에 대한 IP 면책 제공.
약점.
- **단독 미학.** Midjourney v7만큼의 "와우 모먼트"는 약하다.
- **콘텐츠 필터.** 안전 기준이 강해서 사람 얼굴, 유명인, 일부 상업 콘셉트에서 거부가 많다.
- **가격.** Creative Cloud 구독을 이미 쓰는 사용자에게는 무료에 가깝지만, 단독으로는 비싸다.
3.4 비교 — 타이포 · 디자이너 도구
| 도구 | 텍스트 정확도 | 벡터 | 디자인 워크플로 | 라이선스 명료성 | 가격 |
| --- | --- | --- | --- | --- | --- |
| Ideogram v3 | 최상 | 미지원 | 캔버스 통합 | 보통 | 무료-$20/월 |
| Recraft V3 | 매우 높음 | 지원(SVG) | 브랜드 라이브러리 | 보통 | 무료-$33/월 |
| Firefly Image 4 | 높음 | 미지원 | Adobe 통합 | 최상 | CC 포함 |
4장 · 오픈소스 / 로컬 — Stable Diffusion 3.5 · SD-XL · HiDream · Janus-Pro
4.1 Stable Diffusion의 현재 상태
2022년에 카테고리를 만든 Stability AI는 2024-2025년에 부침을 겪었다.
- **SD 3 Medium(2024년 6월).** 출시 직후 "해부학적 문제"로 커뮤니티 반발. 라이선스 변경(Creator/Enterprise 분리)도 논란.
- **SD 3.5 Large/Medium/Large Turbo(2024년 10월).** SD 3의 약점을 보완. 8B/2.5B/8B 파라미터. 라이선스는 Stability AI Community License(연 매출 100만 달러 이하 무료).
- **SD-XL 1.0(2023년 7월).** 여전히 사용량 기준 가장 큰 베이스. LoRA 생태계가 SD-XL을 중심으로 형성됐기 때문.
2026년 5월 시점에서 SD 3.5는 "여전히 쓰이지만 카테고리 1위가 아니다." Flux가 명확히 앞선다. Stability AI는 회사 재정 어려움(2024년 CEO 교체)을 거쳐, 2025년부터는 Stable Audio · Stable Video · 3D 쪽으로 무게 중심이 옮겨가는 분위기.
4.2 SD-XL — 레거시의 힘
SD-XL이 살아 있는 이유는 단순하다. **LoRA · ControlNet · IP-Adapter · Textual Inversion 생태계가 거대하다.** Civitai에 수만 개의 LoRA가 SD-XL용으로 올라와 있다. 특정 화풍, 특정 캐릭터, 특정 미학을 가장 다양하게 다룰 수 있는 베이스 모델이 여전히 SD-XL이다.
언제 SD-XL을 쓰나.
- **특정 LoRA가 필수일 때.** 애니메 스타일, 특정 일러스트레이터 스타일, 캐릭터 일관성.
- **ControlNet으로 정밀 제어가 필요할 때.** 포즈, 깊이, edge.
- **하드웨어가 제한적일 때.** SD-XL은 8GB VRAM에서도 잘 돈다.
- **이미 SD-XL 워크플로가 정착됐을 때.** ComfyUI 노드 그래프를 그대로 재사용.
언제 Flux로 가나.
- **새로운 베이스 모델로 처음부터 작업할 때.**
- **텍스트 정합성(prompt adherence)이 중요할 때.** Flux가 압도적.
- **상업 사용에 명확한 라이선스가 필요할 때.** Flux Schnell.
4.3 HiDream — 2025년의 신성
HiDream-I1은 2025년 4월에 공개된 17B 파라미터 오픈웨이트 모델이다. MIT 라이선스 — 가장 자유롭다. 학술 벤치마크에서 일부 항목에서 Flux Dev를 앞서기도 했다.
- **하드웨어.** 24GB VRAM 권장. NF4 양자화로 12GB까지 다운.
- **품질.** 사실주의 · 텍스트 · 일관성 모두 균형. Flux Dev와 어깨를 나란히 함.
- **라이선스.** MIT — 상업 사용 완전 자유. 이 점이 Flux Dev(비상업)보다 큰 강점.
ComfyUI에서 네이티브 지원. 2026년 5월 시점 "Flux Dev의 진짜 무료 대안"으로 평가받는다.
4.4 Janus-Pro / Krea — 다른 모달리티
**Janus-Pro(DeepSeek, 2025년 1월).** 멀티모달 LLM이 이미지를 생성하는 방향. 텍스트와 이미지를 같은 모델이 다룬다. 7B 파라미터, MIT 라이선스. 품질은 Flux 수준은 아니지만 "LLM이 이미지를 만든다"는 패러다임이 흥미롭다.
**Krea AI.** 모델 제공사가 아니라 워크플로 플랫폼. 여러 모델을 통합한 인터페이스. 실시간 캔버스 모드(스케치하는 동안 AI가 따라 그리기)가 차별점. 2025년에 자체 모델 Krea-1을 발표.
4.5 비교 — 오픈소스 / 로컬
| 모델 | 파라미터 | 라이선스 | 최소 VRAM | 강점 |
| --- | --- | --- | --- | --- |
| Flux.1 Schnell | 12B | Apache 2.0 | 6GB(NF4) | 빠름, 무료, 상업 OK |
| Flux.1 Dev | 12B | BFL Non-Commercial | 6-24GB | 최고 품질 오픈웨이트(비상업) |
| HiDream-I1 | 17B | MIT | 12-24GB | 상업 OK, Flux 대안 |
| SD 3.5 Large | 8B | Stability Community | 8-16GB | 카탈로그 잘 익음 |
| SD-XL 1.0 | 2.6B | OpenRAIL++ | 6-8GB | LoRA 생태계 |
| HiDream Dev | 17B | MIT | 12GB | HiDream 베이스의 distill |
5장 · 도구 vs 모델 — ComfyUI/Forge/A1111의 현재
5.1 UI 도구는 끝났는가? 아니다
2023~2024년에 한창이던 SD UI들(Automatic1111, ComfyUI, Forge, Fooocus, InvokeAI)이 2025년에 가라앉았다는 이야기를 가끔 듣는다. **틀렸다.** 카테고리가 달라졌을 뿐이다.
**ComfyUI는 2025-2026년에 더 커졌다.** 노드 기반 UI라 새 모델이 나올 때마다 빠르게 노드가 만들어진다. Flux · HiDream · 모든 비디오 모델(Wan, HunyuanVideo, LTX-Video)이 ComfyUI에서 가장 먼저 돈다. "AI 이미지/비디오 워크플로 자동화의 사실상 표준"이 됐다.
**Forge UI(Forge / Forge Classic).** Automatic1111의 포크. 메모리 최적화로 Flux를 8GB GPU에서도 돌린다. ComfyUI보다 UI가 직관적이라 입문자에게 인기.
**Automatic1111 (A1111).** 2025년 들어 업데이트가 느려졌다. Flux 지원이 Forge보다 늦었고, ControlNet도 좀 처졌다. "전통 SD-XL 사용자"가 남아 있지만 신규 유입은 Forge/ComfyUI로 갔다.
**InvokeAI.** 상업 SaaS로 피벗. 엔터프라이즈 워크플로 솔루션 방향.
**SwarmUI.** ComfyUI를 백엔드로 쓰면서 더 친절한 UI를 제공. ComfyUI 노드 그래프를 그릴 줄 모르는 사람에게 추천.
**Fooocus.** 미드저니풍 단순 UI. 입문자에게 좋다.
5.2 ComfyUI 노드 그래프 워크플로 예시
Flux Dev + Flux Kontext + LoRA + 업스케일을 한 그래프에 묶는 예시.
[LoadCheckpoint Flux Dev]
│
├─[Text Encoder] ← [Prompt: "cyberpunk alley, neon"]
│ │
│ [KSampler] ← [Empty Latent 1024x1024]
│ │
│ [VAE Decode]
│ │
├─[LoadKontext] ← [Reference image]
│ │
│ [Kontext Edit] ← [Instruction: "make it sunset"]
│ │
├─[LoadLora char-v1] ← [Strength 0.8]
│ │
├─[Upscale 4x ESRGAN]
│ │
└─[Save Image]
이런 그래프를 한 번 만들어두면, 입력 프롬프트만 바꿔서 수백 장을 자동 생성할 수 있다. API를 직접 호출하는 것과 같은 자동화 수준이지만, 출력의 모든 중간 단계를 시각적으로 볼 수 있다.
5.3 새로 진입하는 UI들
- **Krea.** 실시간 캔버스. 그리는 동안 AI가 채워줌. 디자이너에게 인기.
- **Magnific.** 업스케일 · 디테일 강화 전문. 다른 모델 출력을 후처리.
- **Leonardo.AI.** SaaS UI + 자체 모델 + 통합 워크플로.
- **OpenArt.** ComfyUI 워크플로를 웹에서 호스팅. 서버 관리 없이 노드 그래프 공유.
5.4 "내 워크플로를 어디에 두나"
선택 기준 한 줄.
- **빠르게 한 장:** Midjourney v7, Ideogram, Imagen 4 (웹 인터페이스).
- **자동화 · 배치:** API(fal.ai, Replicate, OpenAI, Vertex AI) 또는 로컬 ComfyUI.
- **세밀한 통제(LoRA, ControlNet):** 로컬 ComfyUI 또는 Forge.
- **디자이너 워크플로:** Recraft, Firefly, Krea.
- **개발 통합:** API.
6장 · 소송과 라이선스 — 정직하게
6.1 Stability AI 대 Getty Images
가장 많이 언급되는 소송. Getty Images가 Stability AI를 영국과 미국에서 동시 제소했다(2023년).
영국 판결(2025년 11월, High Court of Justice).
- **학습 행위 자체는 영국 저작권 침해가 아니다.** 모델 가중치에 원본 이미지가 보존돼 있지 않다고 판단.
- **상표 침해는 별도.** Getty 워터마크가 출력에 부분적으로 나타난 사례에 대해서는 상표 침해 인정.
- **요약.** 학습은 합법, 출력의 상표 유사성은 불법.
미국 사건은 2026년 5월 시점에도 진행 중. 미국 법은 영국과 달라 결과가 다를 수 있다.
6.2 다른 진행 중인 소송들
- **Andersen v. Stability AI.** 아티스트 그룹이 Stability, Midjourney, DeviantArt를 상대로 제기한 클래스 액션. 일부 청구는 기각, 저작권 침해 청구는 유지 중.
- **NYT v. OpenAI.** 텍스트 학습 데이터에 관한 소송이지만, 이미지 모델 학습에도 영향을 미칠 판례를 만들 수 있다.
- **Disney 라이선싱 시도.** Disney가 일부 AI 회사와 라이선싱 협상을 진행 중이라는 보도가 2025년에 나왔다. 메이저 IP의 직접 라이선싱이 표준화될 가능성.
6.3 사용자가 할 일
**상업 사용에 안전한 선택지(2026년 5월 기준).**
1. **Adobe Firefly.** Adobe Stock + 퍼블릭 도메인만 학습. 면책 제공. 가장 안전.
2. **Google Imagen 4.** 면책 제공. 학습 데이터의 라이선스 클리어 마케팅.
3. **OpenAI gpt-image-1.** 표준 OpenAI 약관. 면책은 Enterprise 플랜.
4. **Flux Schnell + 자체 호스팅.** Apache 2.0 모델 가중치. 출력은 사용자 소유.
5. **HiDream-I1.** MIT 라이선스 모델 가중치. 상업 사용 OK.
**회색지대.**
- **Midjourney.** 출력의 상업 사용은 Pro 이상 가능. 다만 학습 데이터의 명시적 라이선스 클리어는 광고하지 않음.
- **SD-XL + 커뮤니티 LoRA.** LoRA의 학습 데이터 출처가 불명확한 경우가 많다. 특히 "특정 아티스트 스타일" LoRA.
- **Recraft.** 라이선스 정책은 명시되어 있지만, 학습 데이터 출처는 부분 공개.
**위험 행위.**
- **유명 아티스트 · 일러스트레이터 이름을 프롬프트에.** "in the style of [Artist]" 출력의 상업 사용은 명백한 위험.
- **상표 · 캐릭터 IP를 직접 흉내내기.** Disney 캐릭터, 게임 캐릭터, 브랜드 로고.
- **출력에 명시적 라이선스 표기 없이 NFT/굿즈 판매.**
6.4 소송의 결말이 어떻게 나도
세 가지 시나리오를 본다.
**시나리오 A — "학습은 변혁적 공정 이용" 판결로 정착.** AI 학습은 합법화. 출력의 상표/유사성 침해만 별개로 다룸. Firefly/Imagen의 "명시적 라이선스" 마케팅 가치가 줄어듦.
**시나리오 B — "학습 라이선스 필요" 판결.** Stable Diffusion, Midjourney가 라이선스 합의 또는 재학습 강제. 비용 증가, 구독료 인상. Firefly/Imagen이 시장 우위.
**시나리오 C — 합의/라이선싱으로 표준화.** Disney-AI 회사 합의처럼 메이저 IP 라이선싱이 표준. 학술/오픈소스는 별도 트랙. 가장 가능성 높은 시나리오.
7장 · 의사결정 프레임 — 무엇을 골라야 하나
7.1 사용처별 추천
| 상황 | 1순위 | 2순위 | 메모 |
| --- | --- | --- | --- |
| 컨셉 일러스트 한 장 | Midjourney v7 | Flux Pro 1.1 | 미학 우선 |
| 사진 같은 인물/제품 | Imagen 4 Ultra | Flux Pro | 사실주의 |
| 포스터·광고(글자) | Ideogram v3 | Recraft V3 | 타이포 정확도 |
| 로고·아이콘(벡터) | Recraft V3 | Adobe Illustrator | 벡터 출력 |
| 브랜드 일관성 | Firefly Image 4 | Midjourney `--sref` | 면책 + 워크플로 |
| 캐릭터 일관성(만화) | Midjourney `--cref` | Flux Kontext | 다중 컷 |
| 이미지 편집 | Flux Kontext | gpt-image-1 | 텍스트 기반 |
| 인페인팅/아웃페인팅 | Photoshop + Firefly | Flux Fill | 워크플로 |
| API 자동화 | fal.ai + Flux Pro | Vertex AI Imagen 4 | SLA |
| 로컬·프라이빗 | Flux Dev(비상업) | HiDream-I1(상업 OK) | 자가 호스팅 |
| 무료 시작 | Flux Schnell + Forge | SD-XL + Civitai LoRA | 4GB+ GPU |
| 상업 안전 우선 | Firefly | Imagen 4 | 면책 |
| 학술/연구 | SD 3.5 + 논문 재현 | Flux Dev | 검증 가능 |
7.2 결정 트리
시작
│
├─ 이미지에 글자가 들어가야 하나?
│ ├─ 예 → Ideogram v3 또는 Recraft V3
│ └─ 아니오 ↓
│
├─ 사진 같은 사실주의가 필요한가?
│ ├─ 예 → Imagen 4 Ultra 또는 Flux Pro 1.1
│ └─ 아니오 ↓
│
├─ 디자이너 워크플로(브랜드, 벡터)인가?
│ ├─ 예 → Recraft 또는 Adobe Firefly
│ └─ 아니오 ↓
│
├─ 캐릭터/장면 일관성이 필요한가?
│ ├─ 예 → Midjourney `--cref` 또는 Flux Kontext
│ └─ 아니오 ↓
│
├─ 라이선스 클린함이 최우선인가?
│ ├─ 예 → Firefly 또는 Imagen 4(면책)
│ └─ 아니오 ↓
│
├─ 로컬·프라이빗 실행이 필요한가?
│ ├─ 예 → Flux Dev/Schnell 또는 HiDream-I1
│ └─ 아니오 ↓
│
├─ API 자동화 · 배치가 필요한가?
│ ├─ 예 → fal.ai Flux Pro 또는 OpenAI gpt-image-1
│ └─ 아니오 → Midjourney v7 (단일 장면 미학)
7.3 예산별 가이드
| 예산 | 추천 |
| --- | --- |
| `$0/월` | Flux Schnell 로컬 + Forge UI. 4GB+ GPU. 무제한 생성. |
| `$10/월` | Midjourney Basic 또는 Ideogram Basic. 단일 도구. |
| `$30/월` | Midjourney Standard + Ideogram + ChatGPT Plus. 미학 + 타이포 + 편집. |
| `$60/월` | + Recraft Pro 또는 Adobe CC. 디자이너 풀세트. |
| `$200+/월` | API 사용(fal.ai Flux Pro + Imagen 4 + gpt-image-1) + 위 구독. 프로덕션 자동화. |
에필로그 — 체크리스트, 안티패턴, 다음 글 예고
2022년 SD 1.4의 충격, 2024년 Flux 1의 추월, 2025년 Midjourney v7/Imagen 4의 컨슈머 점프, 2026년 Flux Kontext와 gpt-image-1의 편집 패러다임 전환 — 카테고리는 한 자리에 머무른 적이 없다. 같은 시기에 음악과 비디오도 비슷하게 흔들렸다. 차이라면 이미지 쪽이 가장 먼저 안정화됐다는 점이다. 사용자는 이제 "어떤 모델로 만들까"가 아니라 "어떤 작업에 어떤 도구를 쓸까"를 고민한다. 그 질문에 한 줄로 답하는 표는 없다. 하지만 큰 축은 다섯이다 — 미학(Midjourney), 사실주의(Imagen), 타이포(Ideogram), 디자이너(Recraft/Firefly), 오픈웨이트(Flux/HiDream).
도구 선택 체크리스트
1. **이미지에 텍스트가 있나?** — Yes면 Ideogram 또는 Recraft 우선.
2. **상업 사용인가?** — Yes면 Firefly/Imagen 면책 또는 Flux Schnell + 자체 호스팅.
3. **단일 컷인가 시리즈인가?** — 시리즈면 캐릭터 일관성(Midjourney `--cref`, Flux Kontext) 필수.
4. **편집이 필요한가?** — Flux Kontext, gpt-image-1, Photoshop Generative Fill 중 하나.
5. **로컬이 가능한가?** — 16GB+ GPU 있으면 Flux Dev. 24GB면 HiDream.
6. **자동화가 필요한가?** — API 우선. Midjourney는 자동화에 부적합.
7. **벡터가 필요한가?** — Recraft가 거의 단독.
8. **사실주의 vs 일러스트?** — 전자는 Imagen 4 Ultra, 후자는 Midjourney v7.
9. **다중 턴 편집인가?** — gpt-image-1(채팅) 또는 Flux Kontext.
10. **라이선스 안전성이 최우선인가?** — Firefly 우선, Imagen 차순.
안티패턴
| 안티패턴 | 왜 나쁜가 | 대신 |
| --- | --- | --- |
| 첫 번째 생성을 그대로 사용 | 평균 품질이 낮음 | 4-8장 생성 후 큐레이션 |
| 유명 아티스트 이름을 프롬프트에 | 라이선스 회색지대, 소송 위험 | 추상 묘사 ("late-80s synthwave poster") |
| Midjourney로 자동화 시도 | 공식 API 없음, 비공식 래퍼는 약관 위반 | fal.ai Flux Pro, gpt-image-1, Imagen 4 |
| SD-XL에 머무르며 Flux 무시 | 텍스트 정합성 격차가 크다 | Flux Schnell부터 시작, LoRA 필요시만 SD-XL |
| ComfyUI는 너무 복잡하다고 회피 | 자동화 격차가 누적된다 | Fooocus/Forge로 시작, 익숙해지면 ComfyUI |
| Flux Dev로 상업 출시 | Non-Commercial 라이선스 위반 | Flux Schnell, Flux Pro, HiDream |
| 글자가 들어간 포스터를 Midjourney로 | 텍스트가 깨짐 | Ideogram v3 또는 Recraft |
| 라이선스 표기 없이 NFT/굿즈 판매 | IP 분쟁 위험 | 출력의 명시적 상업권 확인 |
| 4K 이상을 단일 생성으로 기대 | 모델 출력은 보통 1-2MP | Magnific/Topaz로 업스케일 |
| 무료 티어로 클라이언트 작업 | 라이선스 위반, 워터마크 | 최소 Pro 구독 |
| 단일 모델만 의존 | 미학/타이포/편집 갭이 누적 | 2-3 모델 조합 (미학 + 타이포 + 편집) |
다음 글 예고
다음 글은 **"AI 비디오 생성 2026 — Sora 2 · Veo 3 · Runway Gen-4 · Kling 2 · Pika 2 · Open-Sora, 어디까지 왔나"**다. 이미지와 같은 패턴으로, 카테고리의 폭발(2024 Sora 데모)과 성숙(2026 상용 도구들), 보컬에 해당하는 가장 어려운 영역(긴 일관성, 캐릭터 동일성, 손가락과 물리), 오픈소스 옵션(Open-Sora, Mochi, HunyuanVideo, Wan), 사용처(광고, 짧은 영상, 콘셉트 비주얼), 그리고 저작권 논쟁(NYT-OpenAI, Disney 라이선싱 모델)을 같은 깊이로 다룰 예정이다. 이미지 → 음악 → 비디오의 삼각형이 그 글로 닫힌다.
참고 / References
- [Black Forest Labs 공식 사이트](https://blackforestlabs.ai/)
- [Flux.1 발표 — Announcing Black Forest Labs](https://blackforestlabs.ai/announcing-black-forest-labs/)
- [Flux.1.1 Pro Ultra · Raw 모드 발표](https://blackforestlabs.ai/flux-1-1-ultra/)
- [Flux.1 Kontext 발표 — Image Editing as a Foundation](https://blackforestlabs.ai/flux-1-kontext/)
- [Flux Tools 발표 — Fill, Canny, Depth, Redux](https://blackforestlabs.ai/flux-1-tools/)
- [Flux.1 Schnell — Hugging Face](https://huggingface.co/black-forest-labs/FLUX.1-schnell)
- [Flux.1 Dev — Hugging Face](https://huggingface.co/black-forest-labs/FLUX.1-dev)
- [Midjourney 공식](https://www.midjourney.com/)
- [Midjourney v7 발표 — Midjourney Blog](https://www.midjourney.com/updates)
- [Google DeepMind — Imagen 4](https://deepmind.google/models/imagen/)
- [Imagen 4 GA — Google Cloud Vertex AI](https://cloud.google.com/vertex-ai/generative-ai/docs/image/generate-images)
- [OpenAI gpt-image-1 — DevDay](https://openai.com/index/introducing-4o-image-generation/)
- [OpenAI gpt-image-1 — API Docs](https://platform.openai.com/docs/guides/images)
- [DALL-E 3 공식](https://openai.com/index/dall-e-3/)
- [Ideogram 공식](https://ideogram.ai/)
- [Ideogram 3.0 발표](https://ideogram.ai/launch)
- [Recraft 공식](https://www.recraft.ai/)
- [Recraft V3 Hugging Face TTI 1위 — TechCrunch](https://techcrunch.com/2024/10/30/recraft-can-generate-images-better-than-flux-and-midjourney/)
- [Adobe Firefly 공식](https://www.adobe.com/products/firefly.html)
- [Firefly Image 4 발표 — Adobe](https://blog.adobe.com/en/publish/2025/04/24/firefly-image-4-launch)
- [Adobe Firefly 학습 데이터 — Adobe FAQ](https://helpx.adobe.com/firefly/faq.html)
- [Stable Diffusion 3.5 발표 — Stability AI](https://stability.ai/news/introducing-stable-diffusion-3-5)
- [SD 3.5 Large Hugging Face](https://huggingface.co/stabilityai/stable-diffusion-3.5-large)
- [Stable Diffusion XL — Stability AI](https://stability.ai/news/stable-diffusion-sdxl-1-announcement)
- [HiDream-I1 GitHub](https://github.com/HiDream-ai/HiDream-I1)
- [HiDream-I1 Hugging Face](https://huggingface.co/HiDream-ai/HiDream-I1-Full)
- [Janus-Pro — DeepSeek](https://huggingface.co/deepseek-ai/Janus-Pro-7B)
- [Krea AI 공식](https://www.krea.ai/)
- [ComfyUI GitHub](https://github.com/comfyanonymous/ComfyUI)
- [Forge UI GitHub](https://github.com/lllyasviel/stable-diffusion-webui-forge)
- [Automatic1111 GitHub](https://github.com/AUTOMATIC1111/stable-diffusion-webui)
- [InvokeAI 공식](https://www.invoke.com/)
- [SwarmUI GitHub](https://github.com/mcmonkeyprojects/SwarmUI)
- [Fooocus GitHub](https://github.com/lllyasviel/Fooocus)
- [Civitai — LoRA 카탈로그](https://civitai.com/)
- [fal.ai — Flux Pro API](https://fal.ai/models/fal-ai/flux-pro)
- [Replicate — Flux 모델](https://replicate.com/black-forest-labs)
- [Getty Images v. Stability AI 영국 판결 요약 — Reuters](https://www.reuters.com/world/uk/getty-mostly-loses-uk-copyright-case-against-stability-ai-2025-11-04/)
- [Andersen v. Stability AI 사건 추적 — Justia](https://law.justia.com/cases/federal/district-courts/california/candce/3:2023cv00201/)
- [Reuters — AI 학습 저작권 판결 트래커](https://www.reuters.com/legal/litigation/artificial-intelligence-copyright/)
- [Vertex AI Imagen 4 가격](https://cloud.google.com/vertex-ai/generative-ai/pricing)
- [Magnific 공식](https://magnific.ai/)
- [Leonardo.AI 공식](https://leonardo.ai/)
- [OpenArt — ComfyUI 워크플로 호스팅](https://openart.ai/workflows)
현재 단락 (1/332)
2022년 8월, Stable Diffusion 1.4가 공개됐다. 그 전까지 이미지 생성 AI는 OpenAI DALL-E 2와 Midjourney v3의 비공개 베타였다. SD가...