- Published on
AI 이미지 생성 2026 완벽 가이드 - Midjourney v7 · DALL·E 4 · Imagen 3 · FLUX · Stable Diffusion 3.5 · Ideogram · Recraft 심층 분석
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 2024년의 단순함은 어떻게 끝났는가
2024년 봄, 누군가 "AI로 그림을 만들고 싶다"고 말했을 때 우리는 세 가지 모델 중 하나를 꺼냈다. Midjourney v6, DALL·E 3, Stable Diffusion XL. 미적 감각이 필요하면 Midjourney, 채팅에 붙이려면 DALL·E, 자기 GPU에서 돌리려면 SDXL. 선택은 셋이었고, 답은 명확했다.
2026년 봄, 그 단순함은 흔적도 없다. 같은 질문에 답하려면 우리는 먼저 분기를 그린다.
- 사진실적(photorealistic)인가, 일러스트인가, 텍스트가 들어간 포스터인가, 벡터 로고인가?
- 폐쇄형 API로 충분한가, 오픈웨이트가 필요한가, 자기 GPU에서 돌릴 건가?
- 학습 데이터 라이선스가 중요한가, 결과만 좋으면 되는가?
- 5초 대기인가, 50밀리초 실시간인가?
- LoRA 파인튜닝이 필요한가, 그대로 쓸 건가?
이 글은 그 모든 분기를 따라가는 2026년의 AI 이미지 생성 지도다. Midjourney v7의 미적 감각 표준, OpenAI gpt-image-1과 DALL·E 4의 멀티모달 통합, Google Imagen 3·4의 엔터프라이즈 진입, Black Forest Labs의 FLUX 시리즈가 오픈웨이트로 새 기준선을 그은 이야기, Stability AI 재정비 이후 돌아온 Stable Diffusion 3.5, 텍스트 렌더링의 절대 강자 Ideogram, 디자인·벡터로 카테고리를 열어버린 Recraft V3, 라이선스 안전 학습을 무기로 따라붙는 Adobe Firefly 3, 그리고 그 사이에 끼어든 Reve Image 1.0과 Krea AI, Leonardo, Playground v3. 도구로는 ComfyUI 노드 그래프, ControlNet·IP-Adapter 워크플로, 인페인팅·아웃페인팅, Aura SR·4x-UltraSharp 같은 업스케일러, C2PA 출처 워터마크, 그리고 마지막에는 Andersen v Stability AI, Getty v Stability AI, NYT v OpenAI 같은 법적 전선까지.
1장 · 2026년 이미지 생성 지도 — 세 진영, 다섯 카테고리
2026년의 AI 이미지 생성 시장을 한 장의 지도로 그리면, 세 진영이 먼저 보인다.
진영 A — 폐쇄형 API: Midjourney v7, OpenAI gpt-image-1 / DALL·E 4, Google Imagen 3 / 4, Ideogram 3.0, Recraft V3, Adobe Firefly 3, Reve Image 1.0. 가중치를 공개하지 않고 자체 인프라에서 추론을 돌린다. 사용자는 토큰 또는 구독으로 결제한다. 품질의 상한이 높고, 안전 필터가 강하고, 도구 통합이 자연스럽다.
진영 B — 오픈웨이트: Black Forest Labs의 FLUX.1 [schnell] / [dev], Stable Diffusion 3.5 Large / Medium / Turbo, Playground v3 일부, NovelAI 일부. 가중치가 HuggingFace에 공개되어 누구나 다운로드해 자기 GPU에서 돌릴 수 있다. LoRA 파인튜닝, ControlNet, IP-Adapter, ComfyUI 노드 그래프가 이 진영의 무기다. Civitai가 커뮤니티 LoRA 허브 역할을 한다.
진영 C — 실시간 생성: Krea AI, Leonardo.AI의 Realtime 모드, fal.ai의 LCM/Turbo 호스팅, 그리고 그 위에 쌓인 캔버스 UI. 한 번 입력에 5초가 아니라 50밀리초가 목표다. 슬라이더를 움직이면 실시간으로 따라오고, 마우스로 그리면 그 위에 디퓨전이 즉시 입혀진다.
세 진영 위에 다섯 카테고리가 겹친다.
- 사진실적(photoreal) — FLUX.1.1 [pro] Ultra, Imagen 3, Reve, Midjourney v7 raw 모드
- 미적·일러스트(aesthetic) — Midjourney v7, Leonardo, NovelAI
- 텍스트 in 이미지(text rendering) — Ideogram 3.0, Recraft V3, DALL·E 4
- 디자인·벡터(design/vector) — Recraft V3, Adobe Firefly 3
- 편집·합성(editing) — DALL·E 4 inpainting, FLUX.1 Tools(Fill/Canny/Depth/Redux), Photoshop Generative Fill
세 진영의 경계는 점점 흐려진다. Black Forest Labs는 오픈웨이트 Dev를 공개하면서 동시에 API로 Pro·Ultra를 운영한다. Krea는 자체 모델보다 FLUX·SD3.5를 LCM 증류해서 실시간으로 서빙한다. 그러나 사용자가 던지는 첫 질문 — "내가 가중치에 접근할 수 있나?" "내가 결제하는 방식이 토큰인가 GPU 시간인가?" "내가 결과를 받는 시간이 5초인가 50밀리초인가?" — 은 여전히 세 진영을 가른다.
2장 · Midjourney v7 — 미적 감각의 표준
Midjourney v7은 2025년에 정식 출시되어, 2026년 봄 시점 미적 감각·구도·라이팅의 기준선이 되어 있다. 그 동안 v6.1이 v7으로 가는 다리 역할을 했다. Discord 기반의 봇 UX는 여전히 살아있지만, 이제는 Midjourney 웹 앱(alpha.midjourney.com)이 본거지다. 갤러리·아카이브·룸(Rooms) 협업 모드가 모두 웹에서 돈다.
핵심 기능 묶음.
- Image-to-image — 입력 이미지를 한 장 또는 여러 장 받아 분위기·구도를 흡수한다. 가중치는
--iw플래그(image weight)로 조정. - Style Reference (
--sref) — 스타일만 흡수하고 내용은 무시. 같은 화풍의 일관된 시리즈를 그릴 때 결정적이다.sref random같은 변종으로 즉흥적 스타일도 가능. - Character Reference (
--cref) — 인물·캐릭터의 일관성을 유지. 동화책·만화·일러스트 시리즈에서 같은 인물이 매번 같은 얼굴이도록. - Mood Boards — 여러 이미지를 한 묶음으로 등록해 그 묶음 전체의 미학을 흡수.
- Patchwork — 협업 캔버스 모드. 여러 사람이 같은 보드에서 영역을 나눠 동시에 생성·편집.
--personalize— 사용자가 그동안 좋아한 그림에 학습된 개인 모델. 같은 프롬프트라도 사람마다 결과가 달라진다.--raw— 미적 보정을 끈 직설적 출력. Imagen·FLUX에 가까운 사실적 결과가 필요할 때.- 줌·팬 아웃페인팅 — 캔버스를 확장.
- 인페인팅(Vary Region) — 특정 영역만 다시 그리기.
가격은 Basic $10/월, Standard $30/월, Pro $60/월, Mega $120/월 4단계. 모든 플랜에 fast/relax 시간 배분이 있다. Pro 이상은 Stealth 모드(생성물 비공개).
Midjourney의 강점은 두 가지로 좁힌다.
- 미적 일관성 — 같은 프롬프트 시드 하나를 돌려도 평균 품질이 가장 균일하다. "괜찮은 한 장"의 확률이 높다.
- 스타일 라이브러리 — 5년 가까이 누적된 사용자의 스타일이 모델 안에 녹아 있다.
--sref한 줄로 그 라이브러리를 호출할 수 있다.
약점도 명확하다.
- 텍스트 렌더링이 약하다. 포스터 안의 글자, 간판, 책 표지 같은 건 Ideogram·Recraft가 압도한다.
- API가 없다. 자동화 워크플로에 끼우려면 비공식 래퍼나 Discord 봇을 통해야 한다.
- 안전 필터가 까다롭다. 인물·정치인·브랜드 로고 같은 영역에서 거부가 많다.
3장 · DALL·E 4 / OpenAI gpt-image-1 — 멀티모달 통합의 도착
OpenAI의 이미지 생성은 2025년 3월에 큰 전환을 맞았다. 그때까지 ChatGPT가 호출하던 별도 모델(DALL·E 3) 대신, GPT-4o가 네이티브로 이미지를 출력하는 능력이 추가된 것이다. 텍스트와 이미지가 같은 모델 안에서 같은 토큰 스트림으로 처리된다. 이것이 gpt-image-1의 정체다. 2025년 봄, 이 기능이 트위터를 지브리 스타일 변환으로 뒤덮은 사건이 있었다.
이후 OpenAI는 이미지 출력 품질을 단계적으로 끌어올렸고, 2026년 시점에는 DALL·E 4라는 별도 브랜드 라인업과 gpt-image-1의 멀티모달 라인이 공존한다. 두 줄기의 공통점.
- 인페인팅(Inpainting) — 마스크를 그려서 특정 영역만 다시 그리기.
- 아웃페인팅(Outpainting) — 캔버스 바깥으로 확장.
- 투명 배경(Transparency) — 알파 채널을 살린 PNG 출력. 디자인 합성에 결정적이다.
- 레퍼런스 이미지 — 한두 장의 입력으로 스타일·캐릭터를 묶기.
- 텍스트 렌더링 — 포스터·간판 안의 글자가 깔끔하다. 2024년의 약점이 거의 해결.
API는 images.generate, images.edit(인페인팅), images.variation(변형) 세 가지. 가격은 표준 1024x1024 한 장에 $0.04 수준, HD 품질은 더 비싸다. Responses API에서 image input/output을 함께 받으면 멀티모달 에이전트 워크플로가 자연스러워진다.
ChatGPT 안에서는 그냥 "이런 이미지 만들어줘"라고 말하면 된다. 화면 안에 결과가 뜨고, "이 부분만 다시", "이걸 흑백으로", "여기 텍스트 추가" 같은 자연어 후속 명령이 그대로 통한다. 디자인 도구라기보다는 대화로 이미지를 다듬는 인터페이스다.
강점.
- 자연어 후속 편집이 가장 자연스럽다.
- 텍스트 렌더링이 신뢰할 만하다.
- ChatGPT 사용자 베이스가 거대해서 기본 접근성이 압도적이다.
약점.
- 미적 감각의 상한은 Midjourney·FLUX보다 낮다.
- 안전 필터가 강해서 거부가 잦다(인물·폭력·브랜드).
- 가격이 균일 토큰 모델이라 대량 생성은 비싸진다.
4장 · Google Imagen 3 / 4 + Veo 2 / ImageFX / Whisk — 검색 회사의 답
Google의 이미지 생성은 두 줄기로 흐른다. 한 줄기는 Imagen — Vertex AI에서 엔터프라이즈에 서빙되는 모델. 다른 한 줄기는 소비자 도구(ImageFX, Whisk).
Imagen 3는 2024년 말 정식 출시되었고, 2025년에는 Imagen 4가 뒤를 이었다. 특징.
- 사실주의 — 인물 피부·머리카락·반사·그림자가 사진과 구분이 어렵다. 광고·스톡 사진 시장에 정조준한 품질.
- 프롬프트 충실도 — "왼쪽에는 빨간 우산, 오른쪽에는 파란 신호등" 같은 위치 지시를 잘 따른다.
- 다국어 프롬프트 — 한국어·일본어·중국어로 입력해도 결과가 흔들리지 않는다.
- Vertex AI 통합 — Cloud 프로젝트의 IAM·VPC·로그가 그대로 적용된다. SOC 2·HIPAA 같은 컴플라이언스 요건이 있는 기업이 쓸 수 있는 거의 유일한 선택지.
ImageFX는 일반 사용자용 무료 도구. labs.google에서 접근 가능하고, 프롬프트 수정이 매우 자연스럽다. 단어를 클릭하면 동의어 후보가 칩(chip)으로 뜬다.
Whisk는 2024년 12월 공개된 실험적 도구. 텍스트가 아니라 이미지 세 장(주제·장면·스타일)을 입력으로 받는다. "이 강아지를, 이 거실에서, 이 화풍으로" 같은 조합을 한 번에 만든다.
Veo 2는 이미지가 아니라 비디오지만, Imagen으로 만든 한 장을 시작 프레임으로 받아 8초 영상으로 확장할 수 있다. 이미지-비디오 브릿지가 한 회사 안에서 자연스럽게 연결된다.
가격은 Imagen 3 한 장이 Vertex AI 기준 $0.04 수준. ImageFX는 무료(제한 있음). Whisk는 무료 베타.
5장 · FLUX (Black Forest Labs) — Stable Diffusion 창업자들의 새 회사
2024년 8월, Stability AI에서 Stable Diffusion을 만들었던 핵심 연구자들이 나와 새 회사 Black Forest Labs(BFL)를 차렸다. 독일 슈투트가르트 근처에 본사를 두고, Andreessen Horowitz가 약 $31M 시드 라운드를 주도했다. 첫 모델은 FLUX.1, 세 변형으로 출시.
- FLUX.1 [schnell] — 4 step 정도로 빠르게 생성하는 distilled 변형. Apache 2.0 라이선스. 상업적 사용 자유. HuggingFace에서 가중치 다운로드 가능.
- FLUX.1 [dev] — 50 step 표준 변형. 가중치 공개되지만 비상업적 라이선스. 개인·연구용 자유, 상업적 사용은 별도 라이선스.
- FLUX.1 [pro] — 가장 큰 변형. 가중치 비공개. BFL API·fal.ai·Replicate·Together.ai 같은 파트너 호스팅에서만.
2024년 10월에 **FLUX 1.1 [pro]**가 나왔다. 같은 인터페이스, 더 좋은 품질, 더 빠른 추론. 한 장에 약 $0.04. 2025년에는 다시 두 가지가 더해졌다.
- FLUX 1.1 [pro] Ultra — 4K(4 megapixel) 해상도에서 직접 생성. 1024 -> 4K 업스케일링이 아니라 처음부터 4K 잠재공간에서 디퓨전을 돈다. 상업 광고·인쇄용에 결정적.
- FLUX 1.1 [pro] Ultra raw 모드 — 미적 보정 없이 사진에 가까운 결과.
그리고 결정적인 한 수, FLUX.1 Tools(2024년 11월). 네 가지 보조 모델 묶음.
- FLUX.1 Fill [dev/pro] — 인페인팅·아웃페인팅 전용. SD1.5/SDXL의 inpainting 모델보다 일관성이 압도적이다.
- FLUX.1 Canny [dev/pro] — Canny edge 컨디셔닝. ControlNet 없이 모델 자체가 받음.
- FLUX.1 Depth [dev/pro] — Depth map 컨디셔닝. 3D 렌더의 깊이 맵을 그대로 입력.
- FLUX.1 Redux [dev/pro] — 입력 이미지의 스타일·구도를 재맥락화. IP-Adapter류의 일을 모델 자체가 한다.
FLUX의 기술적 특징 셋.
- Rectified Flow Transformer — DDPM 류의 확률적 잡음 제거 대신 잡음과 데이터 사이를 직선으로 잇는 학습. Step 수가 줄고 안정성이 늘었다.
- Multimodal DiT — 텍스트와 이미지를 같은 트랜스포머 안에서 cross-attention으로 결합. SD3와 유사한 MMDiT 아키텍처.
- VAE 16채널 — 잠재공간 채널이 4 -> 16. 디테일이 살아남는다.
라이선스는 세 단계로 명확하다.
| 변형 | 가중치 | 상업적 사용 | 비고 |
|---|---|---|---|
| schnell | 공개 | 가능 | Apache 2.0 |
| dev | 공개 | 별도 라이선스 필요 | 비상업 자유 |
| pro / ultra | 비공개 | API로 가능 | BFL/fal/Replicate |
ComfyUI 노드 카탈로그에 FLUX 워크플로가 수십 가지 등록되어 있고, Civitai에는 FLUX dev 기반 LoRA가 수만 개 쌓였다. 2026년 오픈웨이트 쪽 사진실적 표준은 사실상 FLUX다.
6장 · Stable Diffusion 3.5 — Stability AI의 재정비 이후
2024년 봄 Stability AI는 큰 격변을 겪었다. 핵심 연구자들이 BFL로 떠나고, CEO가 바뀌고, 자금 문제가 알려졌다. 그 후 새 경영진이 회사를 재정비했고, 2024년 10월에 Stable Diffusion 3.5를 발표했다.
세 변형.
- Stable Diffusion 3.5 Large — 8.1B 파라미터. 1024x1024 표준.
- Stable Diffusion 3.5 Medium — 2.5B 파라미터. 같은 1024x1024지만 가벼움.
- Stable Diffusion 3.5 Large Turbo — 4 step distilled. 실시간에 가까운 속도.
라이선스는 Stability AI Community License. 연 매출 $1M 이하 개인·소기업은 상업적 사용 자유, 그 이상은 별도 엔터프라이즈 라이선스. 이 모델은 SD3 Medium(2024년 6월 출시 당시 인물 해부학 이슈로 욕먹은 그 모델)의 후속이지만, 인물·손가락·해부 문제가 크게 개선되었다.
아키텍처는 MMDiT(Multimodal Diffusion Transformer). FLUX와 유사한 트랜스포머 기반 디퓨전. T5와 CLIP 두 텍스트 인코더를 함께 쓴다.
강점.
- 라이선스가 명확하고 소기업까지 자유 사용.
- LoRA·ControlNet·IPAdapter 생태계가 두텁다(SD 1.5 시절부터 누적).
- Apache 2.0 친화적 변형이 SDXL과 함께 여전히 베이스 모델 위치.
약점.
- 사진실적에서 FLUX에 밀린다.
- 텍스트 렌더링은 Ideogram·Recraft에 한참 못 미친다.
- 같은 가중치 크기로 본 미적 감각은 Midjourney·NovelAI에 못 미친다.
그래도 2026년 시점 **"내 GPU에서 돌리는 오픈웨이트 베이스 모델"**의 선택지는 사실상 둘이다 — FLUX.1 [dev]와 SD 3.5 Large. SDXL은 LoRA 호환성 때문에 여전히 살아있지만, 새 작업의 베이스는 위 둘로 옮겨갔다.
7장 · Ideogram 2.0 / 3.0 — 텍스트 in 이미지의 절대 강자
Ideogram은 처음부터 **"AI 이미지의 텍스트 렌더링"**이라는 단일 목표를 가지고 시작한 회사다. 2024년 8월의 Ideogram 2.0, 2025년 봄의 3.0까지 그 카테고리에서 압도적 우위를 지킨다.
특기.
- 포스터·간판·책 표지·로고 안의 글자 — 영어 기준 거의 무결점. 한국어·일본어·중국어는 영어보다 약하지만 다른 모델들보다 낫다.
- Magic Prompt — 짧은 프롬프트를 모델이 자동으로 풍부하게 확장. 의도와 다를 때는 끌 수 있다.
- Style Reference — Midjourney의
--sref에 해당하는 기능. - Canvas — 인페인팅·아웃페인팅·매직 필 통합 도구.
가격은 무료(워터마크), Basic $8/월, Plus $20/월, Pro $60/월. API도 있다(api.ideogram.ai). 디자인 회사·광고 에이전시가 이 모델을 쓰는 이유는 단순하다 — "포스터 안에 정확한 글자"를 다른 모델이 따라오지 못한다.
3.0에서 추가된 큰 변화는 다중 레퍼런스와 고해상도 직접 출력. 시리즈 광고 캠페인에서 톤·캐릭터·타이포그래피를 일관되게 유지하는 워크플로가 크게 편해졌다.
8장 · Recraft V3 — 디자인·벡터라는 새 카테고리
Recraft는 2024년 가을의 V3 출시로 별도 카테고리를 열어버렸다. "AI 이미지"가 아니라 AI 디자인 또는 AI 벡터. 결과물이 SVG 벡터, 또는 디자이너가 그대로 InDesign·Illustrator·Figma로 보낼 수 있는 디자인이다.
핵심 기능.
- 벡터 SVG 직접 출력 — 픽셀이 아니라 패스. 무한 확대해도 깨지지 않는다.
- 텍스트 렌더링 — Ideogram과 함께 양대 산맥. 폰트·자간·정렬을 지시 가능.
- 브랜드 키트(Brand Kit) — 회사의 컬러 팔레트·폰트·로고를 등록해 두면 모든 생성물에 일관 적용.
- 스타일 라이브러리 — 6000+ 사용자 등록 스타일.
- 무한 캔버스 — 자유 배치 작업 환경.
2024년 가을 Artificial Analysis 같은 벤치마크에서 Recraft V3가 텍스트가 들어간 이미지 카테고리에서 1위를 가져갔다. 디자이너·일러스트레이터에게는 이 한 줄이 결정적이었다.
가격은 무료(50 credits/일), Basic $12/월, Advanced $33/월, Pro $60/월. API도 제공(api.recraft.ai). 마케팅·브랜딩 팀이 자기 브랜드 자산을 등록해 두고 인하우스 디자인 보조로 쓰는 패턴이 굳어졌다.
9장 · Adobe Firefly 3 — 라이선스 안전 학습의 가치
Adobe Firefly는 다른 모델들과 한 줄이 다르다. 학습 데이터가 Adobe Stock의 라이선스 명확한 이미지와 퍼블릭 도메인뿐이다. 인터넷 크롤링이 없다. Andersen·Getty 류의 소송 리스크가 0에 가깝다. 엔터프라이즈가 Firefly를 선택하는 가장 강한 이유다.
Firefly 3(2024년 출시)의 특징.
- Style Reference — 입력 이미지의 톤·구도를 흡수.
- Structure Reference — 입력 이미지의 형태를 유지하고 내용만 바꿈.
- Photoshop 통합 — Generative Fill, Generative Expand, Generative Remove가 모두 Firefly 백엔드.
- Illustrator 통합 — 벡터 생성·확장.
- Premiere 통합 — Firefly Video로 영상 생성.
- 법적 보장(Indemnification) — Firefly로 만든 결과물이 저작권 분쟁에 휘말리면 Adobe가 법무 비용을 부담.
엔터프라이즈 가격은 별도 협상. 일반 사용자는 Creative Cloud 구독에 Generative Credits이 포함되는 형태.
품질의 상한은 Midjourney·FLUX보다 낮지만, **"법무팀이 통과시키는 결과물"**이 필요한 회사에는 거의 유일한 선택지다.
10장 · Reve Image 1.0, Krea AI, Leonardo, Playground v3 — 후발 주자들
대장 모델들 사이에 자리를 잡은 후발 주자들.
Reve Image 1.0 (2025년 3월) — 신생 스타트업의 데뷔작. 출시 직후 Artificial Analysis 텍스트-투-이미지 리더보드 1위를 잠시 가져가며 주목받았다. 사진실적 품질과 프롬프트 충실도가 강점. API 우선, 가격 경쟁력 있음. 한 장 $0.03 수준.
Krea AI — 실시간 생성 카테고리의 대표. FLUX·SD3.5를 LCM 증류해서 50ms 대 속도로 서빙. 캔버스에 마우스로 그리면 즉시 디퓨전 결과가 따라온다. "Realtime"·"Enhance"·"Train"(자기 LoRA) 메뉴가 워크플로의 축.
Leonardo.AI — 게임·일러스트 시장 정조준. 자체 모델(Phoenix 등)과 SDXL 파인튜닝의 조합. 캐릭터 일관성·다중 컴퍼지션 기능이 강하다. 무료 티어가 관대해서 입문자가 많이 들어온다.
Playground v3 — Playground.ai의 자체 모델. 2024년 가을 v3가 발표되며 사진·디자인 품질이 크게 올랐다. 일부 가중치는 공개(연구용).
11장 · ComfyUI / Forge / AUTOMATIC1111 / InvokeAI / Fooocus — 오픈소스 UI들
오픈웨이트 모델을 자기 GPU에서 돌리려면 UI가 필요하다. 2026년 시점의 풍경.
ComfyUI — 노드 기반 워크플로의 표준. 화면을 잘게 나눈 노드(Load Checkpoint, KSampler, VAE Decode, ...)를 선으로 연결해 파이프라인을 만든다. 처음에는 가파른 학습곡선이지만, 한 번 익히면 ControlNet·IPAdapter·LoRA 조합을 가장 자유롭게 다룬다. FLUX·SD3.5·SDXL이 모두 첫날부터 지원되는 곳이 ComfyUI다.
Forge — A1111의 포크. UI는 A1111과 똑같지만 백엔드를 최신화. SDXL·FLUX 추론 속도가 A1111 대비 1.5~2배 빠르다. lllyasviel/stable-diffusion-webui-forge 리포지토리.
AUTOMATIC1111 (A1111) — 가장 오래된 SD UI. 2022년 말부터 사실상 표준이었지만, 2025년 이후 업데이트가 느려졌다. 여전히 SD1.5/SDXL 워크플로의 다수가 여기서 돈다.
InvokeAI — 상용·기업 친화적 UI. 무한 캔버스·레이어 편집·팀 협업이 강점.
Fooocus — "초보자 모드의 ComfyUI". 노드 없는 단순 UI 위에 ComfyUI 백엔드. 입문자에게 추천.
선택 매트릭스.
- 유연성 최대화 -> ComfyUI
- A1111 익숙한 사용자 -> Forge
- 팀·기업 -> InvokeAI
- 입문자 -> Fooocus
- 레거시 SD 1.5 LoRA가 많음 -> A1111
12장 · ControlNet — Lvmin Zhang의 결정적 한 수
2023년 2월, 스탠포드의 Lvmin Zhang(장씨)이 발표한 ControlNet 논문이 디퓨전 모델의 워크플로를 한 번에 바꾸었다. 한 줄 요약: "디퓨전 모델에 추가 조건(엣지·깊이·자세 등)을 입력으로 받는 곁가지 네트워크."
대표 컨디션 다섯.
- Canny — Canny edge detector로 뽑은 엣지 맵. 입력 이미지의 윤곽을 유지.
- Depth — MiDaS·ZoeDepth로 뽑은 깊이 맵. 3D 렌더의 깊이를 그대로 받기에 편하다.
- OpenPose — 인물의 골격·자세. 댄스·요가·운동 자세를 그대로 옮긴다.
- Tile — 같은 이미지를 타일로 나눠 디테일을 추가. 4K 업스케일링의 핵심.
- IP-Adapter — 입력 이미지의 스타일을 흡수. 텍스트 프롬프트 대신 이미지 프롬프트.
2024~25년에는 FLUX 호환 ControlNet, SD3.5 호환 ControlNet이 차례로 나왔다. FLUX는 아예 ControlNet의 일부 기능을 모델 자체에 흡수한 FLUX.1 Tools(Canny/Depth/Redux)를 출시했다. **"이미지 한 장을 정확히 따라가게 한다"**는 작업은 ControlNet 없이는 거의 불가능했고, 지금도 워크플로의 중심이다.
13장 · LoRA 파인튜닝 — 자기 캐릭터를 모델에 박는 법
LoRA(Low-Rank Adaptation)는 큰 모델의 일부 가중치만 저랭크 행렬로 fine-tune하는 기법이다. 디퓨전 모델 전체(수 GB)를 다시 학습하는 대신, LoRA 어댑터 한 개(보통 50MB~200MB)만 학습한다. 결과적으로 자기 캐릭터, 자기 화풍, 자기 제품을 모델에 박을 수 있다.
학습 도구.
- kohya_ss — LoRA 학습의 표준 GUI. SD 1.5·SDXL·SD3·FLUX 모두 지원.
bmaltais/kohya_ss리포지토리. - OneTrainer — kohya_ss 대안. UI가 더 직관적.
- AI-Toolkit (ostris) — FLUX LoRA에 특화. FLUX 시대의 표준 도구로 빠르게 자리잡았다.
데이터 준비.
- 학습할 대상의 이미지 10~50장 수집.
- 캡션(
txt파일)을 각 이미지 옆에 둠. BLIP 자동 캡션 또는 수동. - 트리거 토큰(예:
sks_dog,myface)을 캡션 앞에 통일.
학습 파라미터의 핵심.
- rank — LoRA의 차원 수. 보통
4~64. 높을수록 표현력 늘고 파일 커진다. - steps — 1000~3000 정도. 너무 길면 과적합.
- learning_rate —
1e-4근방.
학습된 어댑터는 Civitai(civitai.com)에 올라간다. 2026년 시점 Civitai에는 LoRA가 30만 개 이상 쌓여 있다. 같은 SDXL/FLUX 베이스 위에 LoRA 두세 개를 동시에 얹어 합성하는 워크플로(LoRA<rank> 표기로 가중치 조정)가 일상이다.
14장 · 인페인팅·아웃페인팅 워크플로
이미지 일부를 다시 그리거나(인페인팅), 캔버스 바깥으로 확장하는(아웃페인팅) 작업은 2026년의 가장 많이 쓰이는 편집 워크플로다.
인페인팅 시나리오.
- 인물 사진에서 옷만 바꾸기 — 옷 영역에 마스크 그리고 새 프롬프트.
- 풍경에서 사람 한 명 지우기 — 사람 영역 마스크, 배경에 맞는 프롬프트.
- 제품 사진의 배경만 교체 — 제품 마스크 반전, 새 배경 프롬프트.
- 텍스트 추가 — 빈 영역 마스크, "WELCOME" 등 텍스트 프롬프트.
아웃페인팅 시나리오.
- 세로 사진 -> 가로 와이드 배너로 확장.
- 4:3 -> 16:9.
- 같은 인물·구도에서 카메라를 줌 아웃.
도구 매핑.
- DALL·E 4: ChatGPT 캔버스에서 마스크 그리기.
- FLUX.1 Fill: ComfyUI에서 mask 노드.
- Photoshop Generative Fill: Firefly 백엔드.
- Midjourney: Vary Region(인페인팅), Zoom Out / Pan(아웃페인팅).
- Stable Diffusion 3.5: A1111/Forge의 inpaint 탭.
품질의 핵심은 마스크의 가장자리 페더링과 컨텍스트 padding(마스크 주변을 모델에 함께 보여주는 정도)이다.
15장 · 업스케일러 — 4x-UltraSharp, ESRGAN, Aura SR
생성된 1024 이미지를 4K로 늘리는 일은 별도 모델로 한다. 표준 후보.
4x-UltraSharp — Civitai에서 가장 많이 다운로드된 ESRGAN 기반 업스케일러. SD 1.5·SDXL 결과의 4배 업스케일에 일반적.
Real-ESRGAN — 원조 ESRGAN의 실제 사진용 변형. xinntao/Real-ESRGAN 리포지토리.
ESPCN — 빠르지만 품질이 떨어짐. 리얼타임 영상용.
Aura SR — fal.ai가 2024년 공개한 차세대 SR 모델. 매우 큰 배수(8x, 16x)에서도 자연스러움.
SUPIR — 디퓨전 기반 SR. 매우 느리지만 품질 압도. 인물 얼굴 4K 인쇄에 최적.
워크플로는 보통 생성(1024) -> 업스케일(2048~4096) -> 디테일러(얼굴/손) 순서. ComfyUI의 노드 그래프로 한 번에 연결한다.
16장 · 이미지-비디오 브릿지 — Kling 1.5, Hailuo
2026년에는 이미지 생성과 비디오 생성이 점점 한 워크플로 안에 들어왔다. 첫 프레임을 이미지로 만들고, 비디오 모델에 넘기는 패턴.
- Kling 1.5 (Kuaishou) — 한 장의 이미지에서 5~10초 영상으로 확장. 모션 일관성이 좋다.
- Hailuo (MiniMax) — 같은 카테고리의 중국 모델. 가격 경쟁력.
- Runway Gen-3 / Gen-4 — Image-to-Video 모드. 카메라 모션을 자연어로 지시.
- Sora 2 (OpenAI) — 별도 글의 주제지만, 이미지 입력을 받아 영상으로 확장 가능.
- Veo 2 / 3 (Google) — Imagen으로 만든 이미지를 시작 프레임으로.
전형적 파이프라인.
- FLUX 1.1 Pro Ultra로 첫 프레임 4K 생성.
- Kling 1.5에 그 프레임을 입력으로 던지고
motion_prompt로 "카메라가 천천히 줌인" 지시. - 결과 영상을 Topaz Video AI로 60fps 보간 + 4K 업스케일.
17장 · C2PA + 워터마크 — 출처 입증의 표준
생성 이미지의 출처를 증명하는 기술적 표준이 C2PA(Coalition for Content Provenance and Authenticity)다. Adobe·Microsoft·Intel·BBC·OpenAI 등이 멤버. 이미지에 "어디서 만들어졌는지, 어떤 모델·도구로 만들어졌는지"가 변조 방지 메타데이터로 박힌다.
2026년 시점 C2PA를 자동 첨부하는 도구들.
- DALL·E 4, gpt-image-1 — 기본 첨부.
- Adobe Firefly 3 — 기본 첨부.
- Photoshop 25/26 — 편집 이력도 기록.
- BBC·NYT 일부 — 기사 사진에 C2PA 검증.
별도로 눈에 안 보이는 워터마크 표준도 있다.
- SynthID (Google DeepMind) — Imagen 출력에 픽셀 레벨로 박힌다. 인간 눈에는 안 보이고 SynthID 검증기로만 탐지.
- Stable Signature (Meta) — SD 모델 출력용 워터마크. 미세 잡음 패턴.
법적·정책적으로 EU AI Act는 합성 이미지에 표시 의무를 부과한다(2026년부터 단계 적용). 한국·일본도 가이드라인 단계.
18장 · 법적 전선 — Andersen, Getty, NYT
AI 이미지 생성은 2023년부터 큰 법적 분쟁의 한복판에 있다. 2026년 시점의 주요 사건.
Andersen v Stability AI (북부 캘리포니아 연방지법) — 일러스트레이터들이 LAION 학습 데이터에 자기 그림이 들어간 것에 항의하며 집단소송. 2024~25년 사이 일부 청구가 본안 심리 단계로 넘어갔다. "출력물의 저작권 침해"와 "모델 가중치 자체의 침해" 사이를 가르는 첫 미국 판례가 될 가능성.
Getty Images v Stability AI (영국·미국 동시) — Getty가 자기 워터마크 박힌 이미지가 학습된 증거(SD 출력에 워터마크 잔존)를 들이대며 손해배상 청구. 영국 측이 먼저 본안 심리로 갔고, 2025년 판결의 일부가 학습 자체의 침해 인정 쪽으로 기울었다는 보도.
New York Times v OpenAI — 이미지가 아니라 텍스트 중심이지만, 같은 "공개 인터넷 데이터의 학습이 fair use인가" 질문이라 모든 생성 AI 진영이 주시. 2024년 말 소송 제기, 2026년 시점 디스커버리 단계.
개별 화가들 vs Midjourney·Runway — 개별 청구가 누적.
쟁점 정리.
- 학습이 fair use인가? — 미국법의 핵심 질문. transformative use 4요소 테스트.
- 출력물에 원작자 권리가 남는가? — 화풍은 저작권 보호 대상이 아니라는 게 기존 학설이지만, 학습 데이터 식별성 문제는 따로.
- 모델 가중치 자체가 침해물인가? — 한 번도 시험된 적 없는 질문.
- 모델 사용자의 책임은? — 사용자가 명백히 침해 의도로 프롬프트를 짰을 때.
이 전선이 결판나기 전까지 엔터프라이즈는 라이선스 안전한 모델(Firefly, Imagen Vertex 엔터프라이즈 티어, 자기 데이터로 학습한 LoRA)을 선호한다. Adobe의 indemnification 제안이 그래서 강력하다.
19장 · 한국 서비스 — Naver Hyperclova X 이미지, NCsoft VARCO, Kakao Karlo
한국 진영의 이미지 생성 풍경.
Naver Hyperclova X 이미지 — Naver의 거대 언어모델 Hyperclova X 라인업 안의 이미지 출력 모델. 검색·쇼핑·블로그와 통합된 한국어 프롬프트가 강점. CLOVA Studio에서 API 접근.
NCsoft VARCO — NC소프트의 거대 LLM·이미지 라인업. VARCO Studio에서 텍스트·이미지·음성 통합. 게임 회사답게 캐릭터·일러스트·로어 제작 시나리오에 강점.
Kakao Karlo — Kakao Brain의 오픈소스 이미지 모델. 2023년 출시 이후 한국어 프롬프트 지원이 강점이었고, 후속 버전이 카카오 서비스에 통합.
LG AI Research Exaone 시각 — LG의 Exaone 라인업에 멀티모달 이미지 입력·출력.
이들의 공통점은 (1) 한국어 프롬프트 충실도, (2) K-콘텐츠 스타일(K-팝·K-드라마·웹툰 미적 감각) 학습, (3) 국내 클라우드·컴플라이언스 친화적. 다국적 모델을 쓰기 어려운 공공·금융·통신 등에서 우선 검토 대상.
20장 · 일본 서비스 — Rinna AI Lab, NTT-AT, Picsart Japan
일본 진영.
Rinna AI Lab — 일본어 LLM의 선두 주자. 일본어 텍스트-이미지·이미지-텍스트 모델 라인업. 캐릭터·애니메이션·만화 톤에 강점.
NTT-AT 생성 도구 — NTT 그룹의 엔터프라이즈 생성 AI 서비스. 일본 기업 내부망과 통합되는 형태.
Picsart Japan — Picsart의 일본 지사가 일본어 UI·일본 시장 특화 기능으로 확장.
Sakana AI — 도쿄 기반 스타트업. 이미지 단독보다 모델 머지(model merging)·진화적 학습 같은 메타 기법에 강점. 일부 일본어 특화 SD 머지 모델을 공개.
Stable Diffusion 일본 모델 머지 — Animagine, Pony Diffusion(별도), 일본 머지 모델 시리즈가 일러스트·애니메 톤에서 SDXL 베이스로 강세. Civitai에 다수 호스팅.
일본 시장은 (1) 애니메·만화 톤의 미적 기준이 워낙 높아서 일반 모델로는 부족, (2) 저작권에 대한 사용자 인식이 강해서 라이선스 안전한 학습이 인기, (3) 로컬 일본어 프롬프트 지원이 결정적. 그래서 일본 머지 모델·LoRA·일본어 캡션 데이터가 별도 생태계로 굳어졌다.
21장 · 선택 매트릭스 — 무엇을 언제 쓸까
지금까지 본 모든 도구를 한 표로 정리한다.
| 상황 | 1순위 | 2순위 | 비고 |
|---|---|---|---|
| 미적 일러스트 시리즈 | Midjourney v7 | Leonardo | sref/cref |
| 사진실적 광고 | FLUX 1.1 Pro Ultra | Imagen 3 | 4K 직접 |
| 포스터 안의 텍스트 | Ideogram 3.0 | Recraft V3 | Magic Prompt |
| 로고·벡터 디자인 | Recraft V3 | Adobe Illustrator AI | SVG 출력 |
| 엔터프라이즈 라이선스 안전 | Adobe Firefly 3 | Imagen Vertex | Indemnification |
| 자기 GPU에서 사진실적 | FLUX.1 [dev] | SD 3.5 Large | 16GB+ VRAM |
| 자기 GPU에서 일러스트 | Pony / Animagine | SD 3.5 Large | SDXL 베이스 |
| ChatGPT 안에서 대화 | gpt-image-1 / DALL·E 4 | - | 인페인팅 |
| Photoshop 안에서 합성 | Firefly Generative Fill | - | C2PA |
| 캐릭터 일관성 시리즈 | Midjourney cref | LoRA(FLUX) | - |
| 인페인팅·아웃페인팅 | FLUX.1 Fill | DALL·E 4 | - |
| 텍스트-비디오 브릿지 | FLUX -> Kling 1.5 | Imagen -> Veo 2 | - |
| 실시간 캔버스 | Krea AI | Leonardo Realtime | LCM |
| 한국어 프롬프트 우선 | Naver Hyperclova X | Imagen 3 | - |
| 일본어·애니메 | Rinna / Animagine | NovelAI | - |
질문 분기.
- 결과물에 정확한 글자가 들어가나? -> 들어가면 Ideogram 또는 Recraft. 안 들어가면 다음.
- 사진처럼 보여야 하나? -> 사진실적이면 FLUX/Imagen/Reve. 일러스트면 Midjourney/Leonardo.
- 자기 GPU에서 돌릴 건가? -> 그렇다면 FLUX.1 [dev] 또는 SD 3.5. 아니면 API.
- 법적 indemnification이 필요한가? -> 그렇다면 Adobe Firefly.
- 자기 캐릭터·제품을 박을 건가? -> LoRA 학습 (kohya_ss / ai-toolkit).
- 실시간 인터랙션이 필요한가? -> Krea AI / Leonardo Realtime.
22장 · 결론 — 지도 하나, 다섯 갈래
2026년 봄, AI 이미지 생성의 풍경을 한 문단으로 줄이면 이렇다.
미적 감각은 Midjourney v7, 사진실적 사실주의는 FLUX 1.1 Pro Ultra와 Imagen 3, 텍스트와 벡터는 Ideogram·Recraft, 편집·합성은 DALL·E 4·FLUX Tools·Photoshop Generative Fill, 자기 GPU의 베이스는 FLUX.1 [dev]와 SD 3.5 Large, 법적 안전은 Adobe Firefly 3, 실시간은 Krea AI. ComfyUI 노드 그래프가 모든 것을 묶고, ControlNet·LoRA·IPAdapter가 빌딩 블록이고, Aura SR·4x-UltraSharp이 마무리하고, C2PA가 출처를 증명한다.
2년 전의 "한 모델"은 끝났다. 2026년의 답은 **"어떤 분기에 있느냐"**다. 그 분기를 정확히 그리는 것이 곧 워크플로의 절반이다.
References
- Midjourney 문서: https://docs.midjourney.com/
- Midjourney 웹 앱: https://alpha.midjourney.com/
- OpenAI 이미지 가이드: https://platform.openai.com/docs/guides/images
- OpenAI gpt-image-1 발표: https://openai.com/index/introducing-4o-image-generation/
- Google Imagen 3 (Vertex AI): https://cloud.google.com/vertex-ai/generative-ai/docs/image/overview
- Google ImageFX (labs): https://labs.google/fx/tools/image-fx
- Google Whisk: https://labs.google/whisk
- Black Forest Labs FLUX: https://blackforestlabs.ai/
- FLUX HuggingFace: https://huggingface.co/black-forest-labs
- FLUX.1 Tools: https://blackforestlabs.ai/flux-1-tools/
- Stable Diffusion 3.5 (Stability AI): https://stability.ai/news/introducing-stable-diffusion-3-5
- Stability AI 라이선스: https://stability.ai/community-license-agreement
- Ideogram: https://ideogram.ai/
- Recraft: https://www.recraft.ai/
- Adobe Firefly: https://www.adobe.com/products/firefly.html
- Reve Image: https://reve.art/
- Krea AI: https://www.krea.ai/
- Leonardo AI: https://leonardo.ai/
- Playground AI: https://playground.com/
- ComfyUI: https://github.com/comfyanonymous/ComfyUI
- AUTOMATIC1111: https://github.com/AUTOMATIC1111/stable-diffusion-webui
- Forge (lllyasviel): https://github.com/lllyasviel/stable-diffusion-webui-forge
- InvokeAI: https://github.com/invoke-ai/InvokeAI
- Fooocus: https://github.com/lllyasviel/Fooocus
- ControlNet 논문 (Lvmin Zhang): https://arxiv.org/abs/2302.05543
- kohya_ss LoRA 학습: https://github.com/bmaltais/kohya_ss
- AI-Toolkit (ostris): https://github.com/ostris/ai-toolkit
- Civitai (LoRA 허브): https://civitai.com/
- 4x-UltraSharp: https://openmodeldb.info/models/4x-UltraSharp
- Real-ESRGAN: https://github.com/xinntao/Real-ESRGAN
- Aura SR (fal): https://fal.ai/models/fal-ai/aura-sr
- C2PA 표준: https://c2pa.org/
- SynthID (DeepMind): https://deepmind.google/technologies/synthid/
- Andersen v Stability AI (북부 캘리포니아): https://www.courtlistener.com/docket/66732129/andersen-v-stability-ai-ltd/
- Getty Images v Stability AI: https://www.gettyimages.com/news/press-releases/
- NYT v OpenAI: https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
- Artificial Analysis 이미지 모델 벤치: https://artificialanalysis.ai/text-to-image
- Naver CLOVA Studio: https://www.ncloud.com/product/aiService/clovaStudio
- Kakao Brain Karlo: https://github.com/kakaobrain/karlo
- Sakana AI: https://sakana.ai/