- Published on
AI 이미지 생성 2026 — Flux / Midjourney 7 / Ideogram 3 / Recraft / SD 3.5 / GPT-4o / Imagen 4 심층 가이드
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 2024년의 한 모델, 2026년의 한 생태계
2년 전, 누군가 "AI로 이미지를 만든다"고 말하면 우리는 자연스럽게 Midjourney나 DALL·E 3, 혹은 Stable Diffusion XL을 떠올렸다. 모델은 셋이었고, 선택은 단순했다. 미적 감각을 원하면 Midjourney, 채팅에 붙이고 싶으면 DALL·E, 자기 손으로 다루고 싶으면 SDXL.
2026년 봄, 그 단순함은 끝났다. 같은 질문에 대답하려면 우리는 먼저 되묻는다. "어떤 종류의 이미지인가? 사진 같은 결과인가, 일러스트인가, 텍스트가 들어간 포스터인가, 벡터 로고인가, 실시간 생성인가? 오픈웨이트가 필요한가, API로 충분한가? 학습 데이터 라이선스가 중요한가, 결과만 좋으면 되는가?"
이 글은 그 모든 분기를 따라가는 2026년의 AI 이미지 생성 지도다. Black Forest Labs의 Flux 1.1 Pro와 Kontext가 오픈웨이트로 사진실적 품질의 새 기준을 세운 이야기, Midjourney 7이 미적 감각의 표준으로 자리를 굳힌 이야기, Ideogram 3가 텍스트가 들어간 이미지에서 독주하는 이야기, Recraft V3가 디자인이라는 별도 카테고리를 연 이야기, Stable Diffusion 3.5가 Stability AI 재정비 이후 다시 커뮤니티 베이스 모델로 돌아온 이야기. 그리고 그 사이에 GPT-4o의 지브리 모먼트, Imagen 4, Firefly 4, Krea·Photon의 실시간 생성, ComfyUI의 노드 그래프, LoRA·ControlNet·IPAdapter의 빌딩 블록, 한국·일본의 자체 생태계까지.
1장 · 2026년 AI 이미지 생성 지도 — 세 진영
2026년의 AI 이미지 생성 시장을 한 장의 지도로 그리면, 세 진영이 나타난다.
1. 폐쇄형 API 진영 — Midjourney 7, OpenAI(GPT-4o 이미지·DALL·E 4 루머), Google(Imagen 3·4), Adobe(Firefly 4), Ideogram 3. 가중치는 공개하지 않고, 자체 인프라에서 추론을 돌리고, 사용자는 토큰 또는 구독으로 결제한다. 품질의 상한이 높고, 도구 통합이 자연스럽고, 안전 필터가 강하다.
2. 오픈웨이트 진영 — Black Forest Labs의 Flux(Schnell, Dev는 오픈, Pro·Ultra·Kontext는 API), Stable Diffusion 3.5 Large·Medium, NovelAI(일부), Sakana AI의 일본 모델들. 가중치가 HuggingFace에 공개되어 있고, 누구나 다운로드해서 자기 GPU에서 돌릴 수 있다. LoRA 파인튜닝, ControlNet, IPAdapter, ComfyUI 노드 그래프가 이 진영의 무기다. Civitai가 커뮤니티 LoRA의 허브 역할을 한다.
3. 실시간 생성 진영 — Krea AI, Luma Photon, fal.ai의 LCM/Turbo 호스팅, 그리고 그 위에 쌓인 캔버스 UI들. 한 번 입력에 5초가 아니라 50밀리초가 목표다. 슬라이더를 움직이면 실시간으로 이미지가 따라오고, 캔버스에 마우스로 그리면 그 위에 디퓨전이 즉시 입혀진다. 사용자 경험이 "프롬프트 → 기다림 → 결과"에서 "프롬프트 → 즉시 → 인터랙티브"로 바뀐다.
세 진영의 경계는 점점 흐려진다. Black Forest Labs는 오픈웨이트 Dev를 공개하면서 동시에 API의 Pro·Ultra·Kontext를 운영한다. Krea AI는 자체 모델보다 Flux·SD3.5를 LCM 증류해서 실시간으로 서빙한다. 그러나 사용자가 한 모델을 고를 때 던지는 첫 질문 — "내가 가중치에 접근할 수 있나?" "내가 결제하는 방식이 토큰인가 GPU 시간인가?" "내가 결과를 받는 시간이 5초인가 50밀리초인가?" — 은 여전히 이 세 진영을 가른다.
이 글의 1부는 폐쇄형(24장), 2부는 오픈웨이트(57장), 3부는 도구·실시간(8~12장), 4부는 지역(13장), 5부는 선택(14장)을 다룬다.
2장 · Flux (Black Forest Labs) — Stable Diffusion 창업자들의 새 회사
2024년 8월, Stability AI에서 Stable Diffusion을 만들었던 핵심 연구자들이 회사를 떠나 새 회사를 차렸다. 이름은 Black Forest Labs(BFL). 독일 슈투트가르트 근처에 본사를 두고, Andreessen Horowitz가 약 31M USD의 시드 라운드를 주도했다. 첫 모델은 Flux.1이었고, 세 가지 변형으로 나왔다.
- Flux.1 [schnell] — 4 step 정도로 빠르게 생성하는 distilled 변형. Apache 2.0 라이선스. 상업적 사용 자유. 누구나 HuggingFace에서 가중치를 받을 수 있다.
- Flux.1 [dev] — 50 step 정도의 표준 변형. 가중치는 공개되지만 비상업적 라이선스. 개인·연구용으로 자유롭게 쓸 수 있고, 상업적 사용은 별도 라이선스가 필요하다.
- Flux.1 [pro] — 가장 큰 변형. 가중치 비공개. BFL API와 fal.ai, Replicate, Together.ai 같은 파트너 호스팅으로만 접근 가능.
2024년 10월에는 Flux 1.1 Pro가 나왔다. 같은 인터페이스, 더 좋은 품질, 더 빠른 추론. 가격은 한 장에 $0.04 수준. 그리고 2025년에는 두 가지 큰 발표가 이어졌다.
Flux Ultra — 4K 해상도에서 직접 생성하는 변형. 기존 1024 -> 4K 업스케일링이 아니라 처음부터 4K 잠재공간에서 디퓨전을 돈다. 사진을 인쇄용으로 쓰려는 사용자(상업 광고, 인쇄물)에게 큰 의미가 있다.
Flux Kontext — BFL 최대의 한 수. 이미지 편집·재맥락화(re-contextualization) 전용 모델. 입력 이미지를 받아서 "이 인물을 그대로 두고 배경만 도쿄 거리로 바꿔달라" "이 제품의 색을 빨강에서 파랑으로 바꿔달라" 같은 지시를 자연어로 받는다. 이전 세대의 InstructPix2Pix·SDEdit·IP2P 류의 작업이 한 단계 정밀해졌다.
Flux의 기술적 특징은 세 가지다.
첫째, Rectified Flow 기반의 디퓨전 트랜스포머(MM-DiT). Stable Diffusion 3가 도입한 MM-DiT 아키텍처를 이어받아, 텍스트와 이미지 잠재변수를 같은 트랜스포머 블록에서 교차주의로 처리한다. 결과적으로 텍스트 프롬프트의 미묘한 뉘앙스(공간 관계, 재질, 조명)가 이미지에 잘 반영된다.
둘째, T5 텍스트 인코더의 적극적 활용. SDXL이 CLIP 두 개를 쓴 것과 달리, Flux는 큰 T5(XXL)를 텍스트 인코더로 쓴다. T5는 자연어 이해가 CLIP보다 훨씬 뛰어나기 때문에, "왼손에 빨간 사과를 들고 오른손은 주머니에 넣은 채" 같은 구문적 요구가 더 잘 반영된다.
셋째, 사람 손과 텍스트의 약점이 거의 사라졌다. SDXL까지의 모델들은 손가락 개수, 시계 바늘, 이미지 안의 텍스트(간판, 표지판)에서 자주 실패했다. Flux Pro에서는 이 세 가지가 거의 안정적으로 나온다. 손가락은 다섯 개로 그려지고, 시계는 12 숫자를 가지고, "OPEN"이라는 간판은 정확히 "OPEN"으로 나온다.
ComfyUI 사용자라면 Flux를 다음과 같이 쓴다.
# ComfyUI 노드 그래프(요약, 실제로는 GUI에서 노드를 연결)
# 1) Load Diffusion Model -> flux1-dev.safetensors
# 2) Load CLIP -> t5xxl_fp8_e4m3fn.safetensors + clip_l.safetensors
# 3) Load VAE -> ae.safetensors
# 4) CLIP Text Encode (Positive) -> "a photo of a red ceramic mug on a wooden desk, soft window light"
# 5) Empty Latent Image -> 1024x1024
# 6) BasicScheduler / KSamplerSelect / RandomNoise / SamplerCustomAdvanced
# 7) VAE Decode -> Save Image
Flux Dev는 ComfyUI에서 약 16GB VRAM이면 fp8 가중치로 돌아간다(RTX 4080, 4090, 5080, 5090, A100 등). fp16 풀 정밀도가 필요하면 24GB가 권장된다.
2026년 봄 시점에서 Flux의 위치는 명확하다. "오픈웨이트로 받을 수 있는 사진실적 품질의 최고선". SDXL을 대체하는 새로운 베이스가 되었고, Civitai에서는 Flux 기반 LoRA가 매주 수백 개씩 올라온다.
3장 · Midjourney 7 — 미적 감각의 표준
Midjourney는 처음부터 끝까지 일관된 한 가지 노선을 걸어왔다. "기술적 정확성이 아니라 미적 감각을 판다." API를 열지 않고, Discord(그리고 2024년부터는 자체 웹)에서 인터랙티브하게 동작하고, 결과는 항상 "예술적"이다. 같은 프롬프트로 SDXL은 사진 같은 결과를, Midjourney는 회화 같은 결과를 낸다.
2024년 후반에 V7 알파가 나왔고, 2025년 본격적인 V7 릴리스를 거쳐 2026년 봄에는 V7이 기본 모델이 되었다. V7의 주요 변화는 다음과 같다.
1. 캐릭터·스타일 일관성의 강화. --cref(character reference), --sref(style reference) 플래그가 V6에서 등장했고, V7에서 정밀도가 크게 올라갔다. 같은 캐릭터를 여러 장면에 등장시키거나, 한 사진의 화풍을 다른 프롬프트에 옮기는 작업이 안정적이다.
2. 개인화 모델(Personalize). Midjourney가 사용자의 좋아요 데이터에서 학습한 "당신만의 모델". 약 200개 정도의 쌍 평가를 거치면 활성화되고, --p 플래그로 호출한다. 같은 프롬프트라도 사용자별로 다른 미적 결과가 나온다.
3. 비디오 모드. V1 비디오가 2025년 중반에 추가되었다. 정지 이미지를 5초·10초 동영상으로 애니메이션화한다. Luma, Runway, Pika와 경쟁하는 카테고리지만, Midjourney의 미적 감각이 동영상에서도 일관되게 유지된다는 점이 차별 요소다.
4. 무드보드(Moodboards) UI. 웹 인터페이스에서 여러 이미지를 그리드로 모아 무드보드를 만들고, 그 무드보드를 --sref 대신 통째로 스타일 가이드로 쓸 수 있다.
Midjourney 7의 가격은 $10/월(Basic, 약 3.3시간의 GPU 시간), $30/월(Standard, 15시간), $60/월(Pro, 30시간 + Stealth Mode), $120/월(Mega) 정도다. 무제한 모드는 "느린 큐"로 동작하고, 일정 시간은 빠른 큐로 처리된다.
기술적으로 Midjourney는 자체 아키텍처를 공개하지 않는다. 추측은 잠재 디퓨전 + 자체 강화학습(RLHF) 정도다. 사용자 데이터가 모델 개선의 핵심 자산이고, 매주 새로운 "스타일 토큰"이 발견되어 커뮤니티에서 공유된다.
Midjourney의 약점은 두 가지다. API가 없다. 자동화·서비스 통합이 어렵다(써드파티가 Discord를 우회해서 만든 비공식 래퍼가 있지만 ToS 위반이다). 텍스트가 들어간 이미지에서 약하다. 포스터·간판처럼 글자가 핵심인 이미지는 Ideogram이나 Flux Pro에 양보해야 한다.
그러나 "광고 컨셉, 패션 룩북, 책 표지, 무드보드, 일러스트, 회화 스타일" — 미적 감각이 결과의 90%인 카테고리에서 Midjourney 7은 여전히 표준이다.
4장 · Ideogram 3 — 텍스트가 들어간 이미지의 정답
2023년 말, Ideogram이 처음 등장했을 때 가장 큰 충격은 이미지 안의 텍스트가 정확하다는 것이었다. 다른 모든 모델은 "STORE"라는 간판을 그리려고 하면 "STOORE", "STOPRE", "STORF" 같은 가짜 글자가 나왔다. Ideogram만 정확하게 "STORE"를 그렸다.
Ideogram 2를 거쳐 2025년 발표된 Ideogram 3는 그 강점을 더 확장했다.
텍스트 충실도. 영어는 거의 완벽하다. 한글·일본어·중국어도 V2까지의 어색함이 크게 줄었다. 폰트 스타일(세리프, 산세리프, 손글씨), 글자 크기, 정렬, 다국어 혼용 — 자연어 프롬프트로 지시 가능하다.
Magic Fill / Magic Prompt. Ideogram의 인페인팅. 이미지의 특정 영역을 마스킹하고 "여기를 어떻게 바꿔달라"고 지시한다. 텍스트 영역 수정에 특히 강하다. "BLACK FRIDAY"라고 적힌 포스터에서 "CYBER MONDAY"로 글자만 바꾸는 작업이 자연스럽게 동작한다.
스타일 라이브러리. 약 4400개의 사전 정의된 스타일 토큰(2026년 봄 기준). "Vintage Travel Poster", "1980s Anime", "Watercolor Illustration" 같은 토큰을 프롬프트에 붙이면 일관된 결과가 나온다.
Ideogram의 가격은 $8/월(Basic), $20/월(Plus), $60/월(Pro). 무료 티어도 있어서 누구나 일정량까지는 써볼 수 있다. API도 공개되어 있어서 마케팅 도구·디자인 도구에 통합하기 좋다.
Ideogram이 강한 카테고리는 명확하다. 포스터, 광고 배너, 책 표지, 명함, 티셔츠 디자인, 인스타그램 카드, 메뉴판 — 텍스트가 핵심인 이미지. 일러스트 품질만 보면 Midjourney보다 한 단계 낮지만, "글자가 정확해야 한다"는 제약 아래에서는 Ideogram이 정답이다.
기술적으로 Ideogram이 텍스트에서 강한 이유는 텍스트 렌더링을 별도의 손실 함수로 다루는 학습 방식이라고 추측된다. 일반 디퓨전 모델은 모든 픽셀을 동등하게 다루지만, Ideogram은 OCR 같은 보조 모델로 생성된 이미지에서 텍스트를 다시 인식해서 정확도를 손실로 되돌리는 방식을 쓰는 것으로 알려져 있다.
5장 · Recraft V3 — 디자인(벡터/로고) 특화
Recraft는 다른 모든 모델과 다른 카테고리에서 출발했다. 래스터(픽셀) 이미지가 아니라 벡터(SVG) 이미지를 출력하는 AI. 로고, 아이콘, 일러스트, 패턴 — 디자이너가 일러스트레이터나 피그마에서 쓸 수 있는 형태로 결과를 받는다.
2024년 말의 Recraft V3는 LMSYS Artificial Analysis Image Arena에서 한동안 1위를 차지했다. 텍스트 충실도, 디자인 품질, 그리고 무엇보다 SVG 출력이 평가에 영향을 줬다.
Recraft의 핵심 기능들.
Vector 모드. 프롬프트를 주면 SVG로 출력한다. 그 SVG를 다운로드해서 일러스트레이터에서 열어 추가 편집할 수 있다. 색상 팔레트, 레이어 구조가 깔끔하다. 로고 디자인의 첫 드래프트로 매우 유용하다.
Brand Style. 사용자가 자기 브랜드의 이미지 몇 장을 업로드하면, Recraft가 그 스타일을 추출해서 일관된 결과를 만든다. "우리 회사 일러스트 스타일"을 학습시키는 셈이다.
Mockup. 디자인을 만들면 자동으로 티셔츠·머그컵·포스터·노트북 케이스 등 다양한 mockup에 적용해서 보여준다. 이커머스·POD(Print on Demand) 비즈니스에 유용하다.
Recraft API. 디자인 워크플로에 통합할 수 있는 API. Webflow, Framer, Figma 플러그인 등이 이미 통합되어 있다.
가격은 무료 티어(매일 일정량), Basic $10/월, Advanced $33/월, Enterprise는 별도. API는 호출당 과금.
Recraft의 약점은 사진실적 이미지다. Flux나 Midjourney처럼 "실사 같은 사진"을 만드는 데는 적합하지 않다. 디자인·일러스트라는 좁은 카테고리에서 전문화된 도구다.
Recraft가 의미 있는 이유는 따로 있다. AI 이미지 생성이 더 이상 "범용 모델 하나"가 아니라 카테고리별로 분화되기 시작했다는 신호. 사진은 Flux, 미적 일러스트는 Midjourney, 텍스트 포스터는 Ideogram, 벡터·로고는 Recraft. 한동안은 "모든 걸 한 모델로"가 트렌드였지만, 2025-2026년에는 다시 카테고리별 전문화로 돌아가는 흐름이 보인다.
6장 · Stable Diffusion 3.5 — Stability AI 재정비 이후
Stability AI는 2024년에 큰 격변을 겪었다. CEO Emad Mostaque가 떠나고, 핵심 연구진이 대거 Black Forest Labs로 이동했고, 회사는 거의 해체 직전까지 갔다. 그러나 새 경영진(Sean Parker 등이 보드에 합류) 아래 재편을 거쳐, 2024년 10월 Stable Diffusion 3.5를 발표하면서 회사는 안정을 찾았다.
SD 3.5는 세 가지 변형으로 나왔다.
- SD 3.5 Large — 8.1B 파라미터. 풀 정밀도에서는 24GB VRAM 권장. fp8로는 16GB에서 돌아간다.
- SD 3.5 Medium — 2.5B 파라미터. 12GB VRAM에서 돌아간다.
- SD 3.5 Large Turbo — Large의 4-step 증류 버전. 빠른 추론용.
라이선스는 Stability AI Community License. 연간 매출 1M USD 미만의 회사·개인은 상업적 사용 자유. 그 이상은 별도 엔터프라이즈 라이선스. 2024년의 SD3 Medium에서 라이선스가 너무 제한적이라는 반발이 있었고, 3.5에서는 조건을 완화했다.
기술적으로 SD 3.5는 MM-DiT(Multimodal Diffusion Transformer) 아키텍처를 그대로 쓴다. Flux와 같은 계보지만, BFL이 회사로 떠나기 전의 마지막 공동 작업의 흔적이 남아 있다.
ComfyUI에서 SD 3.5는 다음과 같이 쓴다.
# 1) Load Checkpoint -> sd3.5_large.safetensors
# 2) CLIPTextEncodeSD3 (clip_g + clip_l + t5xxl)
# Positive: "A close-up portrait of a woman with curly hair, golden hour lighting"
# Negative: "blurry, low quality, distorted hands"
# 3) EmptySD3LatentImage -> 1024x1024
# 4) ModelSamplingSD3 -> shift 3.0
# 5) KSampler -> euler / sgm_uniform / 28 steps / cfg 4.5
# 6) VAE Decode (sd3.5 vae) -> Save Image
SD 3.5의 위치는 미묘하다. 품질만 보면 Flux Dev가 한 단계 위. 그러나 SD 3.5는 라이선스가 더 명확(연 매출 기준의 명확한 무료 사용 한도)하고, 커뮤니티 LoRA·ControlNet이 더 풍부(SD 1.5/SDXL부터 이어진 ecosystem이 마이그레이션 중)하다.
2026년 봄 시점에서 "오픈웨이트 베이스 모델 두 개"가 정착한 모습이다. 사진실적 + 텍스트 충실도 + 손가락이 최우선이면 Flux Dev, 라이선스 명확성 + 광범위한 커뮤니티 LoRA가 최우선이면 SD 3.5. SD 1.5와 SDXL은 점차 레거시 위치로 밀려나고 있다.
7장 · Google Imagen 3 / 4 / ImageFX
Google은 AI 이미지 생성에서 항상 "두 번째 출시"의 입장에 있었다. Imagen 1·2는 논문만 공개하고 모델은 비공개였고, 2024년 중반의 Imagen 3에 와서야 일반 사용자가 접근 가능한 형태로 풀렸다.
Imagen 3는 두 가지 경로로 사용 가능하다.
ImageFX — Google Labs의 무료 웹 인터페이스. labs.google/fx/tools/image-fx에서 누구나 일정량을 무료로 쓸 수 있다. Imagen 3 기반.
Vertex AI / Gemini API — Google Cloud의 엔터프라이즈 경로. API 호출당 과금. 안전 필터, SynthID 워터마크, 엔터프라이즈 SLA가 따라온다.
2025년 후반에 Imagen 4가 발표되었고, 2026년 봄 시점에서는 ImageFX와 Gemini API 양쪽에서 사용 가능하다. Imagen 4의 변화:
- 텍스트 충실도 — Imagen 3까지의 약점이었던 이미지 안의 텍스트가 Ideogram 수준에 가까워졌다.
- 다국어 프롬프트 — 영어 외 한국어·일본어·중국어 프롬프트의 이해도가 올라갔다. 한국어로 "노을 진 한강의 풍경"이라고 입력하면 의미 있는 결과가 나온다.
- SynthID 워터마크 — Google이 강하게 미는 보이지 않는 워터마크. 인간의 눈으로는 보이지 않지만 Google의 검출기는 "이 이미지는 AI 생성"이라고 식별한다.
Imagen의 강점은 Google 생태계와의 통합이다. Gemini에서 직접 이미지 생성을 호출할 수 있고, Google Workspace(Docs, Slides)에서 한 번에 삽입할 수 있고, NotebookLM이나 Google AI Studio 같은 도구에서 자연스럽게 쓸 수 있다.
약점은 안전 필터의 보수성이다. 사람 얼굴 생성에 매우 보수적이고(특히 특정 인종·성별 조합), 정치적 인물, 폭력적 상상, 성적 암시에 강한 제약이 있다. 광고·마케팅 일러스트 용도로는 충분하지만, 자유로운 창작 도구로는 답답할 수 있다.
8장 · OpenAI GPT-4o 이미지 (2025.3 지브리 모먼트) / DALL·E 4
OpenAI의 DALL·E 3는 2023년 후반 ChatGPT에 통합되면서 큰 영향을 줬다. 2025년에 들어서면서 흐름이 바뀌었다. GPT-4o의 네이티브 이미지 생성이 발표되면서, DALL·E라는 별도 모델 대신 GPT-4o 자체가 이미지를 만드는 구조로 이동했다.
2025년 3월의 지브리 모먼트. GPT-4o의 이미지 생성이 모든 ChatGPT 사용자에게 풀린 며칠 동안, 트위터(X)에서는 "지브리 스튜디오 화풍으로 만들어줘"가 폭발했다. 자기 사진, 가족 사진, 회사 로고, 도시 풍경 — 무엇이든 미야자키 하야오 스타일로 변환되어 올라왔다. OpenAI 서버는 며칠 동안 거의 마비되었고, Sam Altman은 "이 정도일 줄 몰랐다"고 트윗했다.
이 사건이 의미하는 것 세 가지.
1. 채팅 UI에서의 자연스러운 이미지 생성이 카테고리 자체를 다시 정의했다. 별도 도구를 열어서 프롬프트를 입력하는 게 아니라, 대화 중에 "이거 지브리 스타일로 그려줘"라고 말하면 즉시 결과가 나온다. UI 마찰의 차이가 사용량에서 100배의 차이를 만들었다.
2. 스타일 이전(style transfer)의 문화적 충격. "지브리"라는 단어 하나로 한 스튜디오의 화풍이 누구나의 일상 사진에 적용된다. 저작권·창작자 권리에 대한 논쟁이 폭발했고, 미야자키 하야오 본인의 과거 발언("AI 애니메이션은 삶에 대한 모욕")이 재인용되었다.
3. 모델 통합의 미래. "이미지 모델"과 "텍스트 모델"의 분리가 무너지기 시작했다. GPT-4o는 텍스트·이미지·음성·동영상을 한 모델 안에서 처리한다. 이런 멀티모달 통합이 표준이 되면, "DALL·E를 별도로 부르는" UX는 점차 사라진다.
DALL·E 4의 루머. 2026년 봄 시점에서는 정식 발표가 없지만, 업계 소식통에서는 GPT-4o 이미지 생성을 잇는 새로운 이미지 전용 모델이 준비 중이라는 얘기가 있다. 추측은 비디오 생성(Sora 계열)과의 통합, 그리고 더 큰 텍스트 인코더 적용 정도다.
GPT-4o 이미지의 가격은 ChatGPT Plus($20/월) 구독에 포함, ChatGPT Free 사용자도 일정량 무료, API는 별도(이미지 출력 토큰 기준 과금).
9장 · Adobe Firefly 4 — 라이선스 깨끗한 학습 데이터
Adobe는 2023년부터 자체 이미지 생성 모델 Firefly를 운영해왔다. 다른 모델들과의 가장 큰 차이는 단 하나. 학습 데이터의 라이선스가 깨끗하다. Adobe Stock의 이미지, 공개 도메인 이미지, 그리고 라이선스가 풀린 이미지만으로 학습한다고 명시한다.
이 라이선스 약속이 의미하는 시장은 명확하다. 엔터프라이즈와 광고대행사. 클라이언트에게 결과물을 납품할 때 "이 이미지가 누구의 저작권을 침해하지 않는다"는 보증이 필요한 사용자들. Adobe는 Firefly로 만든 이미지에 대해 법적 배상까지 제공한다.
2026년 봄 기준 Firefly 4의 위치.
품질 — Flux Pro, Midjourney 7, Imagen 4와 비교했을 때 한두 단계 아래로 평가되는 경우가 많다. 그러나 "비교했을 때 한두 단계 아래"가 일상 사용에 문제가 되는 수준은 아니다. 광고·마케팅 사용에는 충분하다.
통합 — Photoshop, Illustrator, Premiere Pro, Express. Adobe의 모든 제품에 Firefly가 깊게 통합되어 있다. Photoshop의 Generative Fill, Illustrator의 Generative Recolor, Premiere의 Generative Extend(영상 길이 자동 연장) 등. Adobe 사용자에게는 별도 도구가 아니라 일상의 일부다.
구독 — Adobe Creative Cloud 구독에 포함, "생성 크레딧"으로 사용량 관리. 별도의 Firefly Premium 구독도 있다.
Custom Models — 엔터프라이즈는 자기 회사의 이미지로 Firefly를 파인튜닝할 수 있다. 브랜드 가이드라인 준수, 일관된 캐릭터 등.
Firefly 4의 약점은 창작의 자유도다. 안전 필터와 라이선스 정책이 보수적이라서, "왠지 모르게 안 만들어지는" 이미지가 자주 나온다. 자유로운 창작 도구로는 답답하다.
그러나 Firefly의 시장 가치는 다른 곳에 있다. "법적 안전이 우선"이라는 기업 시장에서 Firefly는 거의 독점에 가깝다. 광고대행사, 엔터프라이즈 마케팅, 정부 발주 디자인 — 이런 시장에서는 Midjourney나 Flux를 쓸 수 없다.
10장 · Krea AI / Photon (Luma) — 실시간 생성
2024-2025년에 새롭게 떠오른 카테고리가 실시간 이미지 생성이다. 한 장의 이미지를 받는 데 5초가 아니라 50밀리초가 걸리는 모델·인터페이스.
Krea AI는 이 카테고리의 가장 잘 알려진 인터페이스다. krea.ai에서 사용한다. 캔버스 위에 마우스로 대충 스케치를 그리면, 그 위에 디퓨전이 실시간으로 입혀진다. 색을 다르게 칠하면 결과가 즉시 따라온다. 프롬프트를 수정하면 거의 지연 없이 결과가 갱신된다.
내부적으로 Krea는 Flux·SD3.5·SDXL 같은 베이스 모델을 LCM(Latent Consistency Model) 또는 Turbo로 증류해서 4 step 이내로 생성하게 만든다. 그리고 그 위에 자체 캔버스 UI를 얹는다. 사용자 경험이 "프롬프트 → 기다림"이 아니라 "프롬프트 → 인터랙티브 캔버스"가 된다.
Luma Photon은 Luma Labs의 이미지 모델이다. Luma는 원래 Dream Machine이라는 비디오 생성으로 유명한 회사인데, 2024년 말에 이미지 전용 Photon을 발표했다. 특징은 빠른 추론과 사진실적 품질의 균형. Photon은 API와 Luma 웹 인터페이스에서 사용 가능하다.
fal.ai는 이런 실시간·고속 추론을 호스팅하는 인프라 회사다. Flux Schnell, SDXL Lightning, SD3.5 Turbo 같은 빠른 변형을 fal.ai API로 호출하면 거의 실시간 응답을 받는다. ComfyUI 워크플로를 그대로 fal.ai에 올려서 서빙하는 기능도 있다.
실시간 생성이 의미 있는 사용 케이스 세 가지.
1. 디자인 탐색. 색·구도·재질을 슬라이더로 움직이면서 결과를 실시간으로 본다. "결과 → 수정 → 다시 생성" 루프가 50밀리초면 디자인 사고가 완전히 다른 형태가 된다.
2. 실시간 협업. Figma·Miro 같은 협업 캔버스에 디퓨전 출력이 통합된다. 한 사람이 캔버스에 도형을 그리면, 다른 사람이 보는 화면에서도 즉시 그 도형 위에 AI 결과가 입혀진다.
3. 라이브 콘텐츠. 라이브 스트리밍, VJ-ing(라이브 비주얼), 실시간 광고 — 실시간 디퓨전을 콘텐츠 자체의 일부로 쓰는 사용 케이스가 늘어나고 있다.
가격은 모델·인프라마다 다른데, fal.ai 기준 Flux Schnell 한 장이 약 $0.003, SDXL Lightning은 $0.001 수준. 한 시간 사용해도 몇 달러 안 든다.
11장 · ComfyUI — 노드 기반 워크플로 표준
오픈웨이트 이미지 생성에서 2026년 봄 시점의 표준 도구는 ComfyUI다. 2023년 초에 등장한 노드 기반(node-based) 워크플로 GUI인데, 이제는 Stability AI, Black Forest Labs, NVIDIA, Apple 모두가 자기 모델의 "ComfyUI 워크플로 예제"를 공개한다.
ComfyUI의 핵심은 모든 단계가 노드라는 점이다.
- 모델 로드 → 노드
- 텍스트 인코딩 → 노드
- 잠재공간 노이즈 초기화 → 노드
- 디퓨전 스텝 → 노드
- VAE 디코딩 → 노드
- 저장 → 노드
각 노드는 입력 포트와 출력 포트가 있고, 노드를 와이어로 연결해서 그래프를 만든다. 그래프는 JSON으로 저장되고, 누구나 그 JSON을 임포트해서 똑같이 재현할 수 있다.
ComfyUI의 강점.
1. 재현 가능성. 워크플로 JSON을 공유하면 누구나 같은 결과를 얻는다. Civitai에서 LoRA를 받을 때 "이 LoRA에 추천되는 ComfyUI 워크플로"가 같이 올라온다.
2. 복잡한 파이프라인의 자연스러운 표현. "텍스트 → 1차 디퓨전 → 업스케일 → ControlNet 적용 → 2차 디퓨전 → 후처리"처럼 여러 단계가 있는 파이프라인을 그래프로 표현하기에 자연스럽다.
3. 커스텀 노드 생태계. GitHub에 수천 개의 커스텀 노드 패키지가 있다. ComfyUI-Manager로 한 번에 설치할 수 있고, "이 사용 케이스에 필요한 노드들"을 묶어서 받는다.
4. API 모드. ComfyUI는 GUI일 뿐 아니라 HTTP API도 제공한다. ComfyUI 인스턴스에 워크플로 JSON을 POST하면 결과 이미지가 돌아온다. fal.ai, RunPod 등에서 ComfyUI를 서버리스로 호스팅한다.
ComfyUI의 약점은 러닝커브다. AUTOMATIC1111의 WebUI나 Fooocus처럼 폼 기반 UI에 익숙한 사용자에게 노드 그래프는 처음에 낯설다. 그러나 복잡한 워크플로를 다루기 시작하면 노드 그래프 외의 선택지는 사실상 없다.
대안 도구들도 짚어두자.
- AUTOMATIC1111 / SD WebUI — 가장 오래된 SD GUI. 폼 기반. 2026년 봄 시점에서는 SDXL까지는 잘 지원하지만 Flux/SD3.5는 ComfyUI보다 한 박자 늦다.
- Forge — A1111의 포크. 성능 최적화에 집중. VRAM 사용량이 줄어든다.
- InvokeAI — 좀 더 디자이너 친화적인 인터페이스. 인페인팅·아웃페인팅이 자연스럽다.
- Fooocus — Midjourney 스타일의 단순한 인터페이스. 폼 두세 개만 채우면 결과가 나온다.
Civitai는 LoRA·체크포인트·임베딩의 커뮤니티 허브다. 사용자가 자기 LoRA를 업로드하고, 다른 사람이 다운받아서 쓴다. 2026년 봄 기준으로 Flux·SD 3.5 기반 LoRA가 가장 많이 올라오고, NSFW 정책에 대한 논쟁이 계속 이어진다.
HuggingFace는 모델 가중치의 공식 허브다. BFL의 Flux 시리즈, Stability AI의 SD 3.5, 그리고 그 위의 미세조정 모델들이 여기에 올라간다. Civitai가 커뮤니티 LoRA 중심이라면, HuggingFace는 베이스 모델·연구용 모델 중심이다.
12장 · LoRA / ControlNet / IPAdapter — 워크플로 빌딩 블록
오픈웨이트 이미지 생성을 진지하게 다룬다면, 세 가지 빌딩 블록을 알아야 한다.
1. LoRA (Low-Rank Adaptation). 베이스 모델 전체를 다시 학습하지 않고, 작은 어댑터(약 10~100MB)만 학습해서 모델의 행동을 바꾸는 기법. 한 캐릭터, 한 화풍, 한 컨셉을 가르치는 데 쓴다. SDXL용 LoRA가 가장 풍부했고, 2026년 봄에는 Flux Dev용 LoRA로 무게중심이 옮겨가는 중이다.
LoRA를 만드는 데 필요한 것: 20100장의 이미지(레퍼런스), 그 이미지에 대한 캡션, 그리고 약 1030분의 GPU 시간(RTX 4090 기준). Kohya_ss, OneTrainer, ai-toolkit 같은 도구로 학습한다.
ComfyUI에서 LoRA를 쓰는 법:
# 1) Load Checkpoint -> base 모델
# 2) Load LoRA -> my_character.safetensors / strength 0.8
# 3) CLIP Text Encode -> "a portrait of <trigger_word>, soft lighting"
# 4) 이후는 표준 KSampler 흐름
trigger_word는 LoRA 학습 시 정한 토큰. 그 토큰이 프롬프트에 들어가면 LoRA가 활성화된다.
2. ControlNet. 입력 이미지의 구조 정보(외곽선, 포즈, 깊이 맵, 세그멘테이션)를 추출해서, 그 구조에 맞춰 새 이미지를 생성하는 기법. "이 사진의 포즈를 유지하면서 의상만 바꿔달라" 같은 작업이 가능하다.
ControlNet의 주요 모드:
- Canny edge — 외곽선 추출. 원본의 구도를 유지.
- OpenPose — 사람 포즈 추출. 같은 포즈로 다른 캐릭터를 생성.
- Depth — 깊이 맵 추출. 공간 구조 유지.
- Tile — 디테일 강화·업스케일.
- Inpaint — 마스킹 영역만 다시 생성.
SDXL용 ControlNet은 매우 풍부하고, Flux용 ControlNet도 빠르게 채워지고 있다. SD 3.5용은 아직 SDXL만큼은 아니지만 주요 모드는 다 있다.
3. IPAdapter (Image Prompt Adapter). 이미지 자체를 프롬프트로 사용하는 어댑터. 텍스트 프롬프트만으로는 표현하기 어려운 "이런 스타일·분위기·색감"을 레퍼런스 이미지로 전달한다. CLIP 임베딩을 활용해서, 레퍼런스 이미지의 의미를 디퓨전 과정에 주입한다.
IPAdapter의 사용 케이스.
- 스타일 이전 — 사진을 회화 스타일로, 회화를 사진 스타일로.
- 컬러 팔레트 일관성 — 한 시리즈의 이미지가 같은 색감을 유지.
- 캐릭터 일관성 — 한 얼굴이 여러 장면에 등장.
ControlNet과 IPAdapter는 함께 쓸 때 강력하다. ControlNet으로 구조를 잡고, IPAdapter로 스타일·분위기를 가져온다.
Img-to-Img / Inpainting / Outpainting도 빠뜨릴 수 없다. Img-to-Img는 기존 이미지를 입력으로 받아서 부분적으로 노이즈를 더한 뒤 다시 디노이징하는 기법. Inpainting은 마스킹된 영역만 다시 생성. Outpainting은 이미지의 바깥 경계를 확장. 이 세 가지는 모든 오픈웨이트 모델에서 기본으로 지원한다.
13장 · 한국 / 일본 AI 이미지 (NovelAI, Sakana, Tsuzumi)
영어권 모델만 보면 시장의 전체 그림이 안 보인다. 한국과 일본에서는 자체 생태계가 별도로 동작한다.
한국.
- 카카오 KoGPT 이미지 — 카카오의 자체 이미지 생성. 카카오톡, 카카오톡 채널 등에 통합되어 있다. 한국적 일러스트(웹툰 스타일, 한복, 한식 등)에 강점.
- 네이버 클로바 X (CLOVA Studio) — 네이버의 LLM·이미지 통합 플랫폼. HyperCLOVA X 기반. 네이버 검색, 네이버 블로그, 네이버 쇼핑에 통합. 한국어 프롬프트 이해가 자연스럽다.
- lytics(라이틱스) — 한국 스타트업. 광고·마케팅용 AI 이미지 생성에 특화. 모델 자체는 SDXL·Flux 베이스에 한국 상품 데이터로 파인튜닝한 LoRA 모음을 운영.
일본.
- NovelAI — 2022년부터 운영된 일본 애니메이션 스타일 이미지 생성의 사실상 표준. NovelAI Diffusion V4(2025년) 기준 애니메이션·일러스트 품질이 SDXL 베이스의 다른 모델들과 차원이 다르다. 자체 학습 데이터셋과 자체 파인튜닝.
- Sakana AI — 도쿄 본사. 영국 출신 연구자 David Ha가 공동 창업. 진화적 모델 병합(evolutionary model merging) 같은 독자 연구가 알려져 있다. 일본어 LLM과 일본어 멀티모달 모델을 개발 중이고, 정부·대기업과의 협업이 늘고 있다.
- NTT Tsuzumi(쓰즈미) — NTT가 개발한 일본어 LLM. 이미지 생성 자체보다는 멀티모달 이해(이미지를 텍스트로 설명) 쪽에 강점이 있다고 알려져 있다.
- Yi-Vision — 01.AI(중국)의 모델이지만 일본·한국에서도 자주 언급된다. 멀티모달 이해 모델로 OCR·문서 분석에 강하다.
지역 모델이 의미 있는 이유는 두 가지다. 첫째, 언어·문화 이해. 한국어로 "갈치조림"이라고 하면 한국 모델은 정확한 음식을 그린다. 글로벌 모델은 "갈치"가 무엇인지 잘 모른다. 둘째, 데이터 주권. 정부 발주, 공공기관, 그리고 일부 대기업은 외국 클라우드에 데이터를 보내고 싶지 않다. 한국·일본 내 데이터센터에서 운영되는 자체 모델이 필요하다.
그러나 지역 모델의 약점도 명확하다. 품질의 절대 수준이 Flux·Midjourney·Imagen 4에는 미치지 못한다. 일반 사진실적 이미지에서는 글로벌 모델이 한 단계 위다. 지역 모델은 "한국적 맥락" "일본 애니메이션 스타일" 같은 좁은 카테고리에서 강점을 가진다.
14장 · 누가 무엇을 골라야 하나 — 광고 / 제품 디자인 / 만화 / 마케팅
지금까지 11개의 모델·도구를 봤다. 그러면 실제 사용자는 무엇을 골라야 할까? 사용 케이스별로 정리한다.
광고·마케팅 비주얼 (대행사·인하우스).
가장 무난한 조합: Midjourney 7 (컨셉) + Adobe Firefly 4 (납품용). Midjourney로 무드보드·컨셉 시안을 빠르게 만들고, 클라이언트 OK가 나면 Firefly로 최종본을 만든다. Firefly는 라이선스가 깨끗해서 법적 리스크가 없다. 텍스트가 들어간 광고 배너는 Ideogram 3로 별도 처리.
제품 사진 (e-커머스, 브랜드).
Flux 1.1 Pro 또는 Flux Kontext. 제품 사진의 사진실적 품질이 가장 안정적이다. Kontext로 배경만 바꾸는 작업이 매우 유용. SDXL 시대의 IPAdapter + ControlNet 워크플로를 ComfyUI에서 그대로 운영하는 팀도 많다.
로고·아이콘·일러스트 디자인.
Recraft V3. 벡터 출력이 결정적인 이유. 다른 모델로 만들면 다시 일러스트레이터에서 다시 그려야 하는데, Recraft는 처음부터 SVG로 나온다. 보조로 Midjourney 7로 컨셉을 잡고 Recraft로 벡터화하는 흐름도 있다.
책 표지·포스터·앨범 커버.
Ideogram 3 (텍스트가 핵심일 때) + Midjourney 7 (이미지가 핵심일 때). 텍스트가 큰 비중을 차지하면 Ideogram, 이미지가 주가 되고 텍스트는 작으면 Midjourney에서 일단 만들고 텍스트는 Photoshop·Figma에서 따로 얹는다.
웹툰·만화·일러스트.
NovelAI (애니메이션 스타일이 핵심일 때) 또는 SD 3.5/Flux Dev + LoRA. NovelAI는 일러스트 품질이 압도적이지만 라이선스·서비스 종속이 있다. 자기 화풍을 키우고 싶다면 SD 3.5 또는 Flux Dev를 베이스로 자기 작품으로 LoRA를 학습. ComfyUI 워크플로로 일관성을 잡는다.
개인 창작·실험.
ChatGPT(GPT-4o 이미지) 가장 마찰이 적다. "이거 만들어줘"라고 채팅에 입력만 하면 된다. 더 자유로운 결과를 원하면 Stable Diffusion 3.5나 Flux Dev를 로컬에서 직접 운영.
디자인 탐색·실시간 협업.
Krea AI 또는 Photon. 실시간 생성의 마찰이 디자인 사고 자체를 바꾼다. Figma·Miro와의 통합이 점점 자연스러워진다.
엔터프라이즈·정부.
Adobe Firefly 4 (라이선스), Google Imagen 4 (Vertex AI) (인프라·SLA), 또는 자체 호스팅 SD 3.5/Flux (데이터 주권). 사용자가 한 도구를 선택하는 게 아니라 보안·법무·재무가 함께 선택하는 카테고리.
한 가지 더 — "어디서나 한 모델"의 시대는 끝났다. 2024년에는 "Midjourney 하나로 모든 것" 같은 답이 어느 정도 가능했다. 2026년에는 진지한 사용자라면 두세 모델은 평행하게 운영한다. 사진은 Flux, 일러스트는 Midjourney, 텍스트는 Ideogram, 벡터는 Recraft, 그리고 자체 LoRA는 SD 3.5. 한 모델 한 기업에 종속되는 시대는 지났다.
에필로그 — 다음 2년
마지막으로, 2026년 봄 시점에서 보이는 다음 2년의 방향을 두 가지만 짚자.
1. 멀티모달 통합. GPT-4o가 보여준 "한 모델 안에서 텍스트·이미지·음성·동영상"이 표준이 된다. DALL·E·Imagen 같은 "별도 이미지 모델"의 위치가 점점 작아진다. 사용자 UX는 채팅 + 캔버스가 통합된 형태로 수렴한다.
2. 비디오 생성의 폭발. 2024년의 Sora, 2025년의 Veo 2·Kling·Hailuo·Runway Gen-3, 2026년의 Veo 3·Sora 2·Luma Dream Machine 2 등. 이미지 생성에서 검증된 기술이 비디오로 옮겨가는 흐름이 가속화된다. "이미지 모델"과 "비디오 모델"의 경계도 흐려진다(같은 회사가 둘 다 운영, 같은 인터페이스에서 둘 다 호출).
이미지 생성 자체는 더 이상 "AI의 가장 충격적인 기술"이 아니다. 2022년의 DALL·E 2가 준 충격은 이제 일상이 되었다. 2026년의 우리는 이미지 생성을 도구로 쓰고, 그 위에 다음 충격을 기다린다. 다음 충격이 무엇일지는 알 수 없지만, 그 다음에도 이 글의 모델들 — Flux, Midjourney, Ideogram, Recraft, SD 3.5, Imagen, GPT-4o, Firefly — 은 누군가의 일상 작업 도구로 남아 있을 것이다.
참고 / References
- Black Forest Labs Flux: https://blackforestlabs.ai/
- Flux on HuggingFace: https://huggingface.co/black-forest-labs
- Midjourney: https://www.midjourney.com/
- Ideogram: https://ideogram.ai/
- Recraft: https://www.recraft.ai/
- Stable Diffusion 3.5 (Stability AI): https://stability.ai/news/introducing-stable-diffusion-3-5
- Google ImageFX: https://labs.google/fx/tools/image-fx
- Google Vertex AI Imagen: https://cloud.google.com/vertex-ai/generative-ai/docs/image/overview
- OpenAI DALL·E and GPT-4o image: https://openai.com/index/dall-e-3/
- Adobe Firefly: https://www.adobe.com/products/firefly.html
- Krea AI: https://www.krea.ai/
- Luma Photon: https://lumalabs.ai/
- fal.ai: https://fal.ai/
- ComfyUI: https://www.comfy.org/
- AUTOMATIC1111 / Stable Diffusion WebUI: https://github.com/AUTOMATIC1111/stable-diffusion-webui
- Forge: https://github.com/lllyasviel/stable-diffusion-webui-forge
- InvokeAI: https://invoke.com/
- Fooocus: https://github.com/lllyasviel/Fooocus
- Civitai: https://civitai.com/
- HuggingFace Diffusers: https://huggingface.co/docs/diffusers
- LoRA paper (Hu et al., 2021): https://arxiv.org/abs/2106.09685
- ControlNet paper (Zhang et al., 2023): https://arxiv.org/abs/2302.05543
- IPAdapter paper (Ye et al., 2023): https://arxiv.org/abs/2308.06721
- NovelAI: https://novelai.net/
- Sakana AI: https://sakana.ai/
- NTT Tsuzumi: https://www.rd.ntt/e/research/JN202310_15738.html
- Kakao Brain (KoGPT): https://kakaobrain.com/
- Naver HyperCLOVA X: https://clova.ai/hyperclova