Skip to content

필사 모드: AI 패션 & 가상 피팅 (Virtual Try-On) 2026 완벽 가이드 - IDM-VTON · OOTDiffusion · CatVTON · Outfit Anyone · StableVITON · Doodle AI · MMTryon · DressCode 심층 분석

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 2026년, 옷을 입어보지 않고 산다

2019년만 해도 "온라인에서 옷을 산다"는 건 "상품 사진을 본다 → 사이즈 가이드를 본다 → 일단 시킨다 → 반품한다"의 무한 루프였다. 패션 e-commerce의 가장 큰 비용은 **반품 물류**였고, 의류 카테고리의 반품률은 30~40%에 달했다.

2026년의 풍경은 다르다.

- **IDM-VTON, OOTDiffusion, CatVTON, Outfit Anyone, StableVITON, MMTryon** — diffusion 기반 Virtual Try-On 모델들이 1024x768 해상도에서 실사 수준의 피팅 이미지를 만든다.

- **Google Shopping**, **Amazon Virtual Try-On for Shoes**, **Nike Fit**, **Warby Parker** — 상용 리테일이 모바일에서 VTON을 표준 기능으로 제공한다.

- 한국의 **무신사 비주얼 서치**, **에이블리 AI 추천**, **퍼펙트핏 VTON**, **블랙핀 보디 측정**, **Doodle AI** — 패션 AI가 K-패션의 인프라가 되고 있다.

- 일본의 **ZOZOSUIT**, **ZOZOMAT** — 입는 도트 슈트와 발 측정 매트로 사이징을 디지털화했다.

- **Cala** (Adobe 인수), **Resleeve.ai**, **Mosaic** — AI가 디자이너 어시스턴트를 넘어 컬렉션을 같이 만든다.

옷은 더 이상 "추측해서 사는 것"이 아니다. 입어보고 사는 것이다 — 화면 위에서. 이 글은 그 변화의 전 지형을 한 번에 정리한다.

> 한 줄 요약: **"누구의 몸에, 어떤 옷을, 어떤 해상도와 신뢰도로 보여주고, 누가 비용을 부담하는가."** 이 네 질문이 패션 AI 선택의 90%를 결정한다.

1장 · Virtual Try-On 이 왜 2026년에 폭발했는가

VTON 의 가치 명제는 단순하다.

- **전환율(conversion rate)** — 입어본 옷은 산다. 평균 +20~40%.

- **반품률(return rate)** — 핏을 미리 보면 반품이 준다. 평균 -15~30%.

- **체류 시간** — VTON 상품 페이지 체류는 일반 PDP 대비 2~3배.

- **신규 카테고리** — 안경, 시계, 신발, 메이크업, 헤어까지 확장.

여기에 세 가지 기술이 동시에 모였다.

1. **Diffusion 모델** 이 사실적인 이미지 생성을 가능케 했다.

2. **모바일 GPU/NPU** 가 디바이스 측 추론을 가능케 했다.

3. **데이터셋(VITON-HD, DressCode, DeepFashion2)** 이 학습 가능한 양으로 풀렸다.

이 셋이 합쳐지면서 2024~2026년 사이 VTON 은 "데모 영상"에서 "프로덕션 기능"이 되었다.

2장 · VITON-HD — 2021년의 첫 기준점

**VITON-HD** 는 2021년 CVPR 에 발표된 high-resolution VTON 모델이자 동명의 데이터셋이다. 1024x768 해상도, 의류와 모델 사진의 쌍 13K장.

VITON-HD 가 푼 문제는 두 가지였다.

- **clothing-agnostic person representation** — 사람 사진에서 옷 영역을 제거해 "옷 입을 자리"를 만든다.

- **misalignment-aware normalization** — 사람 자세와 옷의 핏 차이를 정규화한다.

GAN 기반이었기 때문에 결과물이 부자연스러운 부분이 있었고, 특히 손·소매·로고에서 아티팩트가 자주 보였다. 그럼에도 1024 라인 해상도와 페어 데이터셋은 이후 모든 VTON 연구의 출발점이 됐다.

3장 · HR-VITON · GP-VTON — diffusion 전야의 GAN 시대

VITON-HD 다음 세대로 **HR-VITON** (ECCV 2022) 과 **GP-VTON** (CVPR 2023) 이 나왔다.

- **HR-VITON** — try-on condition generator 와 image generator 를 분리해 학습 안정성을 높였다. 손·머리카락 영역의 아티팩트가 감소했다.

- **GP-VTON** — Global Parsing-based Virtual Try-On. 의류를 부위별로 분해(예: 소매·몸통·칼라)해 더 정밀하게 합성한다.

이 시기의 공통 한계는 **GAN 의 모드 붕괴(mode collapse)** 와 **새로운 의류·자세에 대한 일반화 부족** 이었다. 사람 사진과 옷 사진을 학습 분포 안에서만 잘 합성했고, 실세계의 다양한 자세·체형·복잡 무늬에는 약했다.

이 한계를 풀기 위해 diffusion 모델이 들어왔다.

4장 · IDM-VTON — diffusion 기반 VTON 의 사실상 표준

**IDM-VTON** (Improving Diffusion Models for Virtual Try-On, Choi et al, ECCV 2024) 은 2024~2026 동안 가장 많이 인용·재구현된 diffusion VTON 모델이다.

핵심 아이디어는 **"의류 정보를 두 경로로 동시에 주입"** 한다.

1. **GarmentNet** — 의류 이미지를 visual feature 로 인코딩해 cross-attention 으로 주입.

2. **PromptNet** — 의류 텍스트 설명(예: "white short-sleeve shirt with blue stripes") 을 텍스트 feature 로 인코딩해 추가 조건으로 사용.

이 dual conditioning 덕에 단일 의류 이미지만 있을 때보다 색감·텍스처·로고 보존이 훨씬 좋아졌다.

IDM-VTON 추론 — pseudo-flow

1. 사람 이미지 + 의류 이미지를 받는다

2. clothing-agnostic mask 를 만든다

3. GarmentNet 으로 의류를 인코딩

4. PromptNet 으로 의류 텍스트를 인코딩

5. Stable Diffusion 기반 backbone 으로 합성

H100 또는 RTX 4090 에서 ~3-5초/장

IDM-VTON 의 HuggingFace 체크포인트는 오픈소스 커뮤니티의 사실상 baseline 이 됐다. ComfyUI 노드와 Replicate API 가 모두 IDM-VTON 을 첫 구현으로 채택했다.

5장 · OOTDiffusion — 분포 밖 의류까지 다룬다

**OOTDiffusion** (Outfitting Fusion based Latent Diffusion, Xu et al, 2024) 은 IDM-VTON 과 비슷한 시기에 나왔지만 설계 철학이 다르다.

- **garment fusion** — 의류 latent 와 사람 latent 를 같은 UNet 안에서 self-attention 으로 섞는다. 별도 cross-attention 모듈을 두지 않는다.

- **out-of-distribution generalization** — 학습 분포에 없는 의류(예: 일반적이지 않은 무늬·구조) 에도 더 강건하다.

OOTDiffusion 은 상의·하의·드레스를 모두 지원하는 단일 모델이며, half-body 와 full-body 두 변형이 있다. half-body 는 상의 한 벌의 사실성을 극대화하고, full-body 는 의상 한 세트의 일관성을 우선한다.

오픈소스 코드와 가중치가 GitHub 의 levihsu/OOTDiffusion 에 공개돼 있으며, 한국·일본 패션 스타트업의 PoC 가 가장 자주 시작하는 모델이다.

6장 · CatVTON — concatenation 만으로 충분하다

**CatVTON** (Chong et al, 2024) 의 메시지는 도발적이다. "복잡한 의류 인코더 없이도, 단순한 concatenation 만으로 SOTA 에 근접한다."

설계 골자.

- 의류 이미지와 사람 이미지를 latent 공간에서 **채널 방향으로 단순 연결**.

- 추가 모듈 없이 Stable Diffusion inpainting backbone 을 그대로 fine-tune.

- 학습 파라미터가 IDM-VTON 의 약 1/10.

이 모델은 "왜 그동안 모두가 GarmentNet 을 따로 만들었는가" 라는 질문을 던졌다. 답은 "그럴 필요가 없었다" 였다. 단순함의 효율 — 추론 속도가 빠르고, 학습이 쉽고, 통합이 간단하다. 모바일 디바이스 측 VTON 의 후보로 자주 거론된다.

7장 · Outfit Anyone — Alibaba 의 학습 없는 의류 합성

**Outfit Anyone** (Sun et al, Alibaba, 2024) 은 두 가지 점에서 특이하다.

1. **training-free** — 별도 fine-tune 없이 pretrained Stable Diffusion 위에서 작동한다.

2. **multi-garment** — 상·하의·드레스 동시 합성을 지원한다.

핵심은 두 단계 inversion 과 mask-guided attention manipulation. 사람과 의류를 각각 inversion 한 뒤 latent 공간에서 영역을 교환한다.

장점은 학습 비용 0, 의류 종류 무제한. 단점은 사실성과 디테일 보존이 IDM-VTON 만큼은 아니다. 하지만 "내가 가진 사진을 그대로 쓰고 학습 없이 시도해보고 싶다" 는 사용자에게는 1순위 선택지다.

8장 · StableVITON — Stable Diffusion 의 직계 자손

**StableVITON** (Kim et al, CVPR 2024) 은 이름 그대로 Stable Diffusion 의 직계로 설계됐다. 핵심 기여는 **zero cross-attention** — Stable Diffusion 의 기존 cross-attention 가중치를 보존하면서 의류 정보만 별도 경로로 주입한다.

이렇게 하면 두 가지 효과가 있다.

- Stable Diffusion 의 텍스트 이해 능력을 그대로 가져간다.

- 의류 텍스처와 패턴 보존이 강하다.

**StableVITON** 은 ComfyUI 커뮤니티에서 IDM-VTON 다음으로 많이 쓰이는 백본이며, Stable Diffusion 1.5/SDXL 기반 두 변형이 있다.

9장 · MMTryon — multi-modal 입력으로 가는 길

**MMTryon** (Zhang et al, 2024) 은 입력 모달리티 자체를 확장했다.

- **image** — 의류 이미지

- **text** — 의류 설명("a navy blazer with gold buttons")

- **garment sketch** — 손으로 그린 스케치

- **garment composition** — 여러 의류의 조합

이렇게 입력을 다양화하면 "옷이 사진으로 없을 때도" 시도할 수 있다. 디자이너가 스케치로 핏을 보거나, 일반 사용자가 텍스트만으로 옷을 시뮬레이션하는 용도다.

다만 image-conditioned 만큼의 사실성을 text/sketch 만으로 내기는 어렵고, 보통 image 와의 hybrid 로 쓰인다.

10장 · FitDiT · TPD · GR-VTON — 후속 변형들

2025~2026 사이 IDM-VTON·OOTDiffusion 의 변형이 쏟아졌다.

- **FitDiT** — Diffusion Transformer (DiT) 백본을 VTON 에 적용. 더 큰 모델, 더 긴 학습. 이미지 사실성이 좋아진다.

- **TPD** (Texture-Preserving Diffusion) — 의류 텍스처와 무늬의 보존을 극대화. 체크·플로럴 패턴에서 강하다.

- **GR-VTON** (Garment-Region VTON) — 의류를 영역별로 분리(소매·몸통·칼라) 해 부위별 처리.

- **FashionFit** — 사이즈 가이드까지 같이 출력하는 종합 솔루션.

이 변형들은 모두 IDM-VTON 의 dual-conditioning 패턴을 공유하면서 백본·attention·loss 를 한 가지씩 바꾼다. 2026년의 VTON 연구는 "다음 큰 아이디어" 보다 "기존 패턴의 정밀화" 단계에 있다.

11장 · 데이터셋 — VITON-HD · DressCode · DeepFashion · VTONHD-Public

VTON 모델은 데이터에 운명을 건다. 2026년 표준 데이터셋은 네 개다.

| 데이터셋 | 규모 | 해상도 | 특징 |

| --- | --- | --- | --- |

| VITON-HD | ~13K pairs | 1024x768 | 상의 한 종류, 정면 자세 |

| DressCode | ~50K pairs | 1024x768 | 상의·하의·드레스 세 카테고리 |

| DeepFashion | ~800K images | variable | 이미지 단독 (페어 아님) |

| DeepFashion2 | ~490K images | variable | 13개 카테고리, 8개 자세 |

| VTONHD-Public | ~5K pairs | 1024x768 | 비상업 공개판 |

대부분 모델은 VITON-HD 와 DressCode 의 조합으로 학습한다. DeepFashion 류는 의류 분류·랜드마크·세그멘테이션 같은 보조 작업에 쓴다. 한국·일본 사용자 데이터로 추가 fine-tune 하는 것이 K-패션·J-패션 스타트업의 표준 패턴이다.

12장 · Doodle AI — 한국발 VTON 서비스

**Doodle AI** 는 한국에서 시작된 Virtual Try-On 서비스로, 의류 브랜드와 e-commerce 에 VTON API 를 제공한다. 사용자가 자기 사진 한 장을 올리면 카탈로그의 의류를 가상으로 입어볼 수 있다.

특징.

- **한국형 체형 데이터** — 동아시아 체형에 맞춘 fine-tune.

- **로컬 호스팅 옵션** — 한국 데이터센터에서의 추론을 제공.

- **모바일 SDK** — iOS/Android 앱에 통합 가능한 SDK 제공.

K-패션 e-commerce 의 일부(특히 중소·중견 브랜드) 가 Doodle AI 같은 전문 서비스를 통해 자체 모델 구축 비용을 피하고 VTON 을 도입한다.

13장 · Vue.ai · 3DLook · Zeekit · Bold Metrics — 해외 상용 솔루션

해외에는 패션 AI 의 분업이 더 뚜렷하다.

- **Vue.ai** (Mad Street Den) — 리테일 패션 AI 의 1세대. 카탈로그 자동 태깅·이미지 향상·VTON 까지 제공.

- **3DLook YourFit** — 2장의 사진으로 정확한 보디 측정. 사이즈 추천이 강점.

- **Zeekit** — 2021년 Walmart 에 인수. Walmart 앱 내 VTON 의 기반 기술.

- **Bold Metrics** — 키·몸무게 입력 기반 사이즈 추천 솔루션. 미국 의류 브랜드 다수 채용.

- **Snap AR Try-On** — Snap 의 AR Mirror 기술. 안경·메이크업·신발 카테고리에서 강하다.

이들은 VTON 만 하는 곳, 사이징만 하는 곳, AR 만 하는 곳으로 전문화돼 있고 브랜드는 보통 둘 이상을 조합한다.

14장 · Amazon · Google Shopping · Nike Fit — 빅테크의 VTON

빅테크가 VTON 을 자기 플랫폼에 흡수한 사례.

- **Amazon Virtual Try-On for Shoes** — Amazon Fashion 앱에서 신발을 가상으로 신어본다.

- **Google Shopping virtual try-on** — 2023년 여성 상의로 시작해 2024년 9월 확대. 자기 체형과 가까운 모델로 옷을 미리 본다.

- **Nike Fit** — 발 사진으로 정확한 사이즈를 추천. Nike 앱의 핵심 기능.

- **Warby Parker virtual try-on** — 안경을 얼굴에 합성. iPhone TrueDepth 카메라 활용.

- **Fenty Beauty Pro Filt'r**, **L'Oreal Modiface** — 메이크업 색조·립스틱·아이섀도를 실시간 합성.

이들은 "VTON 을 별도 앱으로" 가 아니라 "쇼핑 흐름의 자연스러운 일부" 로 만들었다. 별도 학습 없이 카탈로그 단의 메타데이터만으로 적용되는 솔루션이라는 점에서 패션 AI 의 상품화 가능성을 보여준다.

15장 · 무신사 · 에이블리 · 퍼펙트핏 · 블랙핀 — 한국 패션 AI

한국에서는 e-commerce 플랫폼이 자체 AI 팀을 키우는 흐름이 강하다.

- **무신사 (Musinsa)** — 비주얼 서치·스타일 추천 AI. 사용자가 사진을 올리면 비슷한 상품을 찾아준다.

- **에이블리 (ABLY)** — 개인화 추천 AI 가 핵심. 의류 카테고리에 특화된 협업 필터링과 콘텐츠 기반 추천 결합.

- **퍼펙트핏 (PerfectFit)** — VTON 전문 스타트업. 의류 브랜드 대상 B2B SaaS.

- **블랙핀 (Blackpin)** — 보디 측정 기술. 키·몸무게·체형 입력으로 정확한 사이즈 추천.

- **컬쳐랜드 (Cultureland)** — 일부 가맹점에서 가상 피팅 도입.

K-패션은 사이즈 표가 브랜드마다 다른 점이 큰 마찰이었는데, 블랙핀·퍼펙트핏 같은 솔루션이 이걸 줄이고 있다.

16장 · ZOZOSUIT · ZOZOMAT · ASNAS — 일본의 보디 측정 진화

일본은 보디 측정에 더 깊이 들어간다.

- **ZOZOSUIT** — ZOZO 가 만든 도트 패턴 슈트. 사용자가 입고 스마트폰으로 회전 영상을 찍으면 보디 360도가 측정된다. 2018년 출시 후 수백만 명 배포.

- **ZOZOMAT** — 발 측정용 매트. 신발 사이즈를 정확히 추천.

- **ZOZOGLASS** — 얼굴 측정으로 메이크업 색조를 매칭.

- **ASNAS** — VTON 서비스. 일본 의류 브랜드에 통합.

- **Furusato** — 추천 시스템 기반 패션 AI.

ZOZO 의 측정 데이터는 이후 다른 일본 의류 브랜드의 사이즈 표준화에 영향을 줬다. "내 ZOZOSUIT 사이즈" 가 브랜드 간 호환 단위가 된 셈이다.

17장 · Cala · Mosaic · Resleeve.ai — AI 디자인과 컬렉션 생성

VTON 이 "있는 옷을 입어보는 것" 이라면, AI 디자인은 "옷 자체를 만드는 것" 이다.

- **Cala** — 2024년 Adobe 가 인수한 패션 디자인 플랫폼. 텍스트·스케치에서 의상 디자인 생성, 패턴 출력, 공장 발주까지 한 흐름.

- **Mosaic** — AI 컬렉션 생성. 브랜드 톤·시즌·트렌드를 입력하면 룩북을 만든다.

- **Resleeve.ai** — 의상 디자인 생성. 디자이너 어시스턴트 포지셔닝.

- **The Fabricant** — 디지털 패션. 실물 없이 디지털로만 존재하는 의상을 만든다.

이들은 "디자이너 대체" 가 아니라 "디자이너의 50개 시안을 10분 만에 만들어보는 도구" 로 자리잡았다. 패스트 패션 브랜드의 시즌 사이클이 더 짧아지는 동력이기도 하다.

18장 · 보디 사이징과 3D 핏 — Apple Reality Composer · Maison Meta · Vsble

피팅의 마지막 퍼즐은 3D 보디 모델이다.

- **Apple Reality Composer Pro / RealityKit** — visionOS 26 에서 사용자의 LiDAR 데이터로 3D 보디 모델 생성. 가상 옷장 시나리오.

- **Maison Meta** — 패션 3D 자산 플랫폼. 의류·악세서리의 3D 모델 라이브러리.

- **Vsble** — 가상 쇼룸. 3D 보디 위에 의상을 실시간으로 입혀본다.

- **CLO 3D** / **Browzwear** — 패션 디자인용 3D 의상 시뮬레이션 소프트웨어. 디자이너가 패턴을 만들면 3D 마네킹 위에서 핏을 확인.

3D 접근은 학습 데이터가 적어도 물리 시뮬레이션으로 핏을 만들 수 있다는 장점이 있고, 반면 사실적인 텍스처와 조명을 만들기는 어렵다. 그래서 2026년의 추세는 **3D 시뮬레이션 + diffusion 렌더링** 의 결합이다.

19장 · ComfyUI 와 오픈소스 VTON 워크플로

ComfyUI 는 노드 기반 Stable Diffusion 워크플로 툴로, 2024~2026 사이 VTON 의 사실상 실험실이 됐다.

- **IDM-VTON 노드** — IDM-VTON 의 추론을 ComfyUI 노드로 래핑.

- **OOTDiffusion 노드** — half-body 와 full-body 두 변형 지원.

- **StableVITON 노드** — Stable Diffusion 1.5/SDXL 백본 선택.

- **CatVTON 노드** — 가장 가벼운 노드. 단일 GPU 에서도 빠르다.

일반 흐름.

[사람 이미지] ─┐

├─> [Garment Encoder] ─> [Inpainting Diffusion] ─> [출력]

[의류 이미지] ─┘

[자세 추출(OpenPose/DWPose)]

[의류 마스크(SAM/SCHP)]

오픈소스 워크플로 덕에 소규모 패션 브랜드도 자체 VTON PoC 를 며칠 안에 만들 수 있다.

20장 · AI 런웨이 — NYFW · Milan · 디지털 패션 위크

VTON 이 소비자 사이드라면, AI 런웨이는 산업 사이드다.

- **NYFW 2025·2026** — Pinar&Viola, Collina Strada 같은 브랜드가 AI 생성 의상을 런웨이에 올렸다.

- **Milan Fashion Week** — Maison Meta 같은 3D 디지털 자산이 데뷔.

- **Metaverse Fashion Week** — Decentraland·Spatial 등에서 진행된 디지털 전용 패션 위크. NFT 패션의 정점이자 동시에 그 한계가 드러난 자리.

- **AI fashion editorial** — Vogue·Harper's Bazaar 가 AI 생성 의상을 본지 화보에 채택.

NFT 패션의 1차 붐(2021~2023) 은 식었지만, AI 생성 의상의 실용적 응용(룩북·광고·디자인 시안) 은 오히려 정착했다.

21장 · AI 패션 검색과 비주얼 서치

옷의 발견(discovery) 도 AI 가 바꾸고 있다.

- **Pinterest Lens** — 이미지로 비슷한 옷을 찾는 검색. 2017년 시작.

- **Google Shopping 이미지 검색** — Google Lens 기반.

- **무신사 비주얼 서치** — K-패션 카탈로그 안에서 이미지 검색.

- **에이블리 AI 추천** — 사용자 클릭·구매 이력 기반 협업 필터링.

- **TikTok Shop** — 영상 안의 옷을 클릭으로 구매. CLIP/SigLIP 류 임베딩 활용.

핵심 기술은 **multi-modal embedding** — CLIP·SigLIP·EVA-02·DINOv2 같은 이미지·텍스트 통합 임베딩으로 옷의 시각적 유사성을 측정한다.

22장 · 윤리 — 보디 이미지, 다양성, 프라이버시

패션 AI 의 어두운 면.

1. **보디 이미지** — VTON 이 "마른 모델 위에 옷을 보여주는" 데 머무르면 보디 이미지 문제가 강화된다. 다양한 체형의 baseline model 이 필요하다.

2. **다양성** — 학습 데이터의 인종·체형·연령 편향이 출력에 그대로 반영된다. VITON-HD 는 절대 다수가 백인·아시아 여성 정면 사진이다.

3. **프라이버시** — 보디 스캔·얼굴 사진은 매우 민감한 데이터다. 디바이스 측 추론 또는 short-retention 정책이 필요하다.

4. **모델 워터마크** — 합성 이미지의 워터마크(C2PA, SynthID) 가 점차 의무화되는 흐름.

5. **저작권** — 학습 데이터에 포함된 디자이너 의상의 저작권 문제. 일부 디자이너가 학습 거부를 요청.

EU AI Act 와 한국의 AI 기본법은 보디·얼굴 데이터를 생체 정보(biometric data) 로 분류하며, 보관·처리에 동의·고지·삭제 요청권을 요구한다.

23장 · 하드웨어와 추론 비용

VTON 의 추론 비용은 의외로 큰 문제다.

- **H100 / A100** — IDM-VTON 1024 해상도 추론 3~5초/장. 대형 e-commerce 가 쓰는 백엔드.

- **RTX 4090 / RTX 5090** — 4~6초/장. 소규모 사업자의 자체 호스팅 후보.

- **Apple M3/M4** — CatVTON 류의 경량 모델이면 10~20초/장. 디바이스 측 추론 가능.

- **모바일 NPU(Snapdragon 8 Gen 4, Apple Neural Engine)** — quantization 후 10~30초. 실시간은 아니다.

대규모 e-commerce 의 VTON 비용은 **상품 조회당 ~$0.001-0.01** 수준이며, 전환율 상승으로 충분히 ROI 가 나온다. 다만 매월 수십억 장의 추론이 누적되면 GPU 캐파 자체가 병목이 된다. 2026년의 트렌드는 **batch + cache + quantization** 으로 단가를 1/10 로 줄이는 것이다.

24장 · 2026년 이후 — 패션 AI 의 다음 5년

마지막으로 향후 5년의 흐름.

1. **실시간 VTON** — 영상 위에 옷을 실시간 합성. 라이브 커머스·줌 회의·SNS 영상에서.

2. **개인 모델(personal avatar)** — 사용자가 자기 보디 모델을 한 번 만들면 어디서나 재사용.

3. **3D + diffusion 하이브리드** — 물리적 핏은 3D 가, 사실적 렌더는 diffusion 이.

4. **패스트 디자인** — 트렌드 → 디자인 → 패턴 → 생산을 일주일로 압축.

5. **AR 거울** — 매장 거울이 VTON 디스플레이가 된다. 일본의 일부 백화점에서 시범 운영 중.

6. **사이즈 표준화** — 글로벌 사이즈를 보디 측정 기반으로 통합. ZOZOSUIT 사이즈가 사실상의 단위가 될 수도.

7. **윤리·라벨링 의무화** — AI 생성 의류 이미지에 출처 라벨 부착.

8. **디자이너 권리** — 학습 데이터에 포함된 디자이너에게 ledger 기반 보상을 지급하는 모델 등장.

옷의 디지털화는 음악·영화의 디지털화와는 다르다. 옷은 결국 입어야 한다. 그래서 AI 패션의 미래는 "디지털만의 옷" 이 아니라 "디지털과 물리를 잇는 다리" 다.

에필로그 — 어디서부터 시작할까

이 글에서 다룬 도구가 너무 많다고 느껴지면, 다음 학습 경로를 추천한다.

1. **이론** — VITON-HD 와 IDM-VTON 의 논문을 먼저 읽는다. GAN 에서 diffusion 으로의 진화 한 줄을 잡는다.

2. **실습 (오픈소스)** — HuggingFace 의 IDM-VTON 데모로 자기 사진을 올려본다. 의류 사진과의 합성 결과를 본다.

3. **워크플로 (ComfyUI)** — IDM-VTON 노드를 ComfyUI 에서 실행. 의류 마스크와 자세 추출의 영향을 본다.

4. **상용 서비스** — Doodle AI·Vue.ai·3DLook 의 데모를 비교. B2B SaaS 의 패키징 차이를 본다.

5. **사이즈 측정** — ZOZOSUIT·Bold Metrics 의 측정 흐름을 본다. 사이즈 추천이 어떻게 달라지는지 느낀다.

> "누구의 몸에, 어떤 옷을, 어떤 해상도와 신뢰도로 보여주고, 누가 비용을 부담하는가." 이 네 질문을 들고 다시 본문을 훑으면, 패션 AI 선택은 의외로 명확해진다.

— AI 패션 & VTON 2026, 끝.

References

1. Choi, Y. et al. (2024). "IDM-VTON: Improving Diffusion Models for Authentic Virtual Try-On." ECCV 2024. [https://arxiv.org/abs/2403.05139](https://arxiv.org/abs/2403.05139)

2. Xu, Y. et al. (2024). "OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-On." [https://arxiv.org/abs/2403.01779](https://arxiv.org/abs/2403.01779)

3. Chong, Z. et al. (2024). "CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models." [https://arxiv.org/abs/2407.15886](https://arxiv.org/abs/2407.15886)

4. Sun, K. et al. (2024). "Outfit Anyone: Ultra-high quality virtual try-on for any clothing and any person." [https://humanaigc.github.io/outfit-anyone/](https://humanaigc.github.io/outfit-anyone/)

5. Kim, J. et al. (2024). "StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On." CVPR 2024. [https://arxiv.org/abs/2312.01725](https://arxiv.org/abs/2312.01725)

6. Choi, S. et al. (2021). "VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization." CVPR 2021. [https://arxiv.org/abs/2103.16874](https://arxiv.org/abs/2103.16874)

7. Lee, S. et al. (2022). "High-Resolution Virtual Try-On with Misalignment and Occlusion-Handled Conditions (HR-VITON)." ECCV 2022. [https://arxiv.org/abs/2206.14180](https://arxiv.org/abs/2206.14180)

8. Xie, Z. et al. (2023). "GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning." CVPR 2023. [https://arxiv.org/abs/2303.13756](https://arxiv.org/abs/2303.13756)

9. Morelli, D. et al. (2022). "Dress Code: High-Resolution Multi-Category Virtual Try-On." CVPR 2022. [https://arxiv.org/abs/2204.08532](https://arxiv.org/abs/2204.08532)

10. Liu, Z. et al. (2016). "DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations." [https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html](https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html)

11. Ge, Y. et al. (2019). "DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images." [https://github.com/switchablenorms/DeepFashion2](https://github.com/switchablenorms/DeepFashion2)

12. Zhang, X. et al. (2024). "MMTryon: Multi-Modal Multi-Reference Virtual Try-On." [https://arxiv.org/abs/2405.00448](https://arxiv.org/abs/2405.00448)

13. Google. "Try on clothes virtually with generative AI in Search." [https://blog.google/products/shopping/virtual-try-on-google-generative-ai/](https://blog.google/products/shopping/virtual-try-on-google-generative-ai/)

14. Amazon. "Virtual Try-On for Shoes." [https://www.aboutamazon.com/news/retail/virtual-try-on-for-shoes](https://www.aboutamazon.com/news/retail/virtual-try-on-for-shoes)

15. Nike. "Nike Fit." [https://news.nike.com/news/nike-fit-digital-foot-measurement-tool](https://news.nike.com/news/nike-fit-digital-foot-measurement-tool)

16. Warby Parker. "Virtual Try-On." [https://www.warbyparker.com/virtual-try-on](https://www.warbyparker.com/virtual-try-on)

17. ZOZO. "ZOZOSUIT." [https://zozo.jp/zozosuit/](https://zozo.jp/zozosuit/)

18. ZOZO. "ZOZOMAT." [https://zozo.jp/zozomat/](https://zozo.jp/zozomat/)

19. Musinsa Tech. "무신사 비주얼 서치." [https://www.musinsa.com/](https://www.musinsa.com/)

20. ABLY Corp. "에이블리 AI 추천." [https://ably.co.kr/](https://ably.co.kr/)

21. Adobe. "Cala — AI-powered fashion design." [https://ca.la/](https://ca.la/)

22. Resleeve.ai. "AI Fashion Design." [https://www.resleeve.ai/](https://www.resleeve.ai/)

23. ComfyUI. "ComfyUI VTON workflows." [https://github.com/comfyanonymous/ComfyUI](https://github.com/comfyanonymous/ComfyUI)

24. HuggingFace. "IDM-VTON model card." [https://huggingface.co/yisol/IDM-VTON](https://huggingface.co/yisol/IDM-VTON)

현재 단락 (1/203)

2019년만 해도 "온라인에서 옷을 산다"는 건 "상품 사진을 본다 → 사이즈 가이드를 본다 → 일단 시킨다 → 반품한다"의 무한 루프였다. 패션 e-commerce의 가장 큰 비...

작성 글자: 0원문 글자: 14,018작성 단락: 0/203