Skip to content
Published on

AIファッション & バーチャル試着 (Virtual Try-On) 2026 完全ガイド - IDM-VTON · OOTDiffusion · CatVTON · Outfit Anyone · StableVITON · Doodle AI · MMTryon · DressCode 徹底解説

Authors

プロローグ — 2026年、服を見ずに買う時代は終わった

2019年頃まで「ネットで服を買う」とは、商品写真を見て、サイズガイドを見て、とりあえず注文し、返品する、という無限ループだった。ファッションEコマースの最大コストは返品物流であり、アパレルカテゴリの返品率は30〜40%に達していた。

2026年の風景は違う。

  • IDM-VTON, OOTDiffusion, CatVTON, Outfit Anyone, StableVITON, MMTryon — diffusionベースのVirtual Try-Onモデルが1024x768解像度で実写水準のフィッティング画像を生成する。
  • Google Shopping, Amazon Virtual Try-On for Shoes, Nike Fit, Warby Parker — 商用リテールがモバイルでVTONを標準機能として提供する。
  • 韓国のムシンサのビジュアルサーチ, ABLYのAI推薦, パーフェクトフィットのVTON, Blackpinのボディ計測, Doodle AI — ファッションAIがK-ファッションのインフラになりつつある。
  • 日本のZOZOSUIT, ZOZOMAT — 着るドットスーツと足計測マットでサイジングをデジタル化した。
  • Cala (Adobe買収), Resleeve.ai, Mosaic — AIがデザイナーのアシスタントを超え、コレクションを共に作る段階に。

服はもはや「推測して買うもの」ではない。試着してから買うものだ — 画面の上で。本稿はこの変化の全領域を一度に整理する。

一行要約: 「誰のからだに、どの服を、どの解像度と信頼度で見せ、誰がコストを負担するのか。」 この4つの問いがファッションAIの選択の9割を決める。


第1章 · なぜVirtual Try-Onが2026年に爆発したのか

VTONの価値命題は単純だ。

  • コンバージョン率 — 試着した服は買われる。平均で+20〜40%。
  • 返品率 — フィットを事前に見れば返品は減る。平均で-15〜30%。
  • 滞在時間 — VTON商品ページの滞在は通常のPDPの2〜3倍。
  • 新カテゴリ — メガネ, 時計, 靴, メイク, ヘアまで拡張。

ここに3つの技術が同時に揃った。

  1. Diffusionモデルが写実的な画像生成を可能にした。
  2. モバイルGPU/NPUがデバイス側推論を可能にした。
  3. **データセット(VITON-HD, DressCode, DeepFashion2)**が学習可能な規模で公開された。

この3つが揃った2024〜2026年の間に、VTONは「デモ動画」から「本番機能」へ昇格した。


第2章 · VITON-HD — 2021年の最初のベンチマーク

VITON-HD は2021年CVPRで発表された高解像度VTONモデルであり、同名のデータセットでもある。1024x768解像度、衣服とモデル写真のペアが13K組。

VITON-HDが解いた課題は2つ。

  • clothing-agnostic person representation — 人物写真から服の領域を消去し「服を着る場所」を作る。
  • misalignment-aware normalization — 人物の姿勢と服のフィットの差を正規化する。

GANベースだったため不自然な部分があり、特に手・袖・ロゴでアーティファクトが目立った。それでも1024ライン解像度とペアデータセットは、その後のVTON研究すべての出発点になった。


第3章 · HR-VITON · GP-VTON — diffusion前夜のGAN時代

VITON-HDの次世代として HR-VITON (ECCV 2022) と GP-VTON (CVPR 2023) が登場した。

  • HR-VITON — try-on condition generator と image generator を分離し、学習の安定性を高めた。手・髪のアーティファクトが減少。
  • GP-VTON — Global Parsing-based Virtual Try-On。衣服を部位別(袖・胴・襟など)に分解し、より精密に合成する。

この時期の共通の限界は GANのモード崩壊新しい衣服や姿勢への一般化の弱さ だった。学習分布内の人物・衣服はよく合成できたが、実世界の多様な姿勢・体型・複雑な柄には弱かった。

これを破るためにdiffusionが登場した。


第4章 · IDM-VTON — diffusionベースVTONの事実上の標準

IDM-VTON (Improving Diffusion Models for Virtual Try-On, Choi et al, ECCV 2024) は2024〜2026年で最も引用・再実装されたdiffusion VTONモデルである。

核となるアイデアは 「衣服情報を2経路で同時に注入する」

  1. GarmentNet — 衣服画像をvisual featureにエンコードしてcross-attentionで注入。
  2. PromptNet — 衣服のテキスト記述("white short-sleeve shirt with blue stripes")をtext featureにエンコードして追加条件として使用。

dual conditioningのおかげで、単一の衣服画像だけの場合より色・テクスチャ・ロゴの保存が格段に改善された。

# IDM-VTON 推論 — 疑似フロー
# 1. 人物画像と衣服画像を受け取る
# 2. clothing-agnostic mask を作る
# 3. GarmentNet で衣服をエンコード
# 4. PromptNet で衣服テキストをエンコード
# 5. Stable Diffusion ベースのbackboneで合成
# H100 または RTX 4090 で ~3-5秒/枚

IDM-VTONのHuggingFaceチェックポイントはオープンソースコミュニティの事実上のbaselineになった。ComfyUIノードとReplicate APIはどちらもIDM-VTONを最初の参照実装として採用した。


第5章 · OOTDiffusion — 分布外の衣服まで扱う

OOTDiffusion (Outfitting Fusion based Latent Diffusion, Xu et al, 2024) はIDM-VTONとほぼ同時期に登場したが、設計思想が異なる。

  • garment fusion — 衣服のlatentと人物のlatentを同じUNet内でself-attentionで混ぜる。別途のcross-attentionモジュールを持たない。
  • out-of-distribution generalization — 学習分布外の衣服(一般的でない柄や構造)にもより頑健。

OOTDiffusionは上下とドレスを全て一つのモデルでサポートし、half-bodyとfull-bodyの2バリアントがある。half-bodyは単一の衣服の写実性を最大化し、full-bodyは衣装一式の一貫性を優先する。

オープンソースのコードと重みがGitHubのlevihsu/OOTDiffusionに公開されており、韓国・日本のファッションスタートアップのPoCで最も多く出発点になるモデルだ。


第6章 · CatVTON — concatenationだけで十分だ

CatVTON (Chong et al, 2024) のメッセージは挑発的だ。「複雑な衣服エンコーダなしでも、単純なconcatenationだけでSOTAに迫る。」

設計の骨子。

  • 衣服画像と人物画像をlatent空間で チャネル方向に単純連結 する。
  • 追加モジュールなしでStable Diffusion inpainting backboneをそのままfine-tune。
  • 学習パラメータがIDM-VTONの約1/10。

このモデルは「なぜ皆これまで別途のGarmentNetを作ってきたのか」という問いを投げかけた。答えは「その必要はなかった」だった。シンプルさの効率 — 推論速度が速く、学習が容易で、統合が簡単。モバイルデバイス側VTONの候補として頻繁に挙げられる。


第7章 · Outfit Anyone — Alibabaの学習不要な衣服合成

Outfit Anyone (Sun et al, Alibaba, 2024) は2つの点で特異だ。

  1. training-free — 別途のfine-tuneなしでpretrained Stable Diffusion上で動作する。
  2. multi-garment — 上下・ドレスの同時合成をサポートする。

核は2段階のinversionとmask-guided attention manipulation。人物と衣服をそれぞれinversionしたあと、latent空間で領域を交換する。

長所は学習コストゼロ、衣服種類無制限。短所は写実性とディテール保存がIDM-VTONほどではない。しかし「自分の写真をそのまま使い、学習なしで試したい」というユーザーには第一候補だ。


第8章 · StableVITON — Stable Diffusionの直系

StableVITON (Kim et al, CVPR 2024) は名前の通りStable Diffusionの直系として設計された。核となる貢献は zero cross-attention — Stable Diffusionの既存のcross-attention重みを保存しつつ、衣服情報のみを別経路で注入する。

これにより2つの効果がある。

  • Stable Diffusionのテキスト理解能力をそのまま継承する。
  • 衣服のテクスチャとパターンの保存が強い。

StableVITON はComfyUIコミュニティでIDM-VTONに次いで多用されるbackboneで、Stable Diffusion 1.5とSDXLベースの2バリアントがある。


第9章 · MMTryon — マルチモーダル入力への道

MMTryon (Zhang et al, 2024) は入力モダリティ自体を拡張した。

  • image — 衣服画像
  • text — 衣服の記述("a navy blazer with gold buttons")
  • garment sketch — 手書きスケッチ
  • garment composition — 複数の衣服の組み合わせ

入力を多様化することで「服の写真がなくても」試せる。デザイナーがスケッチでフィットを見たり、一般ユーザーがテキストだけで服をシミュレーションする用途。

ただし image-conditioned ほどの写実性を text/sketch だけで得るのは難しく、通常は image との hybrid で使われる。


第10章 · FitDiT · TPD · GR-VTON — 後続のバリアント

2025〜2026年の間にIDM-VTON · OOTDiffusionのバリアントが続々と登場した。

  • FitDiT — Diffusion Transformer (DiT) backbone を VTON に適用。より大きなモデル、より長い学習。画像写実性が向上。
  • TPD (Texture-Preserving Diffusion) — 衣服のテクスチャと柄の保存を最大化。チェックや花柄に強い。
  • GR-VTON (Garment-Region VTON) — 衣服を領域別(袖・胴・襟)に分けて部位別処理。
  • FashionFit — サイズガイドまで一緒に出力する総合ソリューション。

これらのバリアントはすべてIDM-VTONのdual-conditioningパターンを共有しつつ、backbone · attention · loss を一つずつ変える。2026年のVTON研究は「次の大きなアイデア」より「既存パターンの精密化」段階にある。


第11章 · データセット — VITON-HD · DressCode · DeepFashion · VTONHD-Public

VTONモデルはデータに運命を賭ける。2026年の標準データセットは4つ。

データセット規模解像度特徴
VITON-HD約13Kペア1024x768上着のみ、正面姿勢
DressCode約50Kペア1024x768上着・下着・ドレスの3カテゴリ
DeepFashion約800K画像可変画像単独(ペアではない)
DeepFashion2約490K画像可変13カテゴリ、8姿勢
VTONHD-Public約5Kペア1024x768非商用公開版

ほとんどのモデルはVITON-HDとDressCodeの組み合わせで学習する。DeepFashion系は衣服分類・ランドマーク・セグメンテーションのような補助タスクに使う。韓国・日本のユーザーデータで追加fine-tuneするのがK-ファッション・J-ファッションのスタートアップの標準パターンだ。


第12章 · Doodle AI — 韓国発のVTONサービス

Doodle AI は韓国発のVirtual Try-Onサービスで、アパレルブランドとEコマースにVTON APIを提供する。ユーザーが自分の写真1枚をアップロードすればカタログの衣服をバーチャルに試着できる。

特徴。

  • 韓国型の体型データ — 東アジア体型に合わせたfine-tune。
  • ローカルホスティングオプション — 韓国データセンターでの推論を提供。
  • モバイルSDK — iOS/Androidアプリに統合可能なSDKを提供。

K-ファッションのEコマースの一部(特に中小・中堅ブランド)が、Doodle AIのような専門サービス経由で自前モデル構築のコストを避けてVTONを導入している。


第13章 · Vue.ai · 3DLook · Zeekit · Bold Metrics — 海外の商用ソリューション

海外ではファッションAIの分業がより明確だ。

  • Vue.ai (Mad Street Den) — リテールファッションAIの第一世代。カタログ自動タグ付け · 画像改善 · VTONまで提供。
  • 3DLook YourFit — 2枚の写真で正確なボディ計測。サイズ推薦が強み。
  • Zeekit — 2021年Walmartが買収。Walmartアプリ内VTONの基盤技術。
  • Bold Metrics — 身長 · 体重の入力ベースのサイズ推薦ソリューション。アメリカのアパレルブランド多数が採用。
  • Snap AR Try-On — SnapのAR Mirror技術。メガネ · メイク · 靴のカテゴリに強い。

これらはVTONだけのところ、サイジングだけのところ、ARだけのところで専門化されており、ブランドは通常2つ以上を組み合わせる。


第14章 · Amazon · Google Shopping · Nike Fit — 巨大テックのVTON

巨大テックがVTONを自身のプラットフォームに取り込んだ事例。

  • Amazon Virtual Try-On for Shoes — Amazon Fashionアプリで靴をバーチャルに履く。
  • Google Shopping virtual try-on — 2023年に女性用トップスから始まり、2024年9月に拡張。自分の体型に近いモデルで服を事前に見られる。
  • Nike Fit — 足の写真で正確なサイズを推薦。Nikeアプリの主要機能。
  • Warby Parker virtual try-on — メガネを顔に合成。iPhone TrueDepthカメラを活用。
  • Fenty Beauty Pro Filt'r, L'Oreal Modiface — メイクの色調 · リップ · アイシャドウをリアルタイム合成。

これらは「VTONを別アプリで」ではなく「ショッピングフローの自然な一部」にした。別途学習なしでカタログ側のメタデータだけで適用できるソリューションという点で、ファッションAIの商品化の可能性を示している。


第15章 · ムシンサ · ABLY · パーフェクトフィット · Blackpin — 韓国のファッションAI

韓国ではEコマースプラットフォームが自社AIチームを育てる流れが強い。

  • ムシンサ (Musinsa) — ビジュアルサーチ · スタイル推薦AI。ユーザーが写真を上げると類似商品を見つける。
  • ABLY — パーソナライズ推薦AIが核。アパレルカテゴリに特化した協調フィルタリングとコンテンツベース推薦の結合。
  • パーフェクトフィット (PerfectFit) — VTON専門のスタートアップ。アパレルブランド向けB2B SaaS。
  • Blackpin — ボディ計測技術。身長 · 体重 · 体型入力で正確なサイズ推薦。
  • カルチャーランド (Cultureland) — 一部の加盟店でバーチャル試着を導入。

K-ファッションはサイズ表がブランドごとに違う点が大きな摩擦だったが、Blackpin · パーフェクトフィットのようなソリューションがこれを減らしている。


第16章 · ZOZOSUIT · ZOZOMAT · ASNAS — 日本のボディ計測の進化

日本はボディ計測により深く入る。

  • ZOZOSUIT — ZOZOが作ったドットパターンのスーツ。ユーザーが着てスマホで回転動画を撮ればボディ360度が計測される。2018年発売以降数百万枚配布。
  • ZOZOMAT — 足計測用のマット。靴のサイズを正確に推薦。
  • ZOZOGLASS — 顔計測でメイクの色調をマッチング。
  • ASNAS — VTONサービス。日本のアパレルブランドに統合。
  • Furusato — 推薦システムベースのファッションAI。

ZOZOの計測データはのちに他の日本のアパレルブランドのサイズ標準化にも影響を与えた。「私のZOZOSUITサイズ」がブランド間の互換単位になった格好だ。


第17章 · Cala · Mosaic · Resleeve.ai — AIデザインとコレクション生成

VTONが「既存の服を試着する」ことなら、AIデザインは「服そのものを作る」ことだ。

  • Cala — 2024年にAdobeが買収したファッションデザインプラットフォーム。テキスト · スケッチから衣装デザイン生成、パターン出力、工場発注まで一つの流れに。
  • Mosaic — AIコレクション生成。ブランドのトーン · シーズン · トレンドを入力すればルックブックを作る。
  • Resleeve.ai — 衣装デザイン生成。デザイナーアシスタントのポジショニング。
  • The Fabricant — デジタルファッション。実物なしでデジタルだけに存在する衣装を作る。

これらは「デザイナー代替」ではなく「デザイナーの50個の試案を10分で作る道具」として定着した。ファストファッションブランドのシーズンサイクルがさらに短くなる動力でもある。


第18章 · ボディサイジングと3Dフィット — Apple Reality Composer · Maison Meta · Vsble

フィッティングの最後のピースは3Dボディモデルだ。

  • Apple Reality Composer Pro / RealityKit — visionOS 26 でユーザーのLiDARデータから3Dボディモデルを生成。バーチャルクローゼットシナリオ。
  • Maison Meta — ファッション3DアセットのプラットフォームHall。衣服 · アクセサリーの3Dモデルライブラリ。
  • Vsble — バーチャルショールーム。3Dボディ上に衣装をリアルタイムで試着。
  • CLO 3D / Browzwear — ファッションデザイン向けの3D衣装シミュレーションソフトウェア。デザイナーがパターンを作れば3Dマネキン上でフィットを確認。

3Dアプローチは学習データが少なくても物理シミュレーションでフィットを作れる長所があり、反面で写実的なテクスチャと照明を作るのが難しい。だから2026年のトレンドは 3Dシミュレーション + diffusionレンダリング の結合だ。


第19章 · ComfyUI とオープンソースVTONワークフロー

ComfyUIはノードベースのStable Diffusionワークフローツールで、2024〜2026年の間にVTONの事実上の実験室になった。

  • IDM-VTON ノード — IDM-VTONの推論をComfyUIノードでラップ。
  • OOTDiffusion ノード — half-bodyとfull-bodyの2バリアントをサポート。
  • StableVITON ノード — Stable Diffusion 1.5/SDXLのbackbone選択。
  • CatVTON ノード — 最も軽量なノード。単一GPUでも速い。

一般的なフロー。

[人物画像] ─┐
            ├─> [衣服Encoder] ─> [Inpainting Diffusion] ─> [出力]
[衣服画像] ─┘
[姿勢抽出(OpenPose/DWPose)]
[衣服マスク(SAM/SCHP)]

オープンソースワークフローのおかげで小規模ファッションブランドも自前のVTON PoCを数日で作れる。


第20章 · AIランウェイ — NYFW · Milan · デジタルファッションウィーク

VTONが消費者サイドなら、AIランウェイは産業サイドだ。

  • NYFW 2025 · 2026 — Pinar&Viola, Collina Stradaのようなブランドが AI 生成衣装をランウェイに乗せた。
  • Milan Fashion Week — Maison Metaのような3Dデジタル資産がデビュー。
  • Metaverse Fashion Week — Decentraland · Spatialなどで行われたデジタル専用のファッションウィーク。NFTファッションの頂点であり同時にその限界が露呈した場でもある。
  • AI fashion editorial — Vogue · Harper's BazaarがAI生成衣装を本誌の写真に採用。

NFTファッションの一次ブーム(2021〜2023)は冷めたが、AI生成衣装の実用応用(ルックブック · 広告 · デザイン試案)はむしろ定着した。


第21章 · AIファッション検索とビジュアルサーチ

服の発見(discovery)もAIが変えている。

  • Pinterest Lens — 画像で似た服を探す検索。2017年開始。
  • Google Shopping 画像検索 — Google Lensベース。
  • ムシンサのビジュアルサーチ — K-ファッションカタログ内の画像検索。
  • ABLYのAI推薦 — ユーザーのクリック · 購入履歴ベースの協調フィルタリング。
  • TikTok Shop — 動画内の服をタップで購入。CLIP/SigLIP系の埋め込みを活用。

核となる技術は multi-modal embedding — CLIP · SigLIP · EVA-02 · DINOv2 のような画像 · テキスト統合埋め込みで服の視覚的類似性を測る。


第22章 · 倫理 — ボディイメージ · 多様性 · プライバシー

ファッションAIの暗い面。

  1. ボディイメージ — VTONが「痩せたモデルの上に服を見せる」だけにとどまればボディイメージ問題が強化される。多様な体型のbaseline modelが必要だ。
  2. 多様性 — 学習データの人種 · 体型 · 年齢の偏向が出力にそのまま反映される。VITON-HDは圧倒的多数が白人 · アジア人女性の正面写真だ。
  3. プライバシー — ボディスキャン · 顔写真は非常にセンシティブなデータだ。デバイス側推論やshort-retentionポリシーが必要だ。
  4. モデルウォーターマーク — 合成画像のウォーターマーク(C2PA, SynthID)が徐々に義務化される流れ。
  5. 著作権 — 学習データに含まれたデザイナー衣装の著作権問題。一部のデザイナーが学習拒否を要請。

EU AI Actと韓国のAI基本法はボディ · 顔データを生体情報(biometric data)として分類し、保存 · 処理に同意 · 告知 · 削除請求権を要求する。


第23章 · ハードウェアと推論コスト

VTONの推論コストは意外に大きな問題だ。

  • H100 / A100 — IDM-VTON 1024解像度の推論3〜5秒/枚。大型Eコマースが使うバックエンド。
  • RTX 4090 / RTX 5090 — 4〜6秒/枚。小規模事業者の自前ホスティング候補。
  • Apple M3/M4 — CatVTON系の軽量モデルなら10〜20秒/枚。デバイス側推論が可能。
  • モバイル NPU (Snapdragon 8 Gen 4, Apple Neural Engine) — quantization後10〜30秒。リアルタイムではない。

大規模Eコマースの VTON コストは 商品閲覧当たり 0.001〜0.01米ドル 程度であり、コンバージョン上昇で十分にROIが出る。ただし月に数十億回の推論が累積するとGPUキャパ自体がボトルネックになる。2026年のトレンドは batch + cache + quantization で単価を1/10に減らすことだ。


第24章 · 2026年以降 — ファッションAIの次の5年

最後に向こう5年の流れ。

  1. リアルタイムVTON — 動画上に服をリアルタイム合成。ライブコマース · Zoom会議 · SNS動画で。
  2. 個人モデル(personal avatar) — ユーザーが自分のボディモデルを一度作ればどこでも再利用。
  3. 3D + diffusion ハイブリッド — 物理的フィットは3D、写実的レンダリングはdiffusion。
  4. ファストデザイン — トレンド → デザイン → パターン → 生産を1週間に圧縮。
  5. ARミラー — 店舗のミラーがVTONディスプレイになる。日本の一部百貨店で試験運用中。
  6. サイズ標準化 — グローバルサイズをボディ計測ベースで統合。ZOZOSUITサイズが事実上の単位になる可能性も。
  7. 倫理 · ラベリングの義務化 — AI生成衣類画像に出所ラベル付与。
  8. デザイナー権利 — 学習データに含まれたデザイナーにledgerベースで報酬を支払うモデルが登場。

服のデジタル化は音楽 · 映画のデジタル化とは違う。服は結局、着なければならない。だからAIファッションの未来は「デジタルだけの服」ではなく「デジタルと物理をつなぐ橋」だ。


エピローグ — どこから始めるか

本稿で扱った道具が多すぎると感じたら、次の学習経路を推奨する。

  1. 理論 — VITON-HDとIDM-VTONの論文をまず読む。GANからdiffusionへの進化の一行をつかむ。
  2. 実習(オープンソース) — HuggingFaceのIDM-VTONデモで自分の写真を上げてみる。衣服写真との合成結果を見る。
  3. ワークフロー(ComfyUI) — IDM-VTONノードをComfyUIで実行。衣服マスクと姿勢抽出の影響を見る。
  4. 商用サービス — Doodle AI · Vue.ai · 3DLookのデモを比較。B2B SaaSのパッケージングの違いを見る。
  5. サイズ計測 — ZOZOSUIT · Bold Metricsの計測フローを見る。サイズ推薦がどう変わるかを感じる。

「誰のからだに、どの服を、どの解像度と信頼度で見せ、誰がコストを負担するのか。」この4つの問いを持って本文に戻ると、ファッションAIの選択は意外に明瞭になる。

— AIファッション & VTON 2026、終わり。


References

  1. Choi, Y. et al. (2024). "IDM-VTON: Improving Diffusion Models for Authentic Virtual Try-On." ECCV 2024. https://arxiv.org/abs/2403.05139
  2. Xu, Y. et al. (2024). "OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-On." https://arxiv.org/abs/2403.01779
  3. Chong, Z. et al. (2024). "CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models." https://arxiv.org/abs/2407.15886
  4. Sun, K. et al. (2024). "Outfit Anyone: Ultra-high quality virtual try-on for any clothing and any person." https://humanaigc.github.io/outfit-anyone/
  5. Kim, J. et al. (2024). "StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On." CVPR 2024. https://arxiv.org/abs/2312.01725
  6. Choi, S. et al. (2021). "VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization." CVPR 2021. https://arxiv.org/abs/2103.16874
  7. Lee, S. et al. (2022). "High-Resolution Virtual Try-On with Misalignment and Occlusion-Handled Conditions (HR-VITON)." ECCV 2022. https://arxiv.org/abs/2206.14180
  8. Xie, Z. et al. (2023). "GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning." CVPR 2023. https://arxiv.org/abs/2303.13756
  9. Morelli, D. et al. (2022). "Dress Code: High-Resolution Multi-Category Virtual Try-On." CVPR 2022. https://arxiv.org/abs/2204.08532
  10. Liu, Z. et al. (2016). "DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations." https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
  11. Ge, Y. et al. (2019). "DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images." https://github.com/switchablenorms/DeepFashion2
  12. Zhang, X. et al. (2024). "MMTryon: Multi-Modal Multi-Reference Virtual Try-On." https://arxiv.org/abs/2405.00448
  13. Google. "Try on clothes virtually with generative AI in Search." https://blog.google/products/shopping/virtual-try-on-google-generative-ai/
  14. Amazon. "Virtual Try-On for Shoes." https://www.aboutamazon.com/news/retail/virtual-try-on-for-shoes
  15. Nike. "Nike Fit." https://news.nike.com/news/nike-fit-digital-foot-measurement-tool
  16. Warby Parker. "Virtual Try-On." https://www.warbyparker.com/virtual-try-on
  17. ZOZO. "ZOZOSUIT." https://zozo.jp/zozosuit/
  18. ZOZO. "ZOZOMAT." https://zozo.jp/zozomat/
  19. Musinsa Tech. "Musinsa Visual Search." https://www.musinsa.com/
  20. ABLY Corp. "ABLY AI Recommendations." https://ably.co.kr/
  21. Adobe. "Cala — AI-powered fashion design." https://ca.la/
  22. Resleeve.ai. "AI Fashion Design." https://www.resleeve.ai/
  23. ComfyUI. "ComfyUI VTON workflows." https://github.com/comfyanonymous/ComfyUI
  24. HuggingFace. "IDM-VTON model card." https://huggingface.co/yisol/IDM-VTON