- Published on
2026년 합성 데이터(synthetic data)는 더 이상 "진짜 데이터의 차선책"이 아니다. GDPR/HIPAA의 벽, 불균형 클래스, 희귀 케이스, 그리고 LLM을 학습시키기 위한 수조 토큰의 갈증이 합성 데이터를 1급 시민으로 끌어올렸다. MOSTLY AI가 Gretel을 인수하며 만든 새 지형도, Tonic의 RDBMS 마스킹 스택, MIT가 만든 SDV의 CTGAN/TVAE, 의료의 Synthea, 그리고 LLM 시대의 Distilabel·Self-Instruct·Magpie까지 — 표 형식부터 영상·코드·지시문 합성까지 전 영역을 한 번에 정리한다.