- Published on
AI 시스템의 진짜 작업은 모델이 아니라 데이터에서 일어난다. 2026년 현재 데이터 라벨링·큐레이션 도구의 지도를 그린다 — Label Studio(범용 OSS), CVAT(비전), Roboflow(비전 + 오토라벨), Cleanlab(라벨 오류 스캐너), Argilla(HF 텍스트 라벨링), Galileo·Arize Phoenix(LLM eval 데이터 큐레이션), Lilac(데이터셋 인스펙션), Refuel(LLM 오토라벨), Scale·Surge·Labelbox·Snorkel(매니지드 인간 라벨링). 그리고 데이터를 모으는 쪽: Apify·BrightData(크롤링/프록시), Firecrawl·Crawl4AI(LLM 친화 추출). 2026년의 진짜 워크플로 — LLM이 1차 라벨링, 사람은 고위험만 검증, Cleanlab + Argilla로 노이즈 클린업, Distilabel로 합성 데이터. 정직한 의사결정 프레임.