AI 데이터 어노테이션 & 라벨링 툴 2026 완벽 가이드 - Labelbox · V7 · CVAT · Roboflow · Encord · SuperAnnotate · Supervisely · Scale AI · Label Studio 심층 분석

프롤로그 — 2026년에도 라벨링은 비싸고 어렵다

GPT-5도, Claude 4도, Gemini 3도 모두 같은 비밀을 공유한다. 데이터가 모델보다 비싸다. 2025년 Meta가 Scale AI에 143억 달러를 지른 사건은 단일 사건이 아니라 신호였다 — "프론티어 모델을 만들려면 라벨러 군대를 사야 한다."

2026년 5월 현재, 라벨링 산업은 두 갈래로 갈라졌다.

한쪽은 엔터프라이즈 매니지드 플랫폼이다. Scale AI, Labelbox, V7, Encord — 자체 라벨러 풀과 자체 도구를 묶어 판다. RLHF, 자율주행, 의료 영상처럼 도메인 전문성이 필요한 곳에서 이긴다.

다른 한쪽은 오픈소스 셀프호스팅이다. CVAT, Label Studio, Doccano — 도구만 무료로 주고, 라벨러는 우리 팀이 알아서 모은다. 데이터가 민감하거나(의료·금융), 예산이 빠듯하거나(스타트업·연구), 도메인이 특수해서(한국어 법률 NER) 라벨러를 외주 못 줄 때 이긴다.

그리고 둘 모두 위에서 파운데이션 모델이 어노테이션을 흡수하고 있다. SAM 2는 마스크를 자동으로 찾고, Grounding DINO는 박스를 자동으로 친다. 어노테이터의 역할은 "박스 그리기"에서 "AI가 친 박스 검수하기"로 이동했다.

이 글은 그 지도를 그린다. 25개 도구를 8개 카테고리로 나누고, 우리가 자율주행·의료·LLM RLHF·한국어 NER 중 어느 일을 하든 어디서 시작할지까지 정리한다.

1장 · 2026년 어노테이션 지도 — 8개 카테고리로 묶는다

먼저 풍경을 한 페이지에 담는다.

카테고리	대표 도구	누가 쓰나
1. 엔터프라이즈 매니지드	Scale AI, Labelbox, V7, Encord, SuperAnnotate	OpenAI, Tesla, Waymo, 제약사
2. CV 특화	Roboflow, Supervisely, Hive	인디 CV 팀, 농업·산업
3. OSS 셀프호스팅	CVAT, Label Studio, Doccano	연구, 스타트업, 정부
4. 3D / Lidar	Segments.ai, Deepen AI, 3D Map Labs	자율주행, 로보틱스
5. LLM 평가 / RLHF	Argilla, Surge AI, Outlier, Snorkel	파운데이션 모델 팀
6. 데이터 품질	Cleanlab, Galileo, Lilac	ML 운영 팀
7. 크라우드소싱	Mechanical Turk, Clickworker, Appen	대량·저난이도
8. 자동 라벨링 모델	SAM 2, Grounding DINO, GPT-4V, Claude Vision	모든 위 카테고리에 끼어든다

핵심 관찰 세 가지.

카테고리 1과 3은 같은 문제를 다르게 푼다. 매니지드는 "라벨러 + 도구 + QC"를 한 묶음으로 판다. OSS는 도구만 준다. 결정 변수는 "데이터를 외부로 내보낼 수 있는가"와 "예산"이다.
카테고리 8은 1~7 모두에 박혀 있다. Labelbox는 SAM 2를 model-assisted labeling으로 통합했다. CVAT도 마찬가지다. Roboflow는 자체 자동 라벨링 API를 판다. "AI가 1차 라벨, 사람은 검수"가 2026년의 기본 모드다.
6번 카테고리(데이터 품질)는 라벨링과 동급의 비중을 갖는다. 라벨링한 다음에 Cleanlab으로 라벨 오류를 찾고 Argilla로 큐레이션하는 워크플로가 표준이 됐다.

도구 하나만 보지 말고 파이프라인으로 봐라. 수집 → 자동 라벨링 → 사람 검수 → 품질 점검 → 큐레이션 5단계가 다 필요하다.

2장 · Scale AI — 매니지드 라벨링의 챔피언, Meta 거래의 의미

Scale AI는 2016년 Alexandr Wang이 19살에 창업했다. 2025년 6월, Meta가 Scale AI에 143억 달러를 투자하고 Wang을 Meta Superintelligence Labs의 Chief AI Officer로 데려갔다. 이 거래의 진짜 의미는 두 가지다.

첫째, Scale은 더 이상 중립 라벨러가 아니다. OpenAI, Google DeepMind, Anthropic이 Scale 의존도를 줄이기 시작했다(2025년 7월 Reuters 보도). Meta 거래가 끝나기 무섭게 OpenAI는 자체 라벨러 풀을 늘리고 Surge AI 비중을 키웠다. "내 프론티어 모델의 학습 데이터를 경쟁사 자회사에 맡기지 않는다"는 단순한 이유다.

둘째, 라벨링은 단일 사건이 아니라 시장의 인프라가 됐다. Meta가 143억 달러를 지를 가치가 있다고 판단할 만큼.

Scale의 제품 라인은 네 갈래다.

Scale Data Engine — 자율주행·로보틱스 어노테이션. Waymo, Cruise(중단 전), Toyota 등이 썼다.
Scale Donovan — 정부·국방용. DoD 계약.
Scale GenAI — RLHF, 프롬프트 큐레이션, 평가 데이터. OpenAI o1·GPT-4 학습에 큰 역할.
Outlier.ai — Scale이 운영하는 라벨러 플랫폼. 전 세계 24만 명 라벨러.

가격은 공개 안 한다. 도메인·복잡도·QC 수준에 따라 박스 하나에 0.05달러부터 시간당 60달러까지 폭이 넓다. "엔터프라이즈와 직접 상의"가 표준 답변이다.

언제 고르나 — 자율주행·국방·프론티어 LLM 학습처럼 도메인 전문성이 필수이고 예산이 큰 곳. 인디·스타트업에게는 과하다.

언제 안 고르나 — Meta 자회사 라벨링을 우려하는 OpenAI·DeepMind 경쟁사 ML 팀. 이들은 Surge AI 또는 자체 라벨러로 이동 중이다.

3장 · Labelbox — 엔터프라이즈 셀프서비스 + 매니지드

Labelbox는 2018년 SF에서 출발해 2024년 시리즈 D를 받았다. 포지셔닝은 "Scale은 비싸고 CVAT는 너무 날것이다, 그 사이를 메운다."

세 가지 모드를 한 플랫폼에 묶었다.

셀프서비스 라벨링 — 우리 팀이 직접 라벨링. $25/seat/월부터.
Boost(매니지드) — Labelbox가 라벨러를 붙여 준다.
Foundry / Model Foundry — 파운데이션 모델로 자동 라벨링 + 사람 검수.

Labelbox의 강점은 세 가지다.

이미지·비디오·텍스트·문서·지오스페이셜·LLM·오디오까지 한 UI. 도메인 갈아탈 때 도구를 새로 안 배워도 된다.
SAM 2 통합 자동 마스킹. 클릭 한 번에 마스크가 그려진다. 어노테이터 생산성이 보고서 기준 5~10배.
Catalog + Model + 평가가 한 워크스페이스. 데이터셋·모델·예측·정답을 같이 본다.

가격(2026년 5월 공개 가격).

Free — 5,000 데이터 행, 3명.
Starter — $25/seat/월부터.
Enterprise — 견적, SSO·SCIM·온프렘 옵션 포함.

언제 고르나 — 멀티모달 데이터셋을 다루고, 셀프서비스와 매니지드를 자유롭게 섞고 싶고, 도구 표준화에 가치를 두는 팀.

언제 안 고르나 — 데이터가 외부 SaaS로 못 나가는 경우(의료·금융·정부 일부). 이때는 CVAT 셀프호스팅이 답이다.

4장 · V7 Darwin — 이미지·비디오·의료 AI-assisted 어노테이션

V7은 런던 출발 회사다. "Auto-Annotate"를 일찍 밀었고(2020년) 의료 영상에서 강하다.

세 가지 제품.

V7 Darwin — 일반 CV 어노테이션 플랫폼.
V7 Go — 문서 자동화 + 추출. 영수증·청구서·계약서 같은 비즈니스 문서 OCR + 필드 추출을 LLM으로.
V7 Medical — DICOM, HIPAA, FDA 510(k) 친화. Charite, Mayo Clinic 등.

V7이 잘하는 일.

모델 보조 어노테이션 — 자체 SAM-like 모델 + Grounding DINO. 클릭 1회, 박스 1회, 또는 텍스트 프롬프트로 즉시 라벨.
비디오 트래킹 — 객체 키프레임 한 번 찍으면 V7이 프레임 사이를 보간.
의료 멀티프레임 — DICOM 시리즈를 한 번에 본다. 3D 마스킹도 된다.

가격은 견적제다. 일반적인 시작점은 팀당 $499/월 수준이지만 의료·엔터프라이즈는 5~6자릿수로 빠르게 올라간다.

언제 고르나 — 의료·라이프사이언스 영상, 비디오 어노테이션이 중심, GenAI로 어노테이터 생산성을 크게 올리고 싶은 팀.

5장 · Roboflow — 인디 CV 팀의 사실상 표준

Roboflow는 2020년 출발했다. 포지셔닝이 정확하다 — "Hugging Face for Computer Vision". 데이터셋 호스팅, 라벨링, 학습, 배포까지 한 사이트에서.

핵심 기능 네 가지.

Roboflow Annotate — 박스·폴리곤·세그멘테이션·키포인트. SAM 2 통합.
Universe — 50만 개 이상의 공개 CV 데이터셋. 같은 카테고리(예: 헬멧 검출)면 받아서 fine-tune하면 끝.
Train — 클릭 한 번에 YOLOv11·DETR·VLM 학습. GPU 추상화.
Inference / Deploy — 학습한 모델을 자체 호스팅 API 또는 엣지(NVIDIA Jetson, Raspberry Pi)로 배포.

가격.

Public — 무료, 데이터셋 공개 의무.
Starter — $249/월부터, 비공개.
Growth/Enterprise — $999/월부터.

언제 고르나 — CV 프로토타입을 1~2일 안에 데이터셋부터 배포까지 끝내야 하는 인디 팀, 스타트업, 학생, 산업·농업·소매 사이드 프로젝트.

언제 안 고르나 — 텍스트·오디오 어노테이션. Roboflow는 CV 전용이다.

6장 · Encord — DICOM 의료 + 멀티모달

Encord는 런던 출발 회사로 2024년 시리즈 B(Davos에서)를 받았다. 포지셔닝 — "의료 영상과 멀티모달 데이터의 라벨링 + active learning."

차별 포인트 세 가지.

DICOM/NIfTI 네이티브 — 의료 영상을 PNG로 변환하는 흔한 함정을 피한다. 픽셀 스페이싱·HU 값·시리즈 메타데이터 다 보존.
Encord Active — active learning이 메인 기능. 모델이 자신 없는 샘플을 골라서 라벨러에게 우선 보낸다.
멀티모달 — 이미지·비디오·DICOM·문서·오디오. 의료 임상시험 같은 곳에서 다 필요하다.

가격은 견적제다. 의료 도메인 컴플라이언스(HIPAA, ISO 13485, FDA validation 지원)가 핵심 셀링포인트다.

언제 고르나 — 방사선·병리·내시경 같은 의료 영상 AI 팀, active learning을 라벨링 파이프라인의 1급 시민으로 다루고 싶은 팀.

7장 · SuperAnnotate, Supervisely, Hive — 그 외 매니지드

이 셋은 비슷한 자리에서 경쟁한다.

SuperAnnotate — 아르메니아 출발. Adobe·Databricks 같은 큰 고객. 강점은 깔끔한 UI와 강한 QC 워크플로. GenAI 데이터(LLM RLHF) 비중을 키우는 중. 가격은 견적, $500/월~ 수준에서 시작.

Supervisely — 체코·러시아 출발. 3D 포인트클라우드와 의료 영상에 강하다. 1억 개 이상의 어노테이션을 처리한 적이 있다고 광고한다. 가격은 Community(무료, 자가호스팅 셀프서비스)와 Enterprise.

Hive — SF 출발. 컨텐츠 모더레이션을 라벨링 인프라로 발전시킨 회사. 자체 라벨러 풀(200만 명+) + Hive AI 모델. 가격은 견적.

이 셋 중 하나를 고를 때 보는 변수.

Adobe·Databricks 톤의 큰 고객을 보고 안심하고 싶다면 SuperAnnotate.
3D 포인트클라우드가 중심이면 Supervisely.
컨텐츠 모더레이션·NSFW·violence detection 같은 큰 부피의 라벨이 필요하면 Hive.

8장 · CVAT — Intel 출발 오픈소스 CV 라벨링의 표준

CVAT은 Intel이 OpenCV 생태계에 만든 도구로 시작했다. 지금은 별도 회사 CVAT.ai가 운영하지만, GitHub 코어는 여전히 OSS다(MIT).

CVAT가 잘하는 것.

이미지·비디오·3D 포인트클라우드 어노테이션 — 박스, 폴리곤, 폴리라인, 키포인트, 마스크, 3D 큐보이드.
SAM·SAM 2·YOLO 통합 — 모델 보조 어노테이션을 셀프호스트에서 그대로.
팀 워크플로우 — Job·Task·Project 계층, 검수, 통계.
Docker Compose 한 번에 배포 — 자가호스팅이 진짜로 쉽다.

가격.

Self-hosted OSS — 무료, MIT 라이센스.
CVAT Cloud — Free( $0, 10명), Pro($ 45/seat/월), Enterprise(견적).

언제 고르나 — 데이터가 외부로 못 나가는 모든 CV 팀, 셀프호스팅이 절대 조건인 정부·국방·의료·금융 팀, 예산이 빠듯한 연구실과 스타트업.

언제 안 고르나 — 텍스트·오디오·LLM 데이터. CVAT은 CV 전용이다.

9장 · Label Studio (HumanSignal) — 멀티도메인 OSS

Label Studio는 Heartex(현 HumanSignal)가 만든 도구다. CVAT이 CV 전용이라면, Label Studio는 모든 데이터 타입을 한 도구로.

지원 데이터 타입.

이미지(박스·폴리곤·마스크), 비디오(트래킹), 오디오(세그멘트·전사), 텍스트(NER·분류·요약), HTML, 시계열, 컨버세이션(LLM 데이터).

XML-비슷한 라벨 설정으로 UI를 정의한다(코드 블록 안에서만 안전하게 쓴다).

<View>
  <Text name="text" value="$text" />
  <Labels name="entities" toName="text">
    <Label value="PERSON" background="orange" />
    <Label value="ORG" background="green" />
  </Labels>
</View>

가격.

Community Edition — 무료 OSS(Apache 2.0).
Starter Cloud — $99/사용자/월부터.
Enterprise — 견적, SSO·SCIM·온프렘.

언제 고르나 — 데이터 타입이 다양한 팀(텍스트 + 이미지 + 오디오), 셀프호스팅이 필요한데 CV만 다루는 게 아닌 팀, ML 백엔드와 통합하기 좋아하는 팀.

10장 · Doccano, LabelImg, VIA, MakeSense, COCO Annotator — 가벼운 OSS들

큰 플랫폼이 부담스러우면 가벼운 OSS가 있다.

Doccano — 텍스트 전용. NER, 분류, seq2seq. Python 한 줄로 띄운다. 한국어·일본어·중국어 NER 프로젝트에서 인기. MIT.

LabelImg — 박스만 그리는 데스크톱 앱. Pascal VOC / YOLO 포맷. 2024년 deprecation 안내가 나왔지만 여전히 깃허브 별 2만 개+ 짜리 클래식. 학습용으로 좋다.

VIA (VGG Image Annotator) — Oxford VGG의 학술 도구. 단일 HTML 파일로 동작. 박스·폴리곤·점. 인터넷 없는 환경 친화.

MakeSense.ai — 브라우저 only, 설치 없음. 가볍게 시연하기 좋다. YOLO·VOC·COCO 익스포트.

COCO Annotator — COCO 포맷 네이티브. 작은 팀의 인스턴스 세그멘테이션에 쓰인다.

이들의 공통점 — 빨리 시작하기 좋다. 단점 — 팀·QC·model-assist 같은 큰 워크플로가 없다. 프로토타입을 넘어가면 CVAT·Label Studio로 마이그레이션한다.

11장 · 3D · Lidar 어노테이션 — Segments, Deepen, 3D Map Labs

자율주행과 로보틱스는 3D 포인트클라우드 라벨링이 본업이다.

Segments.ai — 벨기에 출발. 멀티 센서(라이다 + 카메라)를 동시에 본다. 포인트클라우드 인스턴스 세그멘테이션, 시멘틱 세그멘테이션, 큐보이드. 가격 견적, 대략 $500/월~.

Deepen AI — 자율주행에 특화. Lidar 시퀀스 트래킹, 캘리브레이션 도구까지 묶어 판다. Toyota, Honda, BMW 등 자동차 회사가 고객.

3D Map Labs — HD 맵 어노테이션 전문. 자율주행을 위한 차선·표지판·신호등 매핑.

언제 안 고르나 — 단발성 3D 프로젝트. 이때는 CVAT 또는 Supervisely의 3D 모드로도 충분하다.

12장 · LLM 평가 + RLHF — Argilla, Surge AI, Outlier, Snorkel

LLM 시대에는 라벨링의 모양이 바뀌었다. "박스 그리기" 대신 "두 응답 중 어느 게 더 좋은가" 또는 "이 응답이 사실인가". 이걸 RLHF 데이터 또는 평가 데이터라고 부른다.

Argilla(Hugging Face가 2024년 인수) — 오픈소스 LLM 데이터 라벨링·큐레이션. Distilabel과 묶어 합성 데이터 파이프라인 작성. HF Hub와 직결. Apache 2.0.

Surge AI — Scale AI의 진짜 경쟁자. RLHF/평가 데이터 매니지드. OpenAI, Anthropic이 Scale 비중을 줄이며 늘리는 중. 라벨러 품질이 강점 — 전문 분야(법률·의학·코딩) 라벨러를 명시적으로 매칭.

Outlier — Scale AI의 라벨러 플랫폼(2024년 리브랜드). 전 세계 24만 명. RLHF·평가·코드 리뷰 라벨링이 메인.

Snorkel AI — 프로그래매틱 라벨링의 원조. 휴리스틱·약한 지도학습으로 1차 라벨을 만들고, 모델로 propagation. Snowflake·JPMorgan 같은 엔터프라이즈에서 쓴다.

언제 고르나 —

LLM 파인튜닝 데이터·평가 셋이 중심이면 Argilla(OSS) 또는 Surge AI(매니지드).
"사람을 안 쓰고 룰로 1차 라벨" 전략이면 Snorkel.

13장 · 데이터 품질 — Cleanlab, Galileo, Lilac

라벨링 다음 단계는 품질 점검이다.

Cleanlab — MIT 출발. "Confident Learning" 알고리즘으로 라벨 오류를 자동 검출. 픽처에서 잘못된 라벨 5~15퍼센트를 골라낸다. Cleanlab Studio는 SaaS, cleanlab은 오픈소스(BSD).

Galileo — LLM·NLP 데이터 옵저버빌리티. 학습 데이터에서 "model이 헷갈리는 샘플", "low-quality span", "drift" 같은 걸 시각화. 엔터프라이즈 SaaS.

Lilac (HuggingFace 인수) — 텍스트 데이터셋 탐색·클러스터링·중복 검출. 오픈소스.

핵심 통찰 — "라벨 100개 더 만들기"보다 "있는 라벨 1,000개에서 잘못된 50개 고치기"가 더 큰 효과를 낸다. 보통 모델 정확도가 1~5 포인트 오른다(특히 imbalanced 도메인).

14장 · 크라우드소싱 — MTurk, Clickworker, Appen, TELUS

대량·저난이도·언어 다양성이 필요할 때 크라우드소싱이 끼어든다.

Amazon Mechanical Turk — 2005년 시작한 원조. 가격이 가장 싸고(작업당 $0.01~) 통제도 가장 적다. 품질 관리(qualifications, master workers, consensus)가 큰 숙제.

Clickworker — 독일 출발. MTurk보다 정제된 크라우드. 다국어 텍스트·이미지·오디오.

Appen — 호주 출발. 음성 데이터(call center, ASR)에서 강하다. Lionbridge AI(Telus 인수)와 함께 음성·언어 데이터의 양대 산맥.

TELUS International AI Data Solutions — Lionbridge AI를 통합. Microsoft·Google·Apple의 음성 어시스턴트 학습 데이터를 다수 처리.

언제 고르나 — 대량의 단순 작업(이미지 분류, 짧은 텍스트 분류), 다국어 음성 데이터 수집. 도메인 전문성이 필요한 작업에는 Scale·Surge·Labelbox Boost가 더 낫다.

15장 · 자동 라벨링 — SAM 2, Grounding DINO, CLIP, GPT-4V, Claude Vision

2026년 어노테이션의 가장 큰 변화는 모델이 1차 라벨러가 된 것이다.

SAM 2 (Meta, 2024) — 이미지·비디오 세그멘테이션의 만능 모델. 클릭 1회·박스 1회 또는 텍스트로 마스크가 나온다. Labelbox·CVAT·Roboflow 모두 통합했다.

Grounding DINO (IDEA) — 텍스트 프롬프트("a person wearing a helmet")로 박스를 그린다. 오픈 보캐뷸러리 검출. SAM 2와 묶으면(GroundingSAM) 텍스트 -> 박스 -> 마스크가 한 번에 나온다.

CLIP / SigLIP — 제로샷 분류. 이미지에 "이게 무엇인가?"를 묻고 사전 정의된 라벨 중 하나를 고른다. 박스·마스크는 안 되지만 분류 라벨링에 강하다.

GPT-4V / Claude Vision / Gemini Vision — VLM에 이미지를 보내고 라벨을 묻는다. 가장 비싸지만 가장 유연하다. 도메인을 가르치는 few-shot 프롬프트가 가능하다.

워크플로 패턴.

# 자동 라벨링 파이프라인 의사 코드
for image in dataset:
    boxes = grounding_dino(image, prompt="helmet, vest, person")
    masks = sam2(image, boxes=boxes)
    labels = label_studio_predictions(image, boxes, masks)
    push_to_review(labels)  # 사람은 검수만

이 한 패턴이 2026년 CV 어노테이션의 표준이다. 어노테이터의 역할은 "박스 그리기"에서 "AI가 친 박스 검수"로 명확하게 이동했다. 생산성이 5~10배 오르고, 단조로운 작업이 줄어들면서 라벨러의 burn-out도 줄었다.

16장 · AI 안전 라벨링 — 레드팀·jailbreak 어노테이션

LLM 시대에 새로 생긴 라벨링 카테고리다.

레드팀 프롬프트 큐레이션 — 잠재적으로 위험한 프롬프트를 모으고 모델 응답을 평가. Anthropic, OpenAI 모두 자체 + 외주 라벨러.
Jailbreak 데이터 — 모델이 가드레일을 깨는 케이스를 모음. 학습용 그리고 평가용.
유해 컨텐츠 분류 — toxicity, hate speech, CSAM 같은 카테고리. Hive, ActiveFence, Surge AI.

핵심 도전은 라벨러의 정신건강이다. 폭력·CSAM·자살 컨텐츠를 다루는 라벨러는 PTSD 위험이 실재한다. 2023년 Time이 OpenAI의 케냐 라벨러 처우 문제를 폭로한 이후 업계가 가이드라인을 개선 중이다. Sama, Surge AI는 명시적으로 정신건강 케어 프로그램을 두고 있다.

17장 · 도메인별 — 의료, 자율주행, 지오스페이셜

도메인이 명확하면 도메인 특화 도구가 더 빠르다.

의료

Encord — DICOM 네이티브, FDA validation 지원.
V7 Medical — 영상 + 임상시험 워크플로.
Cohort.ai (구 Centaur Labs) — 의사 라벨러 네트워크.
MD.ai, Cogitech — 방사선 특화.

자율주행

Scale AI Data Engine — 카메라 + Lidar + 레이더 동기화.
Mighty AI (Uber 인수)
Understand.ai (DSpace 인수)
Deepen AI — 캘리브레이션 + Lidar.

지오스페이셜

GroundWork (CamoLabs) — 위성·드론 영상.
RemoteSensingAI — 농업·임업 특화.
Mapbox Labelbox 통합 — 도시 매핑.

18장 · 품질 관리 — IAA, Cohen's kappa, consensus

라벨링은 사람이 한다. 사람은 틀린다. 그래서 품질 관리 메커니즘이 라벨링 도구의 1급 기능이다.

핵심 지표 셋.

Inter-annotator agreement (IAA) — 두 명 이상의 라벨러가 같은 샘플에 동의한 비율.
Cohen's kappa — 우연한 일치를 제외한 IAA. 보통 0.6 이상이 "괜찮음", 0.8 이상이 "좋음".
Fleiss' kappa — 3명 이상의 라벨러 버전.

워크플로 패턴.

Consensus voting — 같은 샘플을 N명이 라벨, 다수결.
Gold standard injection — 정답을 미리 아는 샘플을 섞어 넣고 라벨러 정확도를 모니터링.
Adjudication queue — 라벨러 사이에서 의견이 갈리는 샘플을 시니어 어노테이터에게 라우팅.

매니지드 플랫폼(Scale, Labelbox, V7)은 이걸 빌트인으로 한다. CVAT·Label Studio는 직접 짜야 하지만 Job·Review 메커니즘이 기본 골격을 제공한다.

19장 · Active learning — 어떤 샘플을 라벨링할지 모델이 정한다

라벨링 예산이 무한하지 않다. 그러면 "어떤 샘플을 먼저 라벨링할까"가 큰 결정이다.

Active learning의 아이디어 — 모델이 자신 없는 샘플, 클래스 경계에 있는 샘플, 새로운 클러스터에 있는 샘플을 우선 라벨러에게 보낸다.

전략 셋.

Uncertainty sampling — 모델의 예측 확률이 0.5 근처인 샘플.
Margin sampling — top-1과 top-2 확률 차가 작은 샘플.
Diversity sampling — 임베딩 공간에서 멀리 떨어진 클러스터 대표.

도구.

Encord Active — 1급 기능.
Cleanlab Studio — 라벨 오류 + uncertainty 동시에.
Roboflow — Smart Polygon + 모델 보조.
CVAT — 자체 nuclio 파이프라인으로 구축 가능.

경험칙 — active learning을 도입하면 같은 모델 성능을 절반의 라벨로 도달한다. 이 절반이 라벨링 비용의 절반이다.

20장 · 한국 어노테이션 생태계 — AI Hub, 이지데이터, 테스트웍스

한국어/한국 특화 데이터는 글로벌 도구만으로는 부족하다.

AI Hub (NIA, 한국지능정보사회진흥원) — 한국 정부의 AI 데이터셋 허브. 한국어 NLP, 한국 영상, 한국 음성 데이터셋 수천 개가 공개. 라벨링까지 정부 예산으로 진행된 것이 많다.

이지데이터 (EzData) — 한국어 라벨링 매니지드 서비스. 한국어 NER, 한국 의료 영상 등.

테스트웍스 (Testworks) — 라벨링 + QA 서비스. 다양성 채용으로 사회적 기업 인증을 받았다.

활용 전략 — AI Hub에서 공개 데이터셋을 1차 학습 데이터로 받고, 이지데이터·테스트웍스로 도메인 특화 라벨링을 추가한다.

21장 · 일본 어노테이션 생태계 — ABEJA, FastLabel, AnnoFab

일본은 산업·자동차 데이터에 강하다.

ABEJA Platform — 일본의 ML 플랫폼. 어노테이션 + 학습 + 배포까지. 도요타·NTT·도큐 같은 큰 고객.

FastLabel — 도쿄 출발의 AI 어노테이션 SaaS. 일본 시장에서 가장 빠르게 성장. Honda·Sony 같은 고객.

Anolytics — 일본·인도 동시 진출. 매니지드 라벨링.

AnnoFab — 일본 시장 어노테이션 도구. 정부 + 제조업.

활용 전략 — 일본 시장 특화 데이터(예: 일본어 OCR, 일본 도로 자율주행)는 일본 회사가 도메인 지식과 라벨러 풀이 우월하다.

22장 · 가격 비교 — 무엇이 정말 얼마짜리인가

대략적인 가격 지도(2026년 5월 기준).

카테고리	도구	가격대
매니지드 엔터프라이즈	Scale AI	견적, 일반적으로 $100K+/연
매니지드 엔터프라이즈	Labelbox Enterprise	견적, $50K~$ 500K/연
셀프서비스 SaaS	Labelbox Starter	$25/seat/월
셀프서비스 SaaS	Label Studio Cloud	$99/사용자/월
셀프서비스 SaaS	Roboflow	$249~$ 999/월
셀프서비스 SaaS	V7 Darwin	$499/월~
셀프호스팅 OSS	CVAT	$0
셀프호스팅 OSS	Label Studio Community	$0
셀프호스팅 OSS	Doccano, LabelImg, VIA	$0
크라우드	MTurk	작업당 $0.01~
RLHF 매니지드	Surge AI	견적, 시간당 $25~$ 80
자동 라벨링 API	Roboflow Auto, Labelbox Foundry	이미지당 $0.001~$ 0.01
자동 라벨링 VLM	GPT-4V, Claude Vision	이미지당 $0.01~$ 0.05

핵심 — 셀프호스팅 OSS는 도구는 무료지만 라벨러 인건비는 별도다. 매니지드는 도구 + 라벨러 + QC를 한 묶음으로 청구한다.

23장 · 의사결정 트리 — 우리 팀은 무엇을 골라야 하나

5가지 분기점.

데이터가 외부 SaaS로 나가도 되나?
- 안 됨 -> CVAT, Label Studio Community, Doccano(셀프호스팅 OSS).
- 됨 -> 다음 분기로.
도메인이 무엇인가?
- 이미지/비디오 일반 -> Roboflow(인디) 또는 Labelbox(엔터프라이즈).
- 의료 -> Encord, V7 Medical.
- 자율주행 3D -> Scale AI, Deepen AI, Segments.ai.
- 텍스트/NER -> Label Studio, Doccano, Argilla.
- LLM RLHF/평가 -> Argilla(OSS), Surge AI(매니지드).
라벨러를 우리가 모을 수 있나?
- 모을 수 있다 -> 셀프서비스(Labelbox, Roboflow, Label Studio Cloud).
- 외주가 필요하다 -> 매니지드(Scale, Surge, Labelbox Boost, V7).
예산이 얼마인가?
- $0~$ 10K/년 -> OSS 셀프호스팅 + 인턴.
- $10K~$ 100K/년 -> Roboflow, Labelbox Starter, Label Studio Cloud.
- $100K+/년 -> Labelbox Enterprise, V7, Encord, Scale 일부.
자동 라벨링을 1급 시민으로 둘 것인가?
- 그렇다 -> Encord Active, Cleanlab, SAM 2 통합 도구.
- 인간 우선 -> Scale, Surge, MTurk.

24장 · 실전 워크플로 — 1주에 첫 데이터셋 만들기

처음 만드는 CV 데이터셋을 1주에 100~1,000장 라벨링까지 가는 워크플로.

Day 1 — 데이터 수집. 크롤링(Apify, Firecrawl) 또는 직접 촬영. Storage는 S3.
Day 2 — 도구 선택. 데이터가 민감하지 않고 인디면 Roboflow. 민감하면 CVAT 셀프호스팅.
Day 3 — 자동 라벨링 1차 패스. Grounding DINO + SAM 2로 박스/마스크. Roboflow면 "Smart Polygon", CVAT이면 SAM 2 모듈.
Day 4 — 사람 검수. 자동 라벨이 친 박스를 빠르게 검수·수정. 보통 사람이 새로 그리는 것의 3~5배 빠르다.
Day 5 — 품질 점검. Cleanlab 또는 Encord Active로 라벨 오류 후보 검출. 10~20개 재검토.
Day 6 — 학습. Roboflow Train 또는 자체 PyTorch. 첫 베이스라인 모델.
Day 7 — 분석. 모델이 가장 헷갈리는 샘플 N개를 active learning으로 다음 라벨링 큐에 추가.

이 한 사이클을 4~6번 돌리면 보통 production-ready 모델이 나온다.

25장 · 정직한 의사결정 — 모델이 아니라 데이터 파이프라인을 짜자

마지막 한 줄 — 2026년 ML 팀의 차별화는 모델이 아니라 데이터 파이프라인이다.

같은 GPT-4o, 같은 Llama 3, 같은 YOLOv11을 모두가 쓴다. 우리의 우위는 우리만의 라벨링 데이터, 우리만의 평가 셋, 우리만의 품질 관리 워크플로다.

도구는 손에 잡히는 것부터. CV면 Roboflow 또는 CVAT, 텍스트면 Label Studio 또는 Doccano, LLM이면 Argilla. 모두 무료 또는 저비용으로 시작한다. 매니지드는 우리가 라벨러를 못 모으는 한 미루는 게 낫다 — 매니지드를 도입한 다음에 도구를 바꾸기는 어렵지만, 셀프서비스에서 매니지드로 이행하기는 자연스럽다.

그리고 잊지 말자 — 라벨 100개를 더 만들기보다 있는 라벨 1,000개에서 잘못된 50개를 고치는 것이 더 큰 효과다. Cleanlab을 하루 띄워 보는 것부터 시작하자.

26장 · References

Scale AI / Meta partnership announcement (2025): https://www.cnbc.com/2025/06/13/meta-scale-ai-investment.html
Scale AI: https://scale.com
Surge AI: https://www.surgehq.ai
Labelbox pricing: https://labelbox.com/pricing
Labelbox docs: https://docs.labelbox.com
V7 Darwin: https://www.v7labs.com/darwin
V7 Medical: https://www.v7labs.com/medical
Roboflow: https://roboflow.com
Roboflow Universe: https://universe.roboflow.com
Encord: https://encord.com
SuperAnnotate: https://www.superannotate.com
Supervisely: https://supervisely.com
Hive: https://thehive.ai
CVAT: https://www.cvat.ai
CVAT GitHub: https://github.com/cvat-ai/cvat
Label Studio: https://labelstud.io
Label Studio Enterprise: https://humansignal.com
Doccano: https://github.com/doccano/doccano
Segments.ai: https://segments.ai
Deepen AI: https://www.deepen.ai
Argilla: https://argilla.io
Cleanlab: https://cleanlab.ai
Galileo: https://www.rungalileo.io
Lilac: https://www.lilacml.com
Snorkel AI: https://snorkel.ai
SAM 2 (Meta): https://ai.meta.com/sam2/
Grounding DINO: https://github.com/IDEA-Research/GroundingDINO
Amazon Mechanical Turk: https://www.mturk.com
Clickworker: https://www.clickworker.com
Appen: https://appen.com
TELUS International AI Data Solutions: https://www.telusinternational.com/solutions/ai-data-solutions
AI Hub (NIA): https://aihub.or.kr
이지데이터 (EzData): https://www.ezdata.co.kr
테스트웍스 (Testworks): https://www.testworks.co.kr
ABEJA Platform: https://abejainc.com/platform
FastLabel: https://fastlabel.ai
AnnoFab: https://annofab.com