AI データアノテーション & ラベリングツール 2026 完全ガイド - Labelbox · V7 · CVAT · Roboflow · Encord · SuperAnnotate · Supervisely · Scale AI · Label Studio 徹底解説

プロローグ — 2026年もラベリングは高くて難しい

GPT-5 も Claude 4 も Gemini 3 も同じ秘密を共有している。データはモデルより高い。 2025年に Meta が Scale AI に143億ドルを注いだのは単発の事件ではなく信号だった — 「フロンティアモデルを作るにはラベラーの軍隊を買う必要がある」と。

2026年5月時点、ラベリング業界は二手に割れた。

一方はエンタープライズ・マネージドプラットフォームだ。Scale AI、Labelbox、V7、Encord — 自社ラベラープールと自社ツールを束ねて売る。RLHF、自動運転、医療画像のようにドメイン専門性が必要な領域で勝つ。

もう一方は OSS セルフホストだ。CVAT、Label Studio、Doccano — ツールだけ無料で渡し、ラベラーは自チームで集める。データが機微（医療・金融）だったり、予算がタイトだったり（スタートアップ・研究室）、ドメインが特殊（日本語法務 NER）でアウトソースが効かない場合に勝つ。

そして両側の上から ファウンデーションモデルがアノテーションを飲み込もうとしている。SAM 2 がマスクを自動で見つけ、Grounding DINO がテキストから箱を引く。アノテーターの役割は「箱を描く」から「AI が描いた箱をレビューする」へと移った。

この記事はその地図を描く。25のツールを8カテゴリに整理し、自動運転・医療・LLM RLHF・日本語 NER のどれをやるにせよ、どこから始めるべきかを示す。

1. 2026年アノテーション地図 — 8カテゴリでまとめる

まず風景を1ページに収める。

カテゴリ	代表ツール	誰が使うか
1. エンタープライズ・マネージド	Scale AI, Labelbox, V7, Encord, SuperAnnotate	OpenAI、Tesla、Waymo、製薬
2. CV 特化	Roboflow, Supervisely, Hive	インディ CV、農業、産業
3. OSS セルフホスト	CVAT, Label Studio, Doccano	研究、スタートアップ、政府
4. 3D / Lidar	Segments.ai, Deepen AI, 3D Map Labs	自動運転、ロボティクス
5. LLM 評価 / RLHF	Argilla, Surge AI, Outlier, Snorkel	ファウンデーションモデルチーム
6. データ品質	Cleanlab, Galileo, Lilac	ML オペレーションチーム
7. クラウドソーシング	Mechanical Turk, Clickworker, Appen	大量・低難度
8. 自動ラベリングモデル	SAM 2, Grounding DINO, GPT-4V, Claude Vision	1〜7すべてに割り込む

核心となる観察3つ。

カテゴリ1と3は同じ問題を別の仕方で解く。 マネージドは「ラベラー + ツール + QC」をひとまとめで売る。OSS はツールだけ。判断軸は「データを外に出せるか」と「予算」だ。
カテゴリ8は1〜7すべてに埋め込まれている。 Labelbox は SAM 2 を model-assisted labeling として統合した。CVAT も同様。Roboflow は自前の自動ラベリング API を売っている。「AI が一次、人が検収」が2026年のデフォルトだ。
カテゴリ6（データ品質）はラベリングと同等の重さを持つようになった。 ラベリングしたあとに Cleanlab でエラーを探し、Argilla でキュレーションする — これが標準パターンだ。

ツール単体ではなくパイプラインで見ろ。収集 → 自動ラベリング → 人による検収 → 品質チェック → キュレーションの5段階すべてが必要だ。

2. Scale AI — マネージドラベリングの王者、Meta 取引の意味

Scale AI は2016年に Alexandr Wang が19歳で創業した。2025年6月、Meta が Scale AI に143億ドルを投資し、Wang を Meta Superintelligence Labs の Chief AI Officer として迎え入れた。この取引の本当の意味は2つある。

第一に、Scale はもはや中立のラベラーではない。 OpenAI、Google DeepMind、Anthropic は Scale 依存を巻き戻し始めた（2025年7月 Reuters 報道）。Meta 取引が決まるやいなや OpenAI は自社ラベラープールを増強し、Surge AI のシェアを高めた。「自分のフロンティアモデル学習データを競合の子会社に預けない」というシンプルな理屈だ。

第二に、ラベリングは単発の事件ではなく市場のインフラになった。 Meta が143億ドル払う価値があると判断するほどに。

Scale の製品ラインは4つに分かれる。

Scale Data Engine — 自動運転・ロボティクスのアノテーション。Waymo、Cruise（撤退前）、Toyota などが使った。
Scale Donovan — 政府・国防向け。DoD 契約。
Scale GenAI — RLHF、プロンプトキュレーション、評価データ。OpenAI o1 や GPT-4 の学習で大きな役割。
Outlier.ai — Scale が運営するラベラー向けプラットフォーム。世界中で24万人。

価格は非公開。1ボックス0.05ドルから1時間60ドルまで、ドメイン・複雑度・QC ティアで幅広く動く。「エンタープライズ営業に相談を」が標準回答だ。

いつ選ぶか — 自動運転・国防・フロンティア LLM 学習のようにドメイン専門性が必須で予算が大きい現場。 インディ・スタートアップにはオーバーキル。

いつ選ばないか — Meta 子会社化を警戒する OpenAI・DeepMind 競合の ML チーム。彼らは Surge AI か自社ラベラーへ移行中だ。

3. Labelbox — エンタープライズ・セルフサービス + マネージド

Labelbox は2018年に SF で立ち上がり、2024年シリーズ D を調達した。立ち位置は「Scale は高すぎ、CVAT は生すぎる。その間を埋める」。

3つのモードを1つのプラットフォームに束ねた。

セルフサービス・ラベリング — 自チームでラベリング。$25/seat/月から。
Boost（マネージド） — Labelbox がラベラーを供給。
Foundry / Model Foundry — ファウンデーションモデルが一次パスを当て、人が検収。

Labelbox の強みは3つ。

画像・動画・テキスト・文書・地理空間・LLM・音声を1つの UI に。 ドメインを乗り換えるたびにツールを学び直さなくていい。
SAM 2 統合の自動マスキング。 ワンクリックでマスクが引かれる。アノテーター生産性が報告ベースで5〜10倍。
Catalog + Model + Evaluation が1つのワークスペース。データセット・モデル・予測・正解を並べて見る。

価格（2026年5月の公開価格）。

Free — 5,000 データ行、3 ユーザー。
Starter — $25/seat/月から。
Enterprise — 見積もり、SSO・SCIM・オンプレオプション付き。

いつ選ぶか — マルチモーダルデータセットを扱い、セルフサービスとマネージドを自由に混ぜたく、ツール標準化に価値を置くチーム。

いつ選ばないか — データが SaaS の外に出せない場合（医療・金融・政府の一部）。そのときは CVAT セルフホストが答えだ。

4. V7 Darwin — 画像・動画・医療 AI-assisted アノテーション

V7 はロンドン拠点。「Auto-Annotate」を早期（2020年）から推し、医療画像で強い。

3つの製品。

V7 Darwin — 一般 CV アノテーションプラットフォーム。
V7 Go — 文書自動化と抽出。領収書・請求書・契約書のような業務文書の OCR + フィールド抽出を LLM で。
V7 Medical — DICOM、HIPAA、FDA 510(k) 対応。Charite、Mayo Clinic ほか。

V7 が得意なこと。

モデル補助アノテーション — 自社 SAM ライクモデル + Grounding DINO。1クリック、1ボックス、またはテキストプロンプトで即ラベル。
動画トラッキング — キーフレームを1度打てば V7 がフレーム間を補間する。
医療マルチフレーム — DICOM シリーズを一括で見る。3D マスキングも可。

価格は見積もり制。一般の入り口はチームあたり$499/月程度だが、医療・エンタープライズでは5〜6桁に一気に伸びる。

いつ選ぶか — 医療・ライフサイエンス画像、動画中心のアノテーション、GenAI でアノテーター生産性を大きく上げたいチーム。

5. Roboflow — インディ CV チームの事実上の標準

Roboflow は2020年に立ち上がった。立ち位置が明確 — 「Hugging Face for Computer Vision」。データセットホスティング、ラベリング、学習、デプロイまで1サイトで。

中核機能4つ。

Roboflow Annotate — ボックス、ポリゴン、セグメンテーション、キーポイント。SAM 2 統合。
Universe — 50万以上の公開 CV データセット。同カテゴリ（例: ヘルメット検出）なら持ってきて fine-tune で終わる。
Train — ワンクリックで YOLOv11、DETR、VLM を学習。GPU は抽象化済み。
Inference / Deploy — 学習済みモデルを Roboflow API で配信、あるいはエッジ（Jetson、Raspberry Pi）に押す。

価格。

Public — 無料、データセット公開が条件。
Starter — $249/月から、非公開。
Growth / Enterprise — $999/月から。

いつ選ぶか — CV プロトタイプを1〜2日でデータセットからデプロイまで仕上げたいインディチーム、スタートアップ、学生、産業・農業・小売のサイドプロジェクト。

いつ選ばないか — テキスト・音声アノテーション。Roboflow は CV 専用。

6. Encord — DICOM 医療 + マルチモーダル

Encord はロンドン拠点で、2024年 Davos でシリーズ B を調達した。立ち位置は「医療画像とマルチモーダルデータのアノテーション + active learning」。

差別化ポイント3つ。

DICOM / NIfTI ネイティブ — 医療画像を PNG に変換するありがちな罠を避ける。ピクセルスペーシング、HU 値、シリーズメタデータをすべて保持。
Encord Active — active learning がメイン機能。モデルが自信のないサンプルを選んで先にラベラーへ送る。
マルチモーダル — 画像、動画、DICOM、文書、音声。医療臨床試験のような場ですべて必要になる。

価格は見積もり制。医療ドメインのコンプライアンス対応（HIPAA、ISO 13485、FDA validation サポート）が中心セリングポイントだ。

いつ選ぶか — 放射線・病理・内視鏡のような医療画像 AI チーム、active learning をラベリングパイプラインの一級市民にしたいチーム。

7. SuperAnnotate、Supervisely、Hive — その他マネージド

この3社は近い立ち位置で競合する。

SuperAnnotate — アルメニア発。Adobe や Databricks のような大口顧客。強みはクリーンな UI と強い QC ワークフロー。GenAI データ（LLM RLHF）の比率を増やしている最中。価格は見積もり、$500/月程度から。

Supervisely — チェコ・ロシア発。3D 点群と医療画像に強い。1億以上のアノテーションを処理したと宣伝する。価格は Community（無料、セルフホスト・セルフサービス）と Enterprise。

Hive — SF 発。コンテンツモデレーションをラベリング基盤に発展させた会社。自社ラベラープール（200万人+） + Hive AI モデル。価格は見積もり制。

この3社から選ぶときの軸。

Adobe や Databricks のような大口ロゴで安心したい -> SuperAnnotate。
3D 点群が中心 -> Supervisely。
コンテンツモデレーション、NSFW、暴力検出のような高ボリュームが必要 -> Hive。

8. CVAT — Intel 発祥のオープンソース CV ラベリング標準

CVAT は Intel が OpenCV コミュニティ向けに作ったツールから始まった。今は別会社 CVAT.ai が運営しているが、GitHub コアは依然として OSS（MIT）だ。

CVAT が得意なこと。

画像・動画・3D 点群アノテーション — ボックス、ポリゴン、ポリライン、キーポイント、マスク、3D キューボイド。
SAM、SAM 2、YOLO 統合 — モデル補助アノテーションをセルフホストでそのまま。
チームワークフロー — Job / Task / Project 階層、レビュー、統計。
Docker Compose 1発でデプロイ — セルフホスティングが本当に簡単。

価格。

Self-hosted OSS — 無料、MIT ライセンス。
CVAT Cloud — Free（ $0、10ユーザー）、Pro（$ 45/seat/月）、Enterprise（見積もり）。

いつ選ぶか — データを外に出せないすべての CV チーム、セルフホスティングが絶対条件の政府・国防・医療・金融、予算が厳しい研究室・スタートアップ。

いつ選ばないか — テキスト・音声・LLM データ。CVAT は CV 専用だ。

9. Label Studio (HumanSignal) — マルチドメイン OSS

Label Studio は Heartex（現 HumanSignal）が作ったツールだ。CVAT が CV 専用なら、Label Studio はあらゆるデータ型を1ツールで。

対応データ型。

画像（ボックス・ポリゴン・マスク）、動画（トラッキング）、音声（セグメント・転記）、テキスト（NER・分類・要約）、HTML、時系列、会話（LLM データ）。

XML 風のラベル設定で UI を定義する（コードブロックの中だけで安全に使う）。

<View>
  <Text name="text" value="$text" />
  <Labels name="entities" toName="text">
    <Label value="PERSON" background="orange" />
    <Label value="ORG" background="green" />
  </Labels>
</View>

価格。

Community Edition — 無料 OSS（Apache 2.0）。
Starter Cloud — $99/ユーザー/月から。
Enterprise — 見積もり、SSO・SCIM・オンプレ。

いつ選ぶか — データ型が多様なチーム（テキスト + 画像 + 音声）、セルフホスティングが必要だが CV だけではないチーム、ML バックエンド統合を好むチーム。

10. Doccano、LabelImg、VIA、MakeSense、COCO Annotator — 軽量 OSS

大きなプラットフォームが重ければ軽量 OSS がある。

Doccano — テキスト専用。NER、分類、seq2seq。Python 1行で起動。日本語・韓国語・中国語の NER プロジェクトで人気。MIT。

LabelImg — ボックスだけ描くデスクトップアプリ。Pascal VOC / YOLO 形式。2024年に deprecation の案内が出たが、依然として GitHub スター2万+ のクラシック。学習用に良い。

VIA (VGG Image Annotator) — Oxford VGG の学術ツール。単一 HTML ファイルで動作。ボックス、ポリゴン、ポイント。エアギャップ環境に親和的。

MakeSense.ai — ブラウザのみ、インストール不要。軽くデモするのに良い。YOLO・VOC・COCO エクスポート。

COCO Annotator — COCO 形式ネイティブ。小チームのインスタンスセグメンテーションで使われる。

共通点 — すぐ始められる。 欠点 — チーム・QC・model-assist のような大きなワークフローがない。プロトタイプを超えると CVAT・Label Studio へ移行する。

11. 3D・Lidar アノテーション — Segments、Deepen、3D Map Labs

自動運転とロボティクスは 3D 点群ラベリングが本業だ。

Segments.ai — ベルギー発。マルチセンサー（Lidar + カメラ）を同時に見る。点群インスタンスセグメンテーション、セマンティックセグメンテーション、キューボイド。価格は見積もり、$500/月程度から。

Deepen AI — 自動運転特化。Lidar シーケンストラッキング、キャリブレーションツールまで束ねて売る。Toyota、Honda、BMW などの自動車会社が顧客。

3D Map Labs — HD マップアノテーション専門。自動運転のための車線・標識・信号マッピング。

いつ選ばないか — 単発の 3D プロジェクト。そのときは CVAT または Supervisely の 3D モードで十分だ。

12. LLM 評価 + RLHF — Argilla、Surge AI、Outlier、Snorkel

LLM 時代でラベリングの形が変わった。「ボックスを描く」のではなく「2つの応答のどちらが良いか」または「この応答は事実か」を答える。これが RLHF データや評価データだ。

Argilla（2024年 Hugging Face が買収） — オープンソース LLM データラベリング・キュレーション。Distilabel と組み合わせて合成データパイプラインを書く。HF Hub と直結。Apache 2.0。

Surge AI — Scale AI の真の競合。RLHF / 評価データのマネージド。OpenAI、Anthropic が Scale 比率を減らしながら Surge を伸ばしている。ラベラー品質が堀 — 専門分野（法務・医学・コーディング）のラベラーを明示的にマッチさせる。

Outlier — Scale AI のラベラー向けプラットフォーム（2024年リブランド）。世界中で24万人。RLHF・評価・コードレビューラベリングが中心。

Snorkel AI — プログラマティック・ラベリングの元祖。ヒューリスティック・弱教師で一次ラベルを作り、モデルで伝播。Snowflake、JPMorgan のようなエンタープライズで使われる。

いつ選ぶか —

LLM ファインチューニングデータ・評価セットが中心 -> Argilla (OSS) または Surge AI (マネージド)。
「人を使わずルールで一次ラベル」戦略 -> Snorkel。

13. データ品質 — Cleanlab、Galileo、Lilac

ラベリングの次は品質チェックだ。

Cleanlab — MIT 発。「Confident Learning」アルゴリズムでラベルエラーを自動検出。データセットから誤りの5〜15%を拾う。Cleanlab Studio は SaaS、cleanlab はオープンソースライブラリ（BSD）。

Galileo — LLM・NLP データオブザーバビリティ。学習データから「モデルが混乱するサンプル」「低品質スパン」「ドリフト」のようなものを可視化。エンタープライズ SaaS。

Lilac（Hugging Face が買収） — テキストデータセット探索・クラスタリング・重複検出。オープンソース。

核心となる気づき — 「ラベルを100個追加する」より「既存ラベル1,000個の中から間違った50個を直す」のほうが効く。 モデル精度が1〜5ポイント上がるのが普通（特に不均衡ドメインで）。

14. クラウドソーシング — MTurk、Clickworker、Appen、TELUS

大量・低難度・言語の多様性が必要なときクラウドソーシングが割り込む。

Amazon Mechanical Turk — 2005年開始のオリジナル。最安（タスク$0.01〜）、最も統制が弱い。品質管理（qualifications、master workers、consensus）が大きな宿題。

Clickworker — ドイツ発。MTurk より精製されたクラウド。多言語のテキスト・画像・音声。

Appen — オーストラリア発。音声データ（コールセンター、ASR）に強い。Lionbridge AI（TELUS が買収）と並び音声・言語データの二大柱。

TELUS International AI Data Solutions — Lionbridge AI を統合。Microsoft、Google、Apple の音声アシスタント学習データを多数処理。

いつ選ぶか — 大量の単純作業（画像分類、短文分類）、多言語音声データ収集。ドメイン専門性が必要な作業には Scale、Surge、Labelbox Boost のほうが向く。

15. 自動ラベリング — SAM 2、Grounding DINO、CLIP、GPT-4V、Claude Vision

2026年アノテーションの最大の変化はモデルが一次ラベラーになったことだ。

SAM 2 (Meta, 2024) — 画像・動画セグメンテーションの万能モデル。1クリック・1ボックス、またはテキストでマスクが出る。Labelbox、CVAT、Roboflow すべてが統合した。

Grounding DINO (IDEA) — テキストプロンプト（「ヘルメットを着けた人」）で箱を引く。オープン語彙検出。SAM 2 と組み合わせると（GroundingSAM）テキスト -> 箱 -> マスクが一気通貫で出る。

CLIP / SigLIP — ゼロショット分類。「これは何の画像?」を問い、定義済みラベルから1つ選ぶ。箱・マスクはできないが分類ラベリングに強い。

GPT-4V / Claude Vision / Gemini Vision — VLM に画像を投げてラベルを尋ねる。最も高価で最も柔軟。few-shot プロンプトでドメインを教えられる。

ワークフローパターン。

# 自動ラベリングパイプラインの擬似コード
for image in dataset:
    boxes = grounding_dino(image, prompt="helmet, vest, person")
    masks = sam2(image, boxes=boxes)
    labels = label_studio_predictions(image, boxes, masks)
    push_to_review(labels)  # 人間は検収のみ

この単一パターンが2026年 CV アノテーションの標準だ。アノテーターの仕事は**「箱を描く」から「AI が描いた箱を検収する」へ明確に移った**。生産性が5〜10倍上がり、単調作業が減ることでラベラーの burnout も減った。

16. AI 安全ラベリング — レッドチーム・jailbreak アノテーション

LLM 時代に新しく生まれたラベリングカテゴリだ。

レッドチームプロンプトキュレーション — 潜在的に危険なプロンプトを集め、モデルの応答を評価。Anthropic、OpenAI ともに社内 + 外注。
Jailbreak データ — モデルがガードレールを破るケースを収集。学習用と評価用。
有害コンテンツ分類 — toxicity、ヘイトスピーチ、CSAM。Hive、ActiveFence、Surge AI。

核心の難題はラベラーのメンタルヘルスだ。暴力、CSAM、自殺コンテンツを扱うラベラーは PTSD のリスクが実在する。2023年に Time が OpenAI ケニア・ラベラーの処遇問題を暴露して以降、業界はガイドラインを改善中だ。Sama、Surge AI は明示的にメンタルヘルスケアプログラムを置いている。

17. ドメイン別 — 医療、自動運転、地理空間

ドメインが明確なら、ドメイン特化ツールのほうが早い。

医療

Encord — DICOM ネイティブ、FDA validation 支援。
V7 Medical — 画像 + 臨床試験ワークフロー。
Cohort.ai（旧 Centaur Labs） — 医師ラベラーネットワーク。
MD.ai、Cogitech — 放射線特化。

自動運転

Scale AI Data Engine — カメラ + Lidar + レーダー同期。
Mighty AI（Uber が買収）
Understand.ai（DSpace が買収）
Deepen AI — キャリブレーション + Lidar。

地理空間

GroundWork (CamoLabs) — 衛星・ドローン画像。
RemoteSensingAI — 農業・林業特化。
Mapbox Labelbox 統合 — 都市マッピング。

18. 品質管理 — IAA、Cohen's kappa、consensus

ラベリングは人がやる。人は間違える。だから品質管理は任意のラベリングツールにとって一級機能だ。

中核指標3つ。

Inter-annotator agreement (IAA) — 2人以上のラベラーが同じサンプルに同意した割合。
Cohen's kappa — 偶然の一致を補正した IAA。0.6+ で「まあまあ」、0.8+ で「良好」。
Fleiss' kappa — 3人以上のラベラー版。

ワークフローパターン。

Consensus voting — 同じサンプルを N 人がラベル、多数決。
Gold standard injection — 正解既知のサンプルを混ぜ込み、ラベラー精度を監視。
Adjudication queue — ラベラー間で意見が割れるサンプルをシニアアノテーターへルート。

マネージドプラットフォーム（Scale、Labelbox、V7）はこれをビルトインで提供する。CVAT・Label Studio は自前で組む必要があるが、Job / Review プリミティブで骨格は揃う。

19. Active learning — どのサンプルをラベリングするかをモデルが決める

ラベリング予算は無限ではない。だから「どのサンプルを先にラベリングするか」が大きな判断になる。

Active learning のアイデア — モデルが自信のないサンプル、クラス境界にあるサンプル、新しいクラスタにあるサンプルを先にラベラーへ送る。

戦略3つ。

Uncertainty sampling — モデルの予測確率が0.5付近のサンプル。
Margin sampling — top-1 と top-2 の確率差が小さいサンプル。
Diversity sampling — 埋め込み空間で遠く離れたクラスタ代表。

ツール。

Encord Active — 一級機能。
Cleanlab Studio — ラベルエラーと uncertainty を同時に。
Roboflow — Smart Polygon + モデル補助。
CVAT — 自前の nuclio パイプラインで構築可能。

経験則 — active learning を入れると同じモデル性能を半分のラベルで到達できる。 この半分がラベリングコストの半分だ。

20. 韓国アノテーションエコシステム — AI Hub、EzData、Testworks

韓国語・韓国特化データはグローバルツールだけでは賄えない。

AI Hub（NIA、韓国知能情報社会振興院） — 韓国政府の AI データセットハブ。韓国語 NLP、韓国映像、韓国音声データセットが数千件公開。多くが公的予算でラベリングまで進められた。

EzData（이지데이터） — 韓国語ラベリングのマネージドサービス。韓国語 NER、韓国医療画像など。

Testworks（테스트웍스） — ラベリング + QA サービス。ダイバーシティ採用で社会的企業認証を取得。

活用戦略 — AI Hub から公開データセットを一次学習データとして取り、EzData・Testworks でドメイン特化ラベリングを追加する。

21. 日本アノテーションエコシステム — ABEJA、FastLabel、AnnoFab

日本は産業・自動車データに強い。

ABEJA Platform — 日本の ML プラットフォーム。アノテーション + 学習 + デプロイまで。トヨタ、NTT、東急のような大口顧客。

FastLabel — 東京発の AI アノテーション SaaS。日本市場で最も速く成長中。Honda、Sony のような顧客。

Anolytics — 日本・インド同時進出。マネージド・ラベリング。

AnnoFab — 日本市場のアノテーションツール。政府 + 製造業。

活用戦略 — 日本市場特化データ（例: 日本語 OCR、日本道路自動運転）は日本企業がドメイン知識とラベラープールで優位だ。

22. 価格比較 — 実際に何がいくらするのか

ざっくり価格地図（2026年5月時点）。

カテゴリ	ツール	価格帯
マネージド・エンタープライズ	Scale AI	見積もり、一般に$100K+/年
マネージド・エンタープライズ	Labelbox Enterprise	見積もり、 $50K〜$ 500K/年
セルフサービス SaaS	Labelbox Starter	$25/seat/月
セルフサービス SaaS	Label Studio Cloud	$99/ユーザー/月
セルフサービス SaaS	Roboflow	$249〜$ 999/月
セルフサービス SaaS	V7 Darwin	$499/月〜
セルフホスト OSS	CVAT	$0
セルフホスト OSS	Label Studio Community	$0
セルフホスト OSS	Doccano、LabelImg、VIA	$0
クラウド	MTurk	タスクあたり$0.01〜
RLHF マネージド	Surge AI	見積もり、時給 $25〜$ 80
自動ラベリング API	Roboflow Auto、Labelbox Foundry	画像あたり $0.001〜$ 0.01
自動ラベリング VLM	GPT-4V、Claude Vision	画像あたり $0.01〜$ 0.05

要点 — セルフホスト OSS はツールは無料だがラベラー人件費は別。 マネージドはツール + ラベラー + QC を一括請求する。

23. 意思決定ツリー — うちのチームは何を選ぶべきか

5つの分岐点。

データを SaaS の外に出してよいか?
- だめ -> CVAT、Label Studio Community、Doccano（セルフホスト OSS）。
- よい -> 次の分岐へ。
ドメインは何か?
- 画像/動画一般 -> Roboflow（インディ）または Labelbox（エンタープライズ）。
- 医療 -> Encord、V7 Medical。
- 自動運転 3D -> Scale AI、Deepen AI、Segments.ai。
- テキスト/NER -> Label Studio、Doccano、Argilla。
- LLM RLHF/評価 -> Argilla (OSS)、Surge AI（マネージド）。
ラベラーを自社で集められるか?
- 集められる -> セルフサービス（Labelbox、Roboflow、Label Studio Cloud）。
- 外注が必要 -> マネージド（Scale、Surge、Labelbox Boost、V7）。
予算はいくらか?
- $0〜$ 10K/年 -> OSS セルフホスト + インターン。
- $10K〜$ 100K/年 -> Roboflow、Labelbox Starter、Label Studio Cloud。
- $100K+/年 -> Labelbox Enterprise、V7、Encord、Scale の一部。
自動ラベリングを一級市民にするか?
- する -> Encord Active、Cleanlab、SAM 2 統合ツール。
- 人間優先 -> Scale、Surge、MTurk。

24. 実戦ワークフロー — 1週間で初データセットを作る

初めての CV データセットを1週間で100〜1,000枚ラベリングまで持っていくワークフロー。

Day 1 — 収集。クローリング（Apify、Firecrawl）か自前撮影。Storage は S3。
Day 2 — ツール選定。データが機微でなくインディなら Roboflow。機微なら CVAT セルフホスト。
Day 3 — 自動ラベリング一次パス。Grounding DINO + SAM 2 で箱とマスク。Roboflow なら「Smart Polygon」、CVAT なら SAM 2 モジュール。
Day 4 — 人による検収。自動ラベルが引いた箱を素早く検収・修正。普通に人が新規に描くより3〜5倍速い。
Day 5 — 品質チェック。Cleanlab または Encord Active でラベル誤り候補を検出。10〜20件再確認。
Day 6 — 学習。Roboflow Train か自前 PyTorch。最初のベースラインモデル。
Day 7 — 分析。モデルが最も混乱したサンプル N 件を active learning で次のラベリングキューへ追加。

このループを4〜6回回すと、たいてい production-ready モデルが出来上がる。

25. 正直な意思決定 — モデルではなくデータパイプラインを組もう

最後に一行 — 2026年の ML チームの差別化はモデルではなくデータパイプラインだ。

同じ GPT-4o、同じ Llama 3、同じ YOLOv11 をみなが使う。私たちの優位は自分たちのラベリングデータ、自分たちの評価セット、自分たちの品質管理ワークフローだ。

ツールは手の届くものから。CV なら Roboflow か CVAT、テキストなら Label Studio か Doccano、LLM なら Argilla。すべて無料か低コストで始められる。マネージドは自社でラベラーを集められないとき以外は先送りでよい — マネージドを入れた後でツールを変えるのは難しいが、セルフサービスからマネージドへの移行は自然だ。

そして忘れてはいけない — ラベルを100個追加するより、既存1,000個から間違った50個を直すほうが効く。 Cleanlab を半日立ち上げてみるところから始めよう。

26. 参考文献

Scale AI / Meta 提携発表 (2025): https://www.cnbc.com/2025/06/13/meta-scale-ai-investment.html
Scale AI: https://scale.com
Surge AI: https://www.surgehq.ai
Labelbox 価格: https://labelbox.com/pricing
Labelbox ドキュメント: https://docs.labelbox.com
V7 Darwin: https://www.v7labs.com/darwin
V7 Medical: https://www.v7labs.com/medical
Roboflow: https://roboflow.com
Roboflow Universe: https://universe.roboflow.com
Encord: https://encord.com
SuperAnnotate: https://www.superannotate.com
Supervisely: https://supervisely.com
Hive: https://thehive.ai
CVAT: https://www.cvat.ai
CVAT GitHub: https://github.com/cvat-ai/cvat
Label Studio: https://labelstud.io
Label Studio Enterprise: https://humansignal.com
Doccano: https://github.com/doccano/doccano
Segments.ai: https://segments.ai
Deepen AI: https://www.deepen.ai
Argilla: https://argilla.io
Cleanlab: https://cleanlab.ai
Galileo: https://www.rungalileo.io
Lilac: https://www.lilacml.com
Snorkel AI: https://snorkel.ai
SAM 2 (Meta): https://ai.meta.com/sam2/
Grounding DINO: https://github.com/IDEA-Research/GroundingDINO
Amazon Mechanical Turk: https://www.mturk.com
Clickworker: https://www.clickworker.com
Appen: https://appen.com
TELUS International AI Data Solutions: https://www.telusinternational.com/solutions/ai-data-solutions
AI Hub (NIA): https://aihub.or.kr
EzData: https://www.ezdata.co.kr
Testworks: https://www.testworks.co.kr
ABEJA Platform: https://abejainc.com/platform
FastLabel: https://fastlabel.ai
AnnoFab: https://annofab.com