💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 2026年もラベリングは高くて難しい

GPT-5 も Claude 4 も Gemini 3 も同じ秘密を共有している。**データはモデルより高い。** 2025年に Meta が Scale AI に143億ドルを注いだのは単発の事件ではなく信号だった — 「フロンティアモデルを作るにはラベラーの軍隊を買う必要がある」と。

2026年5月時点、ラベリング業界は二手に割れた。

一方は**エンタープライズ・マネージドプラットフォーム**だ。Scale AI、Labelbox、V7、Encord — 自社ラベラープールと自社ツールを束ねて売る。RLHF、自動運転、医療画像のようにドメイン専門性が必要な領域で勝つ。

もう一方は **OSS セルフホスト**だ。CVAT、Label Studio、Doccano — ツールだけ無料で渡し、ラベラーは自チームで集める。データが機微（医療・金融）だったり、予算がタイトだったり（スタートアップ・研究室）、ドメインが特殊（日本語法務 NER）でアウトソースが効かない場合に勝つ。

そして両側の上から **ファウンデーションモデルがアノテーションを飲み込もうとしている**。SAM 2 がマスクを自動で見つけ、Grounding DINO がテキストから箱を引く。アノテーターの役割は「箱を描く」から「AI が描いた箱をレビューする」へと移った。

この記事はその地図を描く。25のツールを8カテゴリに整理し、自動運転・医療・LLM RLHF・日本語 NER のどれをやるにせよ、どこから始めるべきかを示す。

1. 2026年アノテーション地図 — 8カテゴリでまとめる

まず風景を1ページに収める。

| カテゴリ | 代表ツール | 誰が使うか |

| --- | --- | --- |

| 1. エンタープライズ・マネージド | Scale AI, Labelbox, V7, Encord, SuperAnnotate | OpenAI、Tesla、Waymo、製薬 |

| 2. CV 特化 | Roboflow, Supervisely, Hive | インディ CV、農業、産業 |

| 3. OSS セルフホスト | CVAT, Label Studio, Doccano | 研究、スタートアップ、政府 |

| 4. 3D / Lidar | Segments.ai, Deepen AI, 3D Map Labs | 自動運転、ロボティクス |

| 5. LLM 評価 / RLHF | Argilla, Surge AI, Outlier, Snorkel | ファウンデーションモデルチーム |

| 6. データ品質 | Cleanlab, Galileo, Lilac | ML オペレーションチーム |

| 7. クラウドソーシング | Mechanical Turk, Clickworker, Appen | 大量・低難度 |

| 8. 自動ラベリングモデル | SAM 2, Grounding DINO, GPT-4V, Claude Vision | 1〜7すべてに割り込む |

核心となる観察3つ。

- **カテゴリ1と3は同じ問題を別の仕方で解く。** マネージドは「ラベラー + ツール + QC」をひとまとめで売る。OSS はツールだけ。判断軸は「データを外に出せるか」と「予算」だ。

- **カテゴリ8は1〜7すべてに埋め込まれている。** Labelbox は SAM 2 を model-assisted labeling として統合した。CVAT も同様。Roboflow は自前の自動ラベリング API を売っている。「AI が一次、人が検収」が2026年のデフォルトだ。

- **カテゴリ6（データ品質）はラベリングと同等の重さを持つようになった。** ラベリングしたあとに Cleanlab でエラーを探し、Argilla でキュレーションする — これが標準パターンだ。

ツール単体ではなく**パイプライン**で見ろ。**収集 → 自動ラベリング → 人による検収 → 品質チェック → キュレーション**の5段階すべてが必要だ。

2. Scale AI — マネージドラベリングの王者、Meta 取引の意味

Scale AI は2016年に Alexandr Wang が19歳で創業した。2025年6月、**Meta が Scale AI に143億ドルを投資**し、Wang を Meta Superintelligence Labs の Chief AI Officer として迎え入れた。この取引の本当の意味は2つある。

第一に、**Scale はもはや中立のラベラーではない。** OpenAI、Google DeepMind、Anthropic は Scale 依存を巻き戻し始めた（2025年7月 Reuters 報道）。Meta 取引が決まるやいなや OpenAI は自社ラベラープールを増強し、Surge AI のシェアを高めた。「自分のフロンティアモデル学習データを競合の子会社に預けない」というシンプルな理屈だ。

第二に、**ラベリングは単発の事件ではなく市場のインフラになった。** Meta が143億ドル払う価値があると判断するほどに。

Scale の製品ラインは4つに分かれる。

- **Scale Data Engine** — 自動運転・ロボティクスのアノテーション。Waymo、Cruise（撤退前）、Toyota などが使った。

- **Scale Donovan** — 政府・国防向け。DoD 契約。

- **Scale GenAI** — RLHF、プロンプトキュレーション、評価データ。OpenAI o1 や GPT-4 の学習で大きな役割。

- **Outlier.ai** — Scale が運営するラベラー向けプラットフォーム。世界中で24万人。

価格は非公開。1ボックス0.05ドルから1時間60ドルまで、ドメイン・複雑度・QC ティアで幅広く動く。「エンタープライズ営業に相談を」が標準回答だ。

いつ選ぶか — **自動運転・国防・フロンティア LLM 学習のようにドメイン専門性が必須で予算が大きい現場。** インディ・スタートアップにはオーバーキル。

いつ選ばないか — Meta 子会社化を警戒する OpenAI・DeepMind 競合の ML チーム。彼らは Surge AI か自社ラベラーへ移行中だ。

3. Labelbox — エンタープライズ・セルフサービス + マネージド

Labelbox は2018年に SF で立ち上がり、2024年シリーズ D を調達した。立ち位置は「Scale は高すぎ、CVAT は生すぎる。その間を埋める」。

3つのモードを1つのプラットフォームに束ねた。

- **セルフサービス・ラベリング** — 自チームでラベリング。$25/seat/月から。

- **Boost（マネージド）** — Labelbox がラベラーを供給。

- **Foundry / Model Foundry** — ファウンデーションモデルが一次パスを当て、人が検収。

Labelbox の強みは3つ。

- **画像・動画・テキスト・文書・地理空間・LLM・音声を1つの UI に。** ドメインを乗り換えるたびにツールを学び直さなくていい。

- **SAM 2 統合の自動マスキング。** ワンクリックでマスクが引かれる。アノテーター生産性が報告ベースで5〜10倍。

- **Catalog + Model + Evaluation** が1つのワークスペース。データセット・モデル・予測・正解を並べて見る。

価格（2026年5月の公開価格）。

- Free — 5,000 データ行、3 ユーザー。

- Starter — $25/seat/月から。

- Enterprise — 見積もり、SSO・SCIM・オンプレオプション付き。

いつ選ぶか — マルチモーダルデータセットを扱い、セルフサービスとマネージドを自由に混ぜたく、ツール標準化に価値を置くチーム。

いつ選ばないか — データが SaaS の外に出せない場合（医療・金融・政府の一部）。そのときは CVAT セルフホストが答えだ。

4. V7 Darwin — 画像・動画・医療 AI-assisted アノテーション

V7 はロンドン拠点。「Auto-Annotate」を早期（2020年）から推し、医療画像で強い。

3つの製品。

- **V7 Darwin** — 一般 CV アノテーションプラットフォーム。

- **V7 Go** — 文書自動化と抽出。領収書・請求書・契約書のような業務文書の OCR + フィールド抽出を LLM で。

- **V7 Medical** — DICOM、HIPAA、FDA 510(k) 対応。Charite、Mayo Clinic ほか。

V7 が得意なこと。

- **モデル補助アノテーション** — 自社 SAM ライクモデル + Grounding DINO。1クリック、1ボックス、またはテキストプロンプトで即ラベル。

- **動画トラッキング** — キーフレームを1度打てば V7 がフレーム間を補間する。

- **医療マルチフレーム** — DICOM シリーズを一括で見る。3D マスキングも可。

価格は見積もり制。一般の入り口はチームあたり$499/月程度だが、医療・エンタープライズでは5〜6桁に一気に伸びる。

いつ選ぶか — **医療・ライフサイエンス画像、動画中心のアノテーション、GenAI でアノテーター生産性を大きく上げたいチーム。**

5. Roboflow — インディ CV チームの事実上の標準

Roboflow は2020年に立ち上がった。立ち位置が明確 — 「Hugging Face for Computer Vision」。データセットホスティング、ラベリング、学習、デプロイまで1サイトで。

中核機能4つ。

- **Roboflow Annotate** — ボックス、ポリゴン、セグメンテーション、キーポイント。SAM 2 統合。

- **Universe** — 50万以上の公開 CV データセット。同カテゴリ（例: ヘルメット検出）なら持ってきて fine-tune で終わる。

- **Train** — ワンクリックで YOLOv11、DETR、VLM を学習。GPU は抽象化済み。

- **Inference / Deploy** — 学習済みモデルを Roboflow API で配信、あるいはエッジ（Jetson、Raspberry Pi）に押す。

価格。

- Public — 無料、データセット公開が条件。

- Starter — $249/月から、非公開。

- Growth / Enterprise — $999/月から。

いつ選ぶか — **CV プロトタイプを1〜2日でデータセットからデプロイまで仕上げたいインディチーム、スタートアップ、学生、産業・農業・小売のサイドプロジェクト。**

いつ選ばないか — テキスト・音声アノテーション。Roboflow は CV 専用。

6. Encord — DICOM 医療 + マルチモーダル

Encord はロンドン拠点で、2024年 Davos でシリーズ B を調達した。立ち位置は「医療画像とマルチモーダルデータのアノテーション + active learning」。

差別化ポイント3つ。

- **DICOM / NIfTI ネイティブ** — 医療画像を PNG に変換するありがちな罠を避ける。ピクセルスペーシング、HU 値、シリーズメタデータをすべて保持。

- **Encord Active** — active learning がメイン機能。モデルが自信のないサンプルを選んで先にラベラーへ送る。

- **マルチモーダル** — 画像、動画、DICOM、文書、音声。医療臨床試験のような場ですべて必要になる。

価格は見積もり制。医療ドメインのコンプライアンス対応（HIPAA、ISO 13485、FDA validation サポート）が中心セリングポイントだ。

いつ選ぶか — **放射線・病理・内視鏡のような医療画像 AI チーム、active learning をラベリングパイプラインの一級市民にしたいチーム。**

7. SuperAnnotate、Supervisely、Hive — その他マネージド

この3社は近い立ち位置で競合する。

**SuperAnnotate** — アルメニア発。Adobe や Databricks のような大口顧客。強みはクリーンな UI と強い QC ワークフロー。GenAI データ（LLM RLHF）の比率を増やしている最中。価格は見積もり、$500/月程度から。

**Supervisely** — チェコ・ロシア発。3D 点群と医療画像に強い。1億以上のアノテーションを処理したと宣伝する。価格は Community（無料、セルフホスト・セルフサービス）と Enterprise。

**Hive** — SF 発。コンテンツモデレーションをラベリング基盤に発展させた会社。自社ラベラープール（200万人+） + Hive AI モデル。価格は見積もり制。

この3社から選ぶときの軸。

- **Adobe や Databricks のような大口ロゴで安心したい** -> SuperAnnotate。

- **3D 点群が中心** -> Supervisely。

- **コンテンツモデレーション、NSFW、暴力検出**のような高ボリュームが必要 -> Hive。

8. CVAT — Intel 発祥のオープンソース CV ラベリング標準

CVAT は Intel が OpenCV コミュニティ向けに作ったツールから始まった。今は別会社 CVAT.ai が運営しているが、GitHub コアは依然として OSS（MIT）だ。

CVAT が得意なこと。

- **画像・動画・3D 点群アノテーション** — ボックス、ポリゴン、ポリライン、キーポイント、マスク、3D キューボイド。

- **SAM、SAM 2、YOLO 統合** — モデル補助アノテーションをセルフホストでそのまま。

- **チームワークフロー** — Job / Task / Project 階層、レビュー、統計。

- **Docker Compose 1発でデプロイ** — セルフホスティングが本当に簡単。

価格。

- Self-hosted OSS — 無料、MIT ライセンス。

- CVAT Cloud — Free（$0、10ユーザー）、Pro（$45/seat/月）、Enterprise（見積もり）。

いつ選ぶか — **データを外に出せないすべての CV チーム、セルフホスティングが絶対条件の政府・国防・医療・金融、予算が厳しい研究室・スタートアップ。**

いつ選ばないか — テキスト・音声・LLM データ。CVAT は CV 専用だ。

9. Label Studio (HumanSignal) — マルチドメイン OSS

Label Studio は Heartex（現 HumanSignal）が作ったツールだ。CVAT が CV 専用なら、Label Studio はあらゆるデータ型を1ツールで。

対応データ型。

- 画像（ボックス・ポリゴン・マスク）、動画（トラッキング）、音声（セグメント・転記）、テキスト（NER・分類・要約）、HTML、時系列、会話（LLM データ）。

XML 風のラベル設定で UI を定義する（コードブロックの中だけで安全に使う）。

価格。

- Community Edition — 無料 OSS（Apache 2.0）。

- Starter Cloud — $99/ユーザー/月から。

- Enterprise — 見積もり、SSO・SCIM・オンプレ。

いつ選ぶか — **データ型が多様なチーム（テキスト + 画像 + 音声）、セルフホスティングが必要だが CV だけではないチーム、ML バックエンド統合を好むチーム。**

10. Doccano、LabelImg、VIA、MakeSense、COCO Annotator — 軽量 OSS

大きなプラットフォームが重ければ軽量 OSS がある。

**Doccano** — テキスト専用。NER、分類、seq2seq。Python 1行で起動。日本語・韓国語・中国語の NER プロジェクトで人気。MIT。

**LabelImg** — ボックスだけ描くデスクトップアプリ。Pascal VOC / YOLO 形式。2024年に deprecation の案内が出たが、依然として GitHub スター2万+ のクラシック。学習用に良い。

**VIA (VGG Image Annotator)** — Oxford VGG の学術ツール。単一 HTML ファイルで動作。ボックス、ポリゴン、ポイント。エアギャップ環境に親和的。

**MakeSense.ai** — ブラウザのみ、インストール不要。軽くデモするのに良い。YOLO・VOC・COCO エクスポート。

**COCO Annotator** — COCO 形式ネイティブ。小チームのインスタンスセグメンテーションで使われる。

共通点 — **すぐ始められる。** 欠点 — **チーム・QC・model-assist** のような大きなワークフローがない。プロトタイプを超えると CVAT・Label Studio へ移行する。

11. 3D・Lidar アノテーション — Segments、Deepen、3D Map Labs

自動運転とロボティクスは 3D 点群ラベリングが本業だ。

**Segments.ai** — ベルギー発。マルチセンサー（Lidar + カメラ）を同時に見る。点群インスタンスセグメンテーション、セマンティックセグメンテーション、キューボイド。価格は見積もり、$500/月程度から。

**Deepen AI** — 自動運転特化。Lidar シーケンストラッキング、キャリブレーションツールまで束ねて売る。Toyota、Honda、BMW などの自動車会社が顧客。

**3D Map Labs** — HD マップアノテーション専門。自動運転のための車線・標識・信号マッピング。

いつ選ばないか — 単発の 3D プロジェクト。そのときは CVAT または Supervisely の 3D モードで十分だ。

12. LLM 評価 + RLHF — Argilla、Surge AI、Outlier、Snorkel

LLM 時代でラベリングの形が変わった。「ボックスを描く」のではなく「2つの応答のどちらが良いか」または「この応答は事実か」を答える。これが RLHF データや評価データだ。

**Argilla**（2024年 Hugging Face が買収） — オープンソース LLM データラベリング・キュレーション。Distilabel と組み合わせて合成データパイプラインを書く。HF Hub と直結。Apache 2.0。

**Surge AI** — Scale AI の真の競合。RLHF / 評価データのマネージド。OpenAI、Anthropic が Scale 比率を減らしながら Surge を伸ばしている。ラベラー品質が堀 — 専門分野（法務・医学・コーディング）のラベラーを明示的にマッチさせる。

**Outlier** — Scale AI のラベラー向けプラットフォーム（2024年リブランド）。世界中で24万人。RLHF・評価・コードレビューラベリングが中心。

**Snorkel AI** — プログラマティック・ラベリングの元祖。ヒューリスティック・弱教師で一次ラベルを作り、モデルで伝播。Snowflake、JPMorgan のようなエンタープライズで使われる。

いつ選ぶか —

- LLM ファインチューニングデータ・評価セットが中心 -> **Argilla (OSS) または Surge AI (マネージド)**。

- 「人を使わずルールで一次ラベル」戦略 -> **Snorkel**。

13. データ品質 — Cleanlab、Galileo、Lilac

ラベリングの次は品質チェックだ。

**Cleanlab** — MIT 発。「Confident Learning」アルゴリズムでラベルエラーを自動検出。データセットから誤りの5〜15%を拾う。Cleanlab Studio は SaaS、cleanlab はオープンソースライブラリ（BSD）。

**Galileo** — LLM・NLP データオブザーバビリティ。学習データから「モデルが混乱するサンプル」「低品質スパン」「ドリフト」のようなものを可視化。エンタープライズ SaaS。

**Lilac**（Hugging Face が買収） — テキストデータセット探索・クラスタリング・重複検出。オープンソース。

核心となる気づき — **「ラベルを100個追加する」より「既存ラベル1,000個の中から間違った50個を直す」のほうが効く。** モデル精度が1〜5ポイント上がるのが普通（特に不均衡ドメインで）。

14. クラウドソーシング — MTurk、Clickworker、Appen、TELUS

大量・低難度・言語の多様性が必要なときクラウドソーシングが割り込む。

**Amazon Mechanical Turk** — 2005年開始のオリジナル。最安（タスク$0.01〜）、最も統制が弱い。品質管理（qualifications、master workers、consensus）が大きな宿題。

**Clickworker** — ドイツ発。MTurk より精製されたクラウド。多言語のテキスト・画像・音声。

**Appen** — オーストラリア発。音声データ（コールセンター、ASR）に強い。Lionbridge AI（TELUS が買収）と並び音声・言語データの二大柱。

**TELUS International AI Data Solutions** — Lionbridge AI を統合。Microsoft、Google、Apple の音声アシスタント学習データを多数処理。

いつ選ぶか — **大量の単純作業（画像分類、短文分類）、多言語音声データ収集**。ドメイン専門性が必要な作業には Scale、Surge、Labelbox Boost のほうが向く。

15. 自動ラベリング — SAM 2、Grounding DINO、CLIP、GPT-4V、Claude Vision

2026年アノテーションの最大の変化は**モデルが一次ラベラーになった**ことだ。

**SAM 2 (Meta, 2024)** — 画像・動画セグメンテーションの万能モデル。1クリック・1ボックス、またはテキストでマスクが出る。Labelbox、CVAT、Roboflow すべてが統合した。

**Grounding DINO (IDEA)** — テキストプロンプト（「ヘルメットを着けた人」）で箱を引く。オープン語彙検出。SAM 2 と組み合わせると（GroundingSAM）テキスト -> 箱 -> マスクが一気通貫で出る。

**CLIP / SigLIP** — ゼロショット分類。「これは何の画像?」を問い、定義済みラベルから1つ選ぶ。箱・マスクはできないが分類ラベリングに強い。

**GPT-4V / Claude Vision / Gemini Vision** — VLM に画像を投げてラベルを尋ねる。最も高価で最も柔軟。few-shot プロンプトでドメインを教えられる。

ワークフローパターン。

自動ラベリングパイプラインの擬似コード

for image in dataset:

boxes = grounding_dino(image, prompt="helmet, vest, person")

masks = sam2(image, boxes=boxes)

labels = label_studio_predictions(image, boxes, masks)

push_to_review(labels) # 人間は検収のみ

この単一パターンが2026年 CV アノテーションの標準だ。アノテーターの仕事は**「箱を描く」から「AI が描いた箱を検収する」へ明確に移った**。生産性が5〜10倍上がり、単調作業が減ることでラベラーの burnout も減った。

16. AI 安全ラベリング — レッドチーム・jailbreak アノテーション

LLM 時代に新しく生まれたラベリングカテゴリだ。

- **レッドチームプロンプトキュレーション** — 潜在的に危険なプロンプトを集め、モデルの応答を評価。Anthropic、OpenAI ともに社内 + 外注。

- **Jailbreak データ** — モデルがガードレールを破るケースを収集。学習用と評価用。

- **有害コンテンツ分類** — toxicity、ヘイトスピーチ、CSAM。Hive、ActiveFence、Surge AI。

核心の難題は**ラベラーのメンタルヘルス**だ。暴力、CSAM、自殺コンテンツを扱うラベラーは PTSD のリスクが実在する。2023年に Time が OpenAI ケニア・ラベラーの処遇問題を暴露して以降、業界はガイドラインを改善中だ。Sama、Surge AI は明示的にメンタルヘルスケアプログラムを置いている。

17. ドメイン別 — 医療、自動運転、地理空間

ドメインが明確なら、ドメイン特化ツールのほうが早い。

**医療**

- **Encord** — DICOM ネイティブ、FDA validation 支援。

- **V7 Medical** — 画像 + 臨床試験ワークフロー。

- **Cohort.ai（旧 Centaur Labs）** — 医師ラベラーネットワーク。

- **MD.ai、Cogitech** — 放射線特化。

**自動運転**

- **Scale AI Data Engine** — カメラ + Lidar + レーダー同期。

- **Mighty AI**（Uber が買収）

- **Understand.ai**（DSpace が買収）

- **Deepen AI** — キャリブレーション + Lidar。

**地理空間**

- **GroundWork (CamoLabs)** — 衛星・ドローン画像。

- **RemoteSensingAI** — 農業・林業特化。

- **Mapbox Labelbox 統合** — 都市マッピング。

18. 品質管理 — IAA、Cohen's kappa、consensus

ラベリングは人がやる。人は間違える。だから品質管理は任意のラベリングツールにとって一級機能だ。

中核指標3つ。

- **Inter-annotator agreement (IAA)** — 2人以上のラベラーが同じサンプルに同意した割合。

- **Cohen's kappa** — 偶然の一致を補正した IAA。0.6+ で「まあまあ」、0.8+ で「良好」。

- **Fleiss' kappa** — 3人以上のラベラー版。

ワークフローパターン。

- **Consensus voting** — 同じサンプルを N 人がラベル、多数決。

- **Gold standard injection** — 正解既知のサンプルを混ぜ込み、ラベラー精度を監視。

- **Adjudication queue** — ラベラー間で意見が割れるサンプルをシニアアノテーターへルート。

マネージドプラットフォーム（Scale、Labelbox、V7）はこれをビルトインで提供する。CVAT・Label Studio は自前で組む必要があるが、Job / Review プリミティブで骨格は揃う。

19. Active learning — どのサンプルをラベリングするかをモデルが決める

ラベリング予算は無限ではない。だから「どのサンプルを先にラベリングするか」が大きな判断になる。

**Active learning のアイデア** — モデルが**自信のないサンプル、クラス境界にあるサンプル、新しいクラスタにあるサンプル**を先にラベラーへ送る。

**戦略3つ。**

- **Uncertainty sampling** — モデルの予測確率が0.5付近のサンプル。

- **Margin sampling** — top-1 と top-2 の確率差が小さいサンプル。

- **Diversity sampling** — 埋め込み空間で遠く離れたクラスタ代表。

**ツール。**

- **Encord Active** — 一級機能。

- **Cleanlab Studio** — ラベルエラーと uncertainty を同時に。

- **Roboflow** — Smart Polygon + モデル補助。

- **CVAT** — 自前の nuclio パイプラインで構築可能。

経験則 — **active learning を入れると同じモデル性能を半分のラベルで到達できる。** この半分がラベリングコストの半分だ。

20. 韓国アノテーションエコシステム — AI Hub、EzData、Testworks

韓国語・韓国特化データはグローバルツールだけでは賄えない。

**AI Hub（NIA、韓国知能情報社会振興院）** — 韓国政府の AI データセットハブ。韓国語 NLP、韓国映像、韓国音声データセットが数千件公開。多くが公的予算でラベリングまで進められた。

**EzData（이지데이터）** — 韓国語ラベリングのマネージドサービス。韓国語 NER、韓国医療画像など。

**Testworks（테스트웍스）** — ラベリング + QA サービス。ダイバーシティ採用で社会的企業認証を取得。

活用戦略 — **AI Hub から公開データセットを一次学習データとして取り、EzData・Testworks でドメイン特化ラベリングを追加する。**

21. 日本アノテーションエコシステム — ABEJA、FastLabel、AnnoFab

日本は産業・自動車データに強い。

**ABEJA Platform** — 日本の ML プラットフォーム。アノテーション + 学習 + デプロイまで。トヨタ、NTT、東急のような大口顧客。

**FastLabel** — 東京発の AI アノテーション SaaS。日本市場で最も速く成長中。Honda、Sony のような顧客。

**Anolytics** — 日本・インド同時進出。マネージド・ラベリング。

**AnnoFab** — 日本市場のアノテーションツール。政府 + 製造業。

活用戦略 — **日本市場特化データ（例: 日本語 OCR、日本道路自動運転）は日本企業がドメイン知識とラベラープールで優位**だ。

22. 価格比較 — 実際に何がいくらするのか

ざっくり価格地図（2026年5月時点）。

| カテゴリ | ツール | 価格帯 |

| --- | --- | --- |

| マネージド・エンタープライズ | Scale AI | 見積もり、一般に$100K+/年 |

| マネージド・エンタープライズ | Labelbox Enterprise | 見積もり、$50K〜$500K/年 |

| セルフサービス SaaS | Labelbox Starter | $25/seat/月 |

| セルフサービス SaaS | Label Studio Cloud | $99/ユーザー/月 |

| セルフサービス SaaS | Roboflow | $249〜$999/月 |

| セルフサービス SaaS | V7 Darwin | $499/月〜 |

| セルフホスト OSS | CVAT | $0 |

| セルフホスト OSS | Label Studio Community | $0 |

| セルフホスト OSS | Doccano、LabelImg、VIA | $0 |

| クラウド | MTurk | タスクあたり$0.01〜 |

| RLHF マネージド | Surge AI | 見積もり、時給$25〜$80 |

| 自動ラベリング API | Roboflow Auto、Labelbox Foundry | 画像あたり$0.001〜$0.01 |

| 自動ラベリング VLM | GPT-4V、Claude Vision | 画像あたり$0.01〜$0.05 |

要点 — **セルフホスト OSS はツールは無料だがラベラー人件費は別。** マネージドはツール + ラベラー + QC を一括請求する。

23. 意思決定ツリー — うちのチームは何を選ぶべきか

5つの分岐点。

1. **データを SaaS の外に出してよいか?**

- だめ -> CVAT、Label Studio Community、Doccano（セルフホスト OSS）。

- よい -> 次の分岐へ。

2. **ドメインは何か?**

- 画像/動画一般 -> Roboflow（インディ）または Labelbox（エンタープライズ）。

- 医療 -> Encord、V7 Medical。

- 自動運転 3D -> Scale AI、Deepen AI、Segments.ai。

- テキスト/NER -> Label Studio、Doccano、Argilla。

- LLM RLHF/評価 -> Argilla (OSS)、Surge AI（マネージド）。

3. **ラベラーを自社で集められるか?**

- 集められる -> セルフサービス（Labelbox、Roboflow、Label Studio Cloud）。

- 外注が必要 -> マネージド（Scale、Surge、Labelbox Boost、V7）。

4. **予算はいくらか?**

- $0〜$10K/年 -> OSS セルフホスト + インターン。

- $10K〜$100K/年 -> Roboflow、Labelbox Starter、Label Studio Cloud。

- $100K+/年 -> Labelbox Enterprise、V7、Encord、Scale の一部。

5. **自動ラベリングを一級市民にするか?**

- する -> Encord Active、Cleanlab、SAM 2 統合ツール。

- 人間優先 -> Scale、Surge、MTurk。

24. 実戦ワークフロー — 1週間で初データセットを作る

初めての CV データセットを1週間で100〜1,000枚ラベリングまで持っていくワークフロー。

- **Day 1** — 収集。クローリング（Apify、Firecrawl）か自前撮影。Storage は S3。

- **Day 2** — ツール選定。データが機微でなくインディなら Roboflow。機微なら CVAT セルフホスト。

- **Day 3** — 自動ラベリング一次パス。Grounding DINO + SAM 2 で箱とマスク。Roboflow なら「Smart Polygon」、CVAT なら SAM 2 モジュール。

- **Day 4** — 人による検収。自動ラベルが引いた箱を素早く検収・修正。普通に人が新規に描くより3〜5倍速い。

- **Day 5** — 品質チェック。Cleanlab または Encord Active でラベル誤り候補を検出。10〜20件再確認。

- **Day 6** — 学習。Roboflow Train か自前 PyTorch。最初のベースラインモデル。

- **Day 7** — 分析。モデルが最も混乱したサンプル N 件を active learning で次のラベリングキューへ追加。

このループを4〜6回回すと、たいてい production-ready モデルが出来上がる。

25. 正直な意思決定 — モデルではなくデータパイプラインを組もう

最後に一行 — **2026年の ML チームの差別化はモデルではなくデータパイプラインだ。**

同じ GPT-4o、同じ Llama 3、同じ YOLOv11 をみなが使う。私たちの優位は**自分たちのラベリングデータ、自分たちの評価セット、自分たちの品質管理ワークフロー**だ。

ツールは手の届くものから。CV なら Roboflow か CVAT、テキストなら Label Studio か Doccano、LLM なら Argilla。すべて無料か低コストで始められる。マネージドは自社でラベラーを集められないとき以外は先送りでよい — マネージドを入れた後でツールを変えるのは難しいが、セルフサービスからマネージドへの移行は自然だ。

そして忘れてはいけない — **ラベルを100個追加するより、既存1,000個から間違った50個を直すほうが効く。** Cleanlab を半日立ち上げてみるところから始めよう。

26. 参考文献

- Scale AI / Meta 提携発表 (2025): https://www.cnbc.com/2025/06/13/meta-scale-ai-investment.html

- Scale AI: https://scale.com

- Surge AI: https://www.surgehq.ai

- Labelbox 価格: https://labelbox.com/pricing

- Labelbox ドキュメント: https://docs.labelbox.com

- V7 Darwin: https://www.v7labs.com/darwin

- V7 Medical: https://www.v7labs.com/medical

- Roboflow: https://roboflow.com

- Roboflow Universe: https://universe.roboflow.com

- Encord: https://encord.com

- SuperAnnotate: https://www.superannotate.com

- Supervisely: https://supervisely.com

- Hive: https://thehive.ai

- CVAT: https://www.cvat.ai

- CVAT GitHub: https://github.com/cvat-ai/cvat

- Label Studio: https://labelstud.io

- Label Studio Enterprise: https://humansignal.com

- Doccano: https://github.com/doccano/doccano

- Segments.ai: https://segments.ai

- Deepen AI: https://www.deepen.ai

- Argilla: https://argilla.io

- Cleanlab: https://cleanlab.ai

- Galileo: https://www.rungalileo.io

- Lilac: https://www.lilacml.com

- Snorkel AI: https://snorkel.ai

- SAM 2 (Meta): https://ai.meta.com/sam2/

- Grounding DINO: https://github.com/IDEA-Research/GroundingDINO

- Amazon Mechanical Turk: https://www.mturk.com

- Clickworker: https://www.clickworker.com

- Appen: https://appen.com

- TELUS International AI Data Solutions: https://www.telusinternational.com/solutions/ai-data-solutions

- AI Hub (NIA): https://aihub.or.kr

- EzData: https://www.ezdata.co.kr

- Testworks: https://www.testworks.co.kr

- ABEJA Platform: https://abejainc.com/platform

- FastLabel: https://fastlabel.ai

- AnnoFab: https://annofab.com