필사 모드: AI データアノテーション & ラベリングツール 2026 完全ガイド - Labelbox · V7 · CVAT · Roboflow · Encord · SuperAnnotate · Supervisely · Scale AI · Label Studio 徹底解説
日本語プロローグ — 2026年もラベリングは高くて難しい
GPT-5 も Claude 4 も Gemini 3 も同じ秘密を共有している。**データはモデルより高い。** 2025年に Meta が Scale AI に143億ドルを注いだのは単発の事件ではなく信号だった — 「フロンティアモデルを作るにはラベラーの軍隊を買う必要がある」と。
2026年5月時点、ラベリング業界は二手に割れた。
一方は**エンタープライズ・マネージドプラットフォーム**だ。Scale AI、Labelbox、V7、Encord — 自社ラベラープールと自社ツールを束ねて売る。RLHF、自動運転、医療画像のようにドメイン専門性が必要な領域で勝つ。
もう一方は **OSS セルフホスト**だ。CVAT、Label Studio、Doccano — ツールだけ無料で渡し、ラベラーは自チームで集める。データが機微(医療・金融)だったり、予算がタイトだったり(スタートアップ・研究室)、ドメインが特殊(日本語法務 NER)でアウトソースが効かない場合に勝つ。
そして両側の上から **ファウンデーションモデルがアノテーションを飲み込もうとしている**。SAM 2 がマスクを自動で見つけ、Grounding DINO がテキストから箱を引く。アノテーターの役割は「箱を描く」から「AI が描いた箱をレビューする」へと移った。
この記事はその地図を描く。25のツールを8カテゴリに整理し、自動運転・医療・LLM RLHF・日本語 NER のどれをやるにせよ、どこから始めるべきかを示す。
1. 2026年アノテーション地図 — 8カテゴリでまとめる
まず風景を1ページに収める。
| カテゴリ | 代表ツール | 誰が使うか |
| --- | --- | --- |
| 1. エンタープライズ・マネージド | Scale AI, Labelbox, V7, Encord, SuperAnnotate | OpenAI、Tesla、Waymo、製薬 |
| 2. CV 特化 | Roboflow, Supervisely, Hive | インディ CV、農業、産業 |
| 3. OSS セルフホスト | CVAT, Label Studio, Doccano | 研究、スタートアップ、政府 |
| 4. 3D / Lidar | Segments.ai, Deepen AI, 3D Map Labs | 自動運転、ロボティクス |
| 5. LLM 評価 / RLHF | Argilla, Surge AI, Outlier, Snorkel | ファウンデーションモデルチーム |
| 6. データ品質 | Cleanlab, Galileo, Lilac | ML オペレーションチーム |
| 7. クラウドソーシング | Mechanical Turk, Clickworker, Appen | 大量・低難度 |
| 8. 自動ラベリングモデル | SAM 2, Grounding DINO, GPT-4V, Claude Vision | 1〜7すべてに割り込む |
核心となる観察3つ。
- **カテゴリ1と3は同じ問題を別の仕方で解く。** マネージドは「ラベラー + ツール + QC」をひとまとめで売る。OSS はツールだけ。判断軸は「データを外に出せるか」と「予算」だ。
- **カテゴリ8は1〜7すべてに埋め込まれている。** Labelbox は SAM 2 を model-assisted labeling として統合した。CVAT も同様。Roboflow は自前の自動ラベリング API を売っている。「AI が一次、人が検収」が2026年のデフォルトだ。
- **カテゴリ6(データ品質)はラベリングと同等の重さを持つようになった。** ラベリングしたあとに Cleanlab でエラーを探し、Argilla でキュレーションする — これが標準パターンだ。
ツール単体ではなく**パイプライン**で見ろ。**収集 → 自動ラベリング → 人による検収 → 品質チェック → キュレーション**の5段階すべてが必要だ。
2. Scale AI — マネージドラベリングの王者、Meta 取引の意味
Scale AI は2016年に Alexandr Wang が19歳で創業した。2025年6月、**Meta が Scale AI に143億ドルを投資**し、Wang を Meta Superintelligence Labs の Chief AI Officer として迎え入れた。この取引の本当の意味は2つある。
第一に、**Scale はもはや中立のラベラーではない。** OpenAI、Google DeepMind、Anthropic は Scale 依存を巻き戻し始めた(2025年7月 Reuters 報道)。Meta 取引が決まるやいなや OpenAI は自社ラベラープールを増強し、Surge AI のシェアを高めた。「自分のフロンティアモデル学習データを競合の子会社に預けない」というシンプルな理屈だ。
第二に、**ラベリングは単発の事件ではなく市場のインフラになった。** Meta が143億ドル払う価値があると判断するほどに。
Scale の製品ラインは4つに分かれる。
- **Scale Data Engine** — 自動運転・ロボティクスのアノテーション。Waymo、Cruise(撤退前)、Toyota などが使った。
- **Scale Donovan** — 政府・国防向け。DoD 契約。
- **Scale GenAI** — RLHF、プロンプトキュレーション、評価データ。OpenAI o1 や GPT-4 の学習で大きな役割。
- **Outlier.ai** — Scale が運営するラベラー向けプラットフォーム。世界中で24万人。
価格は非公開。1ボックス0.05ドルから1時間60ドルまで、ドメイン・複雑度・QC ティアで幅広く動く。「エンタープライズ営業に相談を」が標準回答だ。
いつ選ぶか — **自動運転・国防・フロンティア LLM 学習のようにドメイン専門性が必須で予算が大きい現場。** インディ・スタートアップにはオーバーキル。
いつ選ばないか — Meta 子会社化を警戒する OpenAI・DeepMind 競合の ML チーム。彼らは Surge AI か自社ラベラーへ移行中だ。
3. Labelbox — エンタープライズ・セルフサービス + マネージド
Labelbox は2018年に SF で立ち上がり、2024年シリーズ D を調達した。立ち位置は「Scale は高すぎ、CVAT は生すぎる。その間を埋める」。
3つのモードを1つのプラットフォームに束ねた。
- **セルフサービス・ラベリング** — 自チームでラベリング。$25/seat/月から。
- **Boost(マネージド)** — Labelbox がラベラーを供給。
- **Foundry / Model Foundry** — ファウンデーションモデルが一次パスを当て、人が検収。
Labelbox の強みは3つ。
- **画像・動画・テキスト・文書・地理空間・LLM・音声を1つの UI に。** ドメインを乗り換えるたびにツールを学び直さなくていい。
- **SAM 2 統合の自動マスキング。** ワンクリックでマスクが引かれる。アノテーター生産性が報告ベースで5〜10倍。
- **Catalog + Model + Evaluation** が1つのワークスペース。データセット・モデル・予測・正解を並べて見る。
価格(2026年5月の公開価格)。
- Free — 5,000 データ行、3 ユーザー。
- Starter — $25/seat/月から。
- Enterprise — 見積もり、SSO・SCIM・オンプレオプション付き。
いつ選ぶか — マルチモーダルデータセットを扱い、セルフサービスとマネージドを自由に混ぜたく、ツール標準化に価値を置くチーム。
いつ選ばないか — データが SaaS の外に出せない場合(医療・金融・政府の一部)。そのときは CVAT セルフホストが答えだ。
4. V7 Darwin — 画像・動画・医療 AI-assisted アノテーション
V7 はロンドン拠点。「Auto-Annotate」を早期(2020年)から推し、医療画像で強い。
3つの製品。
- **V7 Darwin** — 一般 CV アノテーションプラットフォーム。
- **V7 Go** — 文書自動化と抽出。領収書・請求書・契約書のような業務文書の OCR + フィールド抽出を LLM で。
- **V7 Medical** — DICOM、HIPAA、FDA 510(k) 対応。Charite、Mayo Clinic ほか。
V7 が得意なこと。
- **モデル補助アノテーション** — 自社 SAM ライクモデル + Grounding DINO。1クリック、1ボックス、またはテキストプロンプトで即ラベル。
- **動画トラッキング** — キーフレームを1度打てば V7 がフレーム間を補間する。
- **医療マルチフレーム** — DICOM シリーズを一括で見る。3D マスキングも可。
価格は見積もり制。一般の入り口はチームあたり$499/月程度だが、医療・エンタープライズでは5〜6桁に一気に伸びる。
いつ選ぶか — **医療・ライフサイエンス画像、動画中心のアノテーション、GenAI でアノテーター生産性を大きく上げたいチーム。**
5. Roboflow — インディ CV チームの事実上の標準
Roboflow は2020年に立ち上がった。立ち位置が明確 — 「Hugging Face for Computer Vision」。データセットホスティング、ラベリング、学習、デプロイまで1サイトで。
中核機能4つ。
- **Roboflow Annotate** — ボックス、ポリゴン、セグメンテーション、キーポイント。SAM 2 統合。
- **Universe** — 50万以上の公開 CV データセット。同カテゴリ(例: ヘルメット検出)なら持ってきて fine-tune で終わる。
- **Train** — ワンクリックで YOLOv11、DETR、VLM を学習。GPU は抽象化済み。
- **Inference / Deploy** — 学習済みモデルを Roboflow API で配信、あるいはエッジ(Jetson、Raspberry Pi)に押す。
価格。
- Public — 無料、データセット公開が条件。
- Starter — $249/月から、非公開。
- Growth / Enterprise — $999/月から。
いつ選ぶか — **CV プロトタイプを1〜2日でデータセットからデプロイまで仕上げたいインディチーム、スタートアップ、学生、産業・農業・小売のサイドプロジェクト。**
いつ選ばないか — テキスト・音声アノテーション。Roboflow は CV 専用。
6. Encord — DICOM 医療 + マルチモーダル
Encord はロンドン拠点で、2024年 Davos でシリーズ B を調達した。立ち位置は「医療画像とマルチモーダルデータのアノテーション + active learning」。
差別化ポイント3つ。
- **DICOM / NIfTI ネイティブ** — 医療画像を PNG に変換するありがちな罠を避ける。ピクセルスペーシング、HU 値、シリーズメタデータをすべて保持。
- **Encord Active** — active learning がメイン機能。モデルが自信のないサンプルを選んで先にラベラーへ送る。
- **マルチモーダル** — 画像、動画、DICOM、文書、音声。医療臨床試験のような場ですべて必要になる。
価格は見積もり制。医療ドメインのコンプライアンス対応(HIPAA、ISO 13485、FDA validation サポート)が中心セリングポイントだ。
いつ選ぶか — **放射線・病理・内視鏡のような医療画像 AI チーム、active learning をラベリングパイプラインの一級市民にしたいチーム。**
7. SuperAnnotate、Supervisely、Hive — その他マネージド
この3社は近い立ち位置で競合する。
**SuperAnnotate** — アルメニア発。Adobe や Databricks のような大口顧客。強みはクリーンな UI と強い QC ワークフロー。GenAI データ(LLM RLHF)の比率を増やしている最中。価格は見積もり、$500/月程度から。
**Supervisely** — チェコ・ロシア発。3D 点群と医療画像に強い。1億以上のアノテーションを処理したと宣伝する。価格は Community(無料、セルフホスト・セルフサービス)と Enterprise。
**Hive** — SF 発。コンテンツモデレーションをラベリング基盤に発展させた会社。自社ラベラープール(200万人+) + Hive AI モデル。価格は見積もり制。
この3社から選ぶときの軸。
- **Adobe や Databricks のような大口ロゴで安心したい** -> SuperAnnotate。
- **3D 点群が中心** -> Supervisely。
- **コンテンツモデレーション、NSFW、暴力検出**のような高ボリュームが必要 -> Hive。
8. CVAT — Intel 発祥のオープンソース CV ラベリング標準
CVAT は Intel が OpenCV コミュニティ向けに作ったツールから始まった。今は別会社 CVAT.ai が運営しているが、GitHub コアは依然として OSS(MIT)だ。
CVAT が得意なこと。
- **画像・動画・3D 点群アノテーション** — ボックス、ポリゴン、ポリライン、キーポイント、マスク、3D キューボイド。
- **SAM、SAM 2、YOLO 統合** — モデル補助アノテーションをセルフホストでそのまま。
- **チームワークフロー** — Job / Task / Project 階層、レビュー、統計。
- **Docker Compose 1発でデプロイ** — セルフホスティングが本当に簡単。
価格。
- Self-hosted OSS — 無料、MIT ライセンス。
- CVAT Cloud — Free($0、10ユーザー)、Pro($45/seat/月)、Enterprise(見積もり)。
いつ選ぶか — **データを外に出せないすべての CV チーム、セルフホスティングが絶対条件の政府・国防・医療・金融、予算が厳しい研究室・スタートアップ。**
いつ選ばないか — テキスト・音声・LLM データ。CVAT は CV 専用だ。
9. Label Studio (HumanSignal) — マルチドメイン OSS
Label Studio は Heartex(現 HumanSignal)が作ったツールだ。CVAT が CV 専用なら、Label Studio はあらゆるデータ型を1ツールで。
対応データ型。
- 画像(ボックス・ポリゴン・マスク)、動画(トラッキング)、音声(セグメント・転記)、テキスト(NER・分類・要約)、HTML、時系列、会話(LLM データ)。
XML 風のラベル設定で UI を定義する(コードブロックの中だけで安全に使う)。
価格。
- Community Edition — 無料 OSS(Apache 2.0)。
- Starter Cloud — $99/ユーザー/月から。
- Enterprise — 見積もり、SSO・SCIM・オンプレ。
いつ選ぶか — **データ型が多様なチーム(テキスト + 画像 + 音声)、セルフホスティングが必要だが CV だけではないチーム、ML バックエンド統合を好むチーム。**
10. Doccano、LabelImg、VIA、MakeSense、COCO Annotator — 軽量 OSS
大きなプラットフォームが重ければ軽量 OSS がある。
**Doccano** — テキスト専用。NER、分類、seq2seq。Python 1行で起動。日本語・韓国語・中国語の NER プロジェクトで人気。MIT。
**LabelImg** — ボックスだけ描くデスクトップアプリ。Pascal VOC / YOLO 形式。2024年に deprecation の案内が出たが、依然として GitHub スター2万+ のクラシック。学習用に良い。
**VIA (VGG Image Annotator)** — Oxford VGG の学術ツール。単一 HTML ファイルで動作。ボックス、ポリゴン、ポイント。エアギャップ環境に親和的。
**MakeSense.ai** — ブラウザのみ、インストール不要。軽くデモするのに良い。YOLO・VOC・COCO エクスポート。
**COCO Annotator** — COCO 形式ネイティブ。小チームのインスタンスセグメンテーションで使われる。
共通点 — **すぐ始められる。** 欠点 — **チーム・QC・model-assist** のような大きなワークフローがない。プロトタイプを超えると CVAT・Label Studio へ移行する。
11. 3D・Lidar アノテーション — Segments、Deepen、3D Map Labs
自動運転とロボティクスは 3D 点群ラベリングが本業だ。
**Segments.ai** — ベルギー発。マルチセンサー(Lidar + カメラ)を同時に見る。点群インスタンスセグメンテーション、セマンティックセグメンテーション、キューボイド。価格は見積もり、$500/月程度から。
**Deepen AI** — 自動運転特化。Lidar シーケンストラッキング、キャリブレーションツールまで束ねて売る。Toyota、Honda、BMW などの自動車会社が顧客。
**3D Map Labs** — HD マップアノテーション専門。自動運転のための車線・標識・信号マッピング。
いつ選ばないか — 単発の 3D プロジェクト。そのときは CVAT または Supervisely の 3D モードで十分だ。
12. LLM 評価 + RLHF — Argilla、Surge AI、Outlier、Snorkel
LLM 時代でラベリングの形が変わった。「ボックスを描く」のではなく「2つの応答のどちらが良いか」または「この応答は事実か」を答える。これが RLHF データや評価データだ。
**Argilla**(2024年 Hugging Face が買収) — オープンソース LLM データラベリング・キュレーション。Distilabel と組み合わせて合成データパイプラインを書く。HF Hub と直結。Apache 2.0。
**Surge AI** — Scale AI の真の競合。RLHF / 評価データのマネージド。OpenAI、Anthropic が Scale 比率を減らしながら Surge を伸ばしている。ラベラー品質が堀 — 専門分野(法務・医学・コーディング)のラベラーを明示的にマッチさせる。
**Outlier** — Scale AI のラベラー向けプラットフォーム(2024年リブランド)。世界中で24万人。RLHF・評価・コードレビューラベリングが中心。
**Snorkel AI** — プログラマティック・ラベリングの元祖。ヒューリスティック・弱教師で一次ラベルを作り、モデルで伝播。Snowflake、JPMorgan のようなエンタープライズで使われる。
いつ選ぶか —
- LLM ファインチューニングデータ・評価セットが中心 -> **Argilla (OSS) または Surge AI (マネージド)**。
- 「人を使わずルールで一次ラベル」戦略 -> **Snorkel**。
13. データ品質 — Cleanlab、Galileo、Lilac
ラベリングの次は品質チェックだ。
**Cleanlab** — MIT 発。「Confident Learning」アルゴリズムでラベルエラーを自動検出。データセットから誤りの5〜15%を拾う。Cleanlab Studio は SaaS、cleanlab はオープンソースライブラリ(BSD)。
**Galileo** — LLM・NLP データオブザーバビリティ。学習データから「モデルが混乱するサンプル」「低品質スパン」「ドリフト」のようなものを可視化。エンタープライズ SaaS。
**Lilac**(Hugging Face が買収) — テキストデータセット探索・クラスタリング・重複検出。オープンソース。
核心となる気づき — **「ラベルを100個追加する」より「既存ラベル1,000個の中から間違った50個を直す」のほうが効く。** モデル精度が1〜5ポイント上がるのが普通(特に不均衡ドメインで)。
14. クラウドソーシング — MTurk、Clickworker、Appen、TELUS
大量・低難度・言語の多様性が必要なときクラウドソーシングが割り込む。
**Amazon Mechanical Turk** — 2005年開始のオリジナル。最安(タスク$0.01〜)、最も統制が弱い。品質管理(qualifications、master workers、consensus)が大きな宿題。
**Clickworker** — ドイツ発。MTurk より精製されたクラウド。多言語のテキスト・画像・音声。
**Appen** — オーストラリア発。音声データ(コールセンター、ASR)に強い。Lionbridge AI(TELUS が買収)と並び音声・言語データの二大柱。
**TELUS International AI Data Solutions** — Lionbridge AI を統合。Microsoft、Google、Apple の音声アシスタント学習データを多数処理。
いつ選ぶか — **大量の単純作業(画像分類、短文分類)、多言語音声データ収集**。ドメイン専門性が必要な作業には Scale、Surge、Labelbox Boost のほうが向く。
15. 自動ラベリング — SAM 2、Grounding DINO、CLIP、GPT-4V、Claude Vision
2026年アノテーションの最大の変化は**モデルが一次ラベラーになった**ことだ。
**SAM 2 (Meta, 2024)** — 画像・動画セグメンテーションの万能モデル。1クリック・1ボックス、またはテキストでマスクが出る。Labelbox、CVAT、Roboflow すべてが統合した。
**Grounding DINO (IDEA)** — テキストプロンプト(「ヘルメットを着けた人」)で箱を引く。オープン語彙検出。SAM 2 と組み合わせると(GroundingSAM)テキスト -> 箱 -> マスクが一気通貫で出る。
**CLIP / SigLIP** — ゼロショット分類。「これは何の画像?」を問い、定義済みラベルから1つ選ぶ。箱・マスクはできないが分類ラベリングに強い。
**GPT-4V / Claude Vision / Gemini Vision** — VLM に画像を投げてラベルを尋ねる。最も高価で最も柔軟。few-shot プロンプトでドメインを教えられる。
ワークフローパターン。
自動ラベリングパイプラインの擬似コード
for image in dataset:
boxes = grounding_dino(image, prompt="helmet, vest, person")
masks = sam2(image, boxes=boxes)
labels = label_studio_predictions(image, boxes, masks)
push_to_review(labels) # 人間は検収のみ
この単一パターンが2026年 CV アノテーションの標準だ。アノテーターの仕事は**「箱を描く」から「AI が描いた箱を検収する」へ明確に移った**。生産性が5〜10倍上がり、単調作業が減ることでラベラーの burnout も減った。
16. AI 安全ラベリング — レッドチーム・jailbreak アノテーション
LLM 時代に新しく生まれたラベリングカテゴリだ。
- **レッドチームプロンプトキュレーション** — 潜在的に危険なプロンプトを集め、モデルの応答を評価。Anthropic、OpenAI ともに社内 + 外注。
- **Jailbreak データ** — モデルがガードレールを破るケースを収集。学習用と評価用。
- **有害コンテンツ分類** — toxicity、ヘイトスピーチ、CSAM。Hive、ActiveFence、Surge AI。
核心の難題は**ラベラーのメンタルヘルス**だ。暴力、CSAM、自殺コンテンツを扱うラベラーは PTSD のリスクが実在する。2023年に Time が OpenAI ケニア・ラベラーの処遇問題を暴露して以降、業界はガイドラインを改善中だ。Sama、Surge AI は明示的にメンタルヘルスケアプログラムを置いている。
17. ドメイン別 — 医療、自動運転、地理空間
ドメインが明確なら、ドメイン特化ツールのほうが早い。
**医療**
- **Encord** — DICOM ネイティブ、FDA validation 支援。
- **V7 Medical** — 画像 + 臨床試験ワークフロー。
- **Cohort.ai(旧 Centaur Labs)** — 医師ラベラーネットワーク。
- **MD.ai、Cogitech** — 放射線特化。
**自動運転**
- **Scale AI Data Engine** — カメラ + Lidar + レーダー同期。
- **Mighty AI**(Uber が買収)
- **Understand.ai**(DSpace が買収)
- **Deepen AI** — キャリブレーション + Lidar。
**地理空間**
- **GroundWork (CamoLabs)** — 衛星・ドローン画像。
- **RemoteSensingAI** — 農業・林業特化。
- **Mapbox Labelbox 統合** — 都市マッピング。
18. 品質管理 — IAA、Cohen's kappa、consensus
ラベリングは人がやる。人は間違える。だから品質管理は任意のラベリングツールにとって一級機能だ。
中核指標3つ。
- **Inter-annotator agreement (IAA)** — 2人以上のラベラーが同じサンプルに同意した割合。
- **Cohen's kappa** — 偶然の一致を補正した IAA。0.6+ で「まあまあ」、0.8+ で「良好」。
- **Fleiss' kappa** — 3人以上のラベラー版。
ワークフローパターン。
- **Consensus voting** — 同じサンプルを N 人がラベル、多数決。
- **Gold standard injection** — 正解既知のサンプルを混ぜ込み、ラベラー精度を監視。
- **Adjudication queue** — ラベラー間で意見が割れるサンプルをシニアアノテーターへルート。
マネージドプラットフォーム(Scale、Labelbox、V7)はこれをビルトインで提供する。CVAT・Label Studio は自前で組む必要があるが、Job / Review プリミティブで骨格は揃う。
19. Active learning — どのサンプルをラベリングするかをモデルが決める
ラベリング予算は無限ではない。だから「どのサンプルを先にラベリングするか」が大きな判断になる。
**Active learning のアイデア** — モデルが**自信のないサンプル、クラス境界にあるサンプル、新しいクラスタにあるサンプル**を先にラベラーへ送る。
**戦略3つ。**
- **Uncertainty sampling** — モデルの予測確率が0.5付近のサンプル。
- **Margin sampling** — top-1 と top-2 の確率差が小さいサンプル。
- **Diversity sampling** — 埋め込み空間で遠く離れたクラスタ代表。
**ツール。**
- **Encord Active** — 一級機能。
- **Cleanlab Studio** — ラベルエラーと uncertainty を同時に。
- **Roboflow** — Smart Polygon + モデル補助。
- **CVAT** — 自前の nuclio パイプラインで構築可能。
経験則 — **active learning を入れると同じモデル性能を半分のラベルで到達できる。** この半分がラベリングコストの半分だ。
20. 韓国アノテーションエコシステム — AI Hub、EzData、Testworks
韓国語・韓国特化データはグローバルツールだけでは賄えない。
**AI Hub(NIA、韓国知能情報社会振興院)** — 韓国政府の AI データセットハブ。韓国語 NLP、韓国映像、韓国音声データセットが数千件公開。多くが公的予算でラベリングまで進められた。
**EzData(이지데이터)** — 韓国語ラベリングのマネージドサービス。韓国語 NER、韓国医療画像など。
**Testworks(테스트웍스)** — ラベリング + QA サービス。ダイバーシティ採用で社会的企業認証を取得。
活用戦略 — **AI Hub から公開データセットを一次学習データとして取り、EzData・Testworks でドメイン特化ラベリングを追加する。**
21. 日本アノテーションエコシステム — ABEJA、FastLabel、AnnoFab
日本は産業・自動車データに強い。
**ABEJA Platform** — 日本の ML プラットフォーム。アノテーション + 学習 + デプロイまで。トヨタ、NTT、東急のような大口顧客。
**FastLabel** — 東京発の AI アノテーション SaaS。日本市場で最も速く成長中。Honda、Sony のような顧客。
**Anolytics** — 日本・インド同時進出。マネージド・ラベリング。
**AnnoFab** — 日本市場のアノテーションツール。政府 + 製造業。
活用戦略 — **日本市場特化データ(例: 日本語 OCR、日本道路自動運転)は日本企業がドメイン知識とラベラープールで優位**だ。
22. 価格比較 — 実際に何がいくらするのか
ざっくり価格地図(2026年5月時点)。
| カテゴリ | ツール | 価格帯 |
| --- | --- | --- |
| マネージド・エンタープライズ | Scale AI | 見積もり、一般に$100K+/年 |
| マネージド・エンタープライズ | Labelbox Enterprise | 見積もり、$50K〜$500K/年 |
| セルフサービス SaaS | Labelbox Starter | $25/seat/月 |
| セルフサービス SaaS | Label Studio Cloud | $99/ユーザー/月 |
| セルフサービス SaaS | Roboflow | $249〜$999/月 |
| セルフサービス SaaS | V7 Darwin | $499/月〜 |
| セルフホスト OSS | CVAT | $0 |
| セルフホスト OSS | Label Studio Community | $0 |
| セルフホスト OSS | Doccano、LabelImg、VIA | $0 |
| クラウド | MTurk | タスクあたり$0.01〜 |
| RLHF マネージド | Surge AI | 見積もり、時給$25〜$80 |
| 自動ラベリング API | Roboflow Auto、Labelbox Foundry | 画像あたり$0.001〜$0.01 |
| 自動ラベリング VLM | GPT-4V、Claude Vision | 画像あたり$0.01〜$0.05 |
要点 — **セルフホスト OSS はツールは無料だがラベラー人件費は別。** マネージドはツール + ラベラー + QC を一括請求する。
23. 意思決定ツリー — うちのチームは何を選ぶべきか
5つの分岐点。
1. **データを SaaS の外に出してよいか?**
- だめ -> CVAT、Label Studio Community、Doccano(セルフホスト OSS)。
- よい -> 次の分岐へ。
2. **ドメインは何か?**
- 画像/動画一般 -> Roboflow(インディ)または Labelbox(エンタープライズ)。
- 医療 -> Encord、V7 Medical。
- 自動運転 3D -> Scale AI、Deepen AI、Segments.ai。
- テキスト/NER -> Label Studio、Doccano、Argilla。
- LLM RLHF/評価 -> Argilla (OSS)、Surge AI(マネージド)。
3. **ラベラーを自社で集められるか?**
- 集められる -> セルフサービス(Labelbox、Roboflow、Label Studio Cloud)。
- 外注が必要 -> マネージド(Scale、Surge、Labelbox Boost、V7)。
4. **予算はいくらか?**
- $0〜$10K/年 -> OSS セルフホスト + インターン。
- $10K〜$100K/年 -> Roboflow、Labelbox Starter、Label Studio Cloud。
- $100K+/年 -> Labelbox Enterprise、V7、Encord、Scale の一部。
5. **自動ラベリングを一級市民にするか?**
- する -> Encord Active、Cleanlab、SAM 2 統合ツール。
- 人間優先 -> Scale、Surge、MTurk。
24. 実戦ワークフロー — 1週間で初データセットを作る
初めての CV データセットを1週間で100〜1,000枚ラベリングまで持っていくワークフロー。
- **Day 1** — 収集。クローリング(Apify、Firecrawl)か自前撮影。Storage は S3。
- **Day 2** — ツール選定。データが機微でなくインディなら Roboflow。機微なら CVAT セルフホスト。
- **Day 3** — 自動ラベリング一次パス。Grounding DINO + SAM 2 で箱とマスク。Roboflow なら「Smart Polygon」、CVAT なら SAM 2 モジュール。
- **Day 4** — 人による検収。自動ラベルが引いた箱を素早く検収・修正。普通に人が新規に描くより3〜5倍速い。
- **Day 5** — 品質チェック。Cleanlab または Encord Active でラベル誤り候補を検出。10〜20件再確認。
- **Day 6** — 学習。Roboflow Train か自前 PyTorch。最初のベースラインモデル。
- **Day 7** — 分析。モデルが最も混乱したサンプル N 件を active learning で次のラベリングキューへ追加。
このループを4〜6回回すと、たいてい production-ready モデルが出来上がる。
25. 正直な意思決定 — モデルではなくデータパイプラインを組もう
最後に一行 — **2026年の ML チームの差別化はモデルではなくデータパイプラインだ。**
同じ GPT-4o、同じ Llama 3、同じ YOLOv11 をみなが使う。私たちの優位は**自分たちのラベリングデータ、自分たちの評価セット、自分たちの品質管理ワークフロー**だ。
ツールは手の届くものから。CV なら Roboflow か CVAT、テキストなら Label Studio か Doccano、LLM なら Argilla。すべて無料か低コストで始められる。マネージドは自社でラベラーを集められないとき以外は先送りでよい — マネージドを入れた後でツールを変えるのは難しいが、セルフサービスからマネージドへの移行は自然だ。
そして忘れてはいけない — **ラベルを100個追加するより、既存1,000個から間違った50個を直すほうが効く。** Cleanlab を半日立ち上げてみるところから始めよう。
26. 参考文献
- Scale AI / Meta 提携発表 (2025): https://www.cnbc.com/2025/06/13/meta-scale-ai-investment.html
- Scale AI: https://scale.com
- Surge AI: https://www.surgehq.ai
- Labelbox 価格: https://labelbox.com/pricing
- Labelbox ドキュメント: https://docs.labelbox.com
- V7 Darwin: https://www.v7labs.com/darwin
- V7 Medical: https://www.v7labs.com/medical
- Roboflow: https://roboflow.com
- Roboflow Universe: https://universe.roboflow.com
- Encord: https://encord.com
- SuperAnnotate: https://www.superannotate.com
- Supervisely: https://supervisely.com
- Hive: https://thehive.ai
- CVAT: https://www.cvat.ai
- CVAT GitHub: https://github.com/cvat-ai/cvat
- Label Studio: https://labelstud.io
- Label Studio Enterprise: https://humansignal.com
- Doccano: https://github.com/doccano/doccano
- Segments.ai: https://segments.ai
- Deepen AI: https://www.deepen.ai
- Argilla: https://argilla.io
- Cleanlab: https://cleanlab.ai
- Galileo: https://www.rungalileo.io
- Lilac: https://www.lilacml.com
- Snorkel AI: https://snorkel.ai
- SAM 2 (Meta): https://ai.meta.com/sam2/
- Grounding DINO: https://github.com/IDEA-Research/GroundingDINO
- Amazon Mechanical Turk: https://www.mturk.com
- Clickworker: https://www.clickworker.com
- Appen: https://appen.com
- TELUS International AI Data Solutions: https://www.telusinternational.com/solutions/ai-data-solutions
- AI Hub (NIA): https://aihub.or.kr
- EzData: https://www.ezdata.co.kr
- Testworks: https://www.testworks.co.kr
- ABEJA Platform: https://abejainc.com/platform
- FastLabel: https://fastlabel.ai
- AnnoFab: https://annofab.com
현재 단락 (1/289)
GPT-5 も Claude 4 も Gemini 3 も同じ秘密を共有している。**データはモデルより高い。** 2025年に Meta が Scale AI に143億ドルを注いだのは単発の事件で...