- Published on
AI データアノテーション & ラベリングツール 2026 完全ガイド - Labelbox · V7 · CVAT · Roboflow · Encord · SuperAnnotate · Supervisely · Scale AI · Label Studio 徹底解説
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — 2026年もラベリングは高くて難しい
GPT-5 も Claude 4 も Gemini 3 も同じ秘密を共有している。データはモデルより高い。 2025年に Meta が Scale AI に143億ドルを注いだのは単発の事件ではなく信号だった — 「フロンティアモデルを作るにはラベラーの軍隊を買う必要がある」と。
2026年5月時点、ラベリング業界は二手に割れた。
一方はエンタープライズ・マネージドプラットフォームだ。Scale AI、Labelbox、V7、Encord — 自社ラベラープールと自社ツールを束ねて売る。RLHF、自動運転、医療画像のようにドメイン専門性が必要な領域で勝つ。
もう一方は OSS セルフホストだ。CVAT、Label Studio、Doccano — ツールだけ無料で渡し、ラベラーは自チームで集める。データが機微(医療・金融)だったり、予算がタイトだったり(スタートアップ・研究室)、ドメインが特殊(日本語法務 NER)でアウトソースが効かない場合に勝つ。
そして両側の上から ファウンデーションモデルがアノテーションを飲み込もうとしている。SAM 2 がマスクを自動で見つけ、Grounding DINO がテキストから箱を引く。アノテーターの役割は「箱を描く」から「AI が描いた箱をレビューする」へと移った。
この記事はその地図を描く。25のツールを8カテゴリに整理し、自動運転・医療・LLM RLHF・日本語 NER のどれをやるにせよ、どこから始めるべきかを示す。
1. 2026年アノテーション地図 — 8カテゴリでまとめる
まず風景を1ページに収める。
| カテゴリ | 代表ツール | 誰が使うか |
|---|---|---|
| 1. エンタープライズ・マネージド | Scale AI, Labelbox, V7, Encord, SuperAnnotate | OpenAI、Tesla、Waymo、製薬 |
| 2. CV 特化 | Roboflow, Supervisely, Hive | インディ CV、農業、産業 |
| 3. OSS セルフホスト | CVAT, Label Studio, Doccano | 研究、スタートアップ、政府 |
| 4. 3D / Lidar | Segments.ai, Deepen AI, 3D Map Labs | 自動運転、ロボティクス |
| 5. LLM 評価 / RLHF | Argilla, Surge AI, Outlier, Snorkel | ファウンデーションモデルチーム |
| 6. データ品質 | Cleanlab, Galileo, Lilac | ML オペレーションチーム |
| 7. クラウドソーシング | Mechanical Turk, Clickworker, Appen | 大量・低難度 |
| 8. 自動ラベリングモデル | SAM 2, Grounding DINO, GPT-4V, Claude Vision | 1〜7すべてに割り込む |
核心となる観察3つ。
- カテゴリ1と3は同じ問題を別の仕方で解く。 マネージドは「ラベラー + ツール + QC」をひとまとめで売る。OSS はツールだけ。判断軸は「データを外に出せるか」と「予算」だ。
- カテゴリ8は1〜7すべてに埋め込まれている。 Labelbox は SAM 2 を model-assisted labeling として統合した。CVAT も同様。Roboflow は自前の自動ラベリング API を売っている。「AI が一次、人が検収」が2026年のデフォルトだ。
- カテゴリ6(データ品質)はラベリングと同等の重さを持つようになった。 ラベリングしたあとに Cleanlab でエラーを探し、Argilla でキュレーションする — これが標準パターンだ。
ツール単体ではなくパイプラインで見ろ。収集 → 自動ラベリング → 人による検収 → 品質チェック → キュレーションの5段階すべてが必要だ。
2. Scale AI — マネージドラベリングの王者、Meta 取引の意味
Scale AI は2016年に Alexandr Wang が19歳で創業した。2025年6月、Meta が Scale AI に143億ドルを投資し、Wang を Meta Superintelligence Labs の Chief AI Officer として迎え入れた。この取引の本当の意味は2つある。
第一に、Scale はもはや中立のラベラーではない。 OpenAI、Google DeepMind、Anthropic は Scale 依存を巻き戻し始めた(2025年7月 Reuters 報道)。Meta 取引が決まるやいなや OpenAI は自社ラベラープールを増強し、Surge AI のシェアを高めた。「自分のフロンティアモデル学習データを競合の子会社に預けない」というシンプルな理屈だ。
第二に、ラベリングは単発の事件ではなく市場のインフラになった。 Meta が143億ドル払う価値があると判断するほどに。
Scale の製品ラインは4つに分かれる。
- Scale Data Engine — 自動運転・ロボティクスのアノテーション。Waymo、Cruise(撤退前)、Toyota などが使った。
- Scale Donovan — 政府・国防向け。DoD 契約。
- Scale GenAI — RLHF、プロンプトキュレーション、評価データ。OpenAI o1 や GPT-4 の学習で大きな役割。
- Outlier.ai — Scale が運営するラベラー向けプラットフォーム。世界中で24万人。
価格は非公開。1ボックス0.05ドルから1時間60ドルまで、ドメイン・複雑度・QC ティアで幅広く動く。「エンタープライズ営業に相談を」が標準回答だ。
いつ選ぶか — 自動運転・国防・フロンティア LLM 学習のようにドメイン専門性が必須で予算が大きい現場。 インディ・スタートアップにはオーバーキル。
いつ選ばないか — Meta 子会社化を警戒する OpenAI・DeepMind 競合の ML チーム。彼らは Surge AI か自社ラベラーへ移行中だ。
3. Labelbox — エンタープライズ・セルフサービス + マネージド
Labelbox は2018年に SF で立ち上がり、2024年シリーズ D を調達した。立ち位置は「Scale は高すぎ、CVAT は生すぎる。その間を埋める」。
3つのモードを1つのプラットフォームに束ねた。
- セルフサービス・ラベリング — 自チームでラベリング。$25/seat/月から。
- Boost(マネージド) — Labelbox がラベラーを供給。
- Foundry / Model Foundry — ファウンデーションモデルが一次パスを当て、人が検収。
Labelbox の強みは3つ。
- 画像・動画・テキスト・文書・地理空間・LLM・音声を1つの UI に。 ドメインを乗り換えるたびにツールを学び直さなくていい。
- SAM 2 統合の自動マスキング。 ワンクリックでマスクが引かれる。アノテーター生産性が報告ベースで5〜10倍。
- Catalog + Model + Evaluation が1つのワークスペース。データセット・モデル・予測・正解を並べて見る。
価格(2026年5月の公開価格)。
- Free — 5,000 データ行、3 ユーザー。
- Starter — $25/seat/月から。
- Enterprise — 見積もり、SSO・SCIM・オンプレオプション付き。
いつ選ぶか — マルチモーダルデータセットを扱い、セルフサービスとマネージドを自由に混ぜたく、ツール標準化に価値を置くチーム。
いつ選ばないか — データが SaaS の外に出せない場合(医療・金融・政府の一部)。そのときは CVAT セルフホストが答えだ。
4. V7 Darwin — 画像・動画・医療 AI-assisted アノテーション
V7 はロンドン拠点。「Auto-Annotate」を早期(2020年)から推し、医療画像で強い。
3つの製品。
- V7 Darwin — 一般 CV アノテーションプラットフォーム。
- V7 Go — 文書自動化と抽出。領収書・請求書・契約書のような業務文書の OCR + フィールド抽出を LLM で。
- V7 Medical — DICOM、HIPAA、FDA 510(k) 対応。Charite、Mayo Clinic ほか。
V7 が得意なこと。
- モデル補助アノテーション — 自社 SAM ライクモデル + Grounding DINO。1クリック、1ボックス、またはテキストプロンプトで即ラベル。
- 動画トラッキング — キーフレームを1度打てば V7 がフレーム間を補間する。
- 医療マルチフレーム — DICOM シリーズを一括で見る。3D マスキングも可。
価格は見積もり制。一般の入り口はチームあたり$499/月程度だが、医療・エンタープライズでは5〜6桁に一気に伸びる。
いつ選ぶか — 医療・ライフサイエンス画像、動画中心のアノテーション、GenAI でアノテーター生産性を大きく上げたいチーム。
5. Roboflow — インディ CV チームの事実上の標準
Roboflow は2020年に立ち上がった。立ち位置が明確 — 「Hugging Face for Computer Vision」。データセットホスティング、ラベリング、学習、デプロイまで1サイトで。
中核機能4つ。
- Roboflow Annotate — ボックス、ポリゴン、セグメンテーション、キーポイント。SAM 2 統合。
- Universe — 50万以上の公開 CV データセット。同カテゴリ(例: ヘルメット検出)なら持ってきて fine-tune で終わる。
- Train — ワンクリックで YOLOv11、DETR、VLM を学習。GPU は抽象化済み。
- Inference / Deploy — 学習済みモデルを Roboflow API で配信、あるいはエッジ(Jetson、Raspberry Pi)に押す。
価格。
- Public — 無料、データセット公開が条件。
- Starter — $249/月から、非公開。
- Growth / Enterprise — $999/月から。
いつ選ぶか — CV プロトタイプを1〜2日でデータセットからデプロイまで仕上げたいインディチーム、スタートアップ、学生、産業・農業・小売のサイドプロジェクト。
いつ選ばないか — テキスト・音声アノテーション。Roboflow は CV 専用。
6. Encord — DICOM 医療 + マルチモーダル
Encord はロンドン拠点で、2024年 Davos でシリーズ B を調達した。立ち位置は「医療画像とマルチモーダルデータのアノテーション + active learning」。
差別化ポイント3つ。
- DICOM / NIfTI ネイティブ — 医療画像を PNG に変換するありがちな罠を避ける。ピクセルスペーシング、HU 値、シリーズメタデータをすべて保持。
- Encord Active — active learning がメイン機能。モデルが自信のないサンプルを選んで先にラベラーへ送る。
- マルチモーダル — 画像、動画、DICOM、文書、音声。医療臨床試験のような場ですべて必要になる。
価格は見積もり制。医療ドメインのコンプライアンス対応(HIPAA、ISO 13485、FDA validation サポート)が中心セリングポイントだ。
いつ選ぶか — 放射線・病理・内視鏡のような医療画像 AI チーム、active learning をラベリングパイプラインの一級市民にしたいチーム。
7. SuperAnnotate、Supervisely、Hive — その他マネージド
この3社は近い立ち位置で競合する。
SuperAnnotate — アルメニア発。Adobe や Databricks のような大口顧客。強みはクリーンな UI と強い QC ワークフロー。GenAI データ(LLM RLHF)の比率を増やしている最中。価格は見積もり、$500/月程度から。
Supervisely — チェコ・ロシア発。3D 点群と医療画像に強い。1億以上のアノテーションを処理したと宣伝する。価格は Community(無料、セルフホスト・セルフサービス)と Enterprise。
Hive — SF 発。コンテンツモデレーションをラベリング基盤に発展させた会社。自社ラベラープール(200万人+) + Hive AI モデル。価格は見積もり制。
この3社から選ぶときの軸。
- Adobe や Databricks のような大口ロゴで安心したい -> SuperAnnotate。
- 3D 点群が中心 -> Supervisely。
- コンテンツモデレーション、NSFW、暴力検出のような高ボリュームが必要 -> Hive。
8. CVAT — Intel 発祥のオープンソース CV ラベリング標準
CVAT は Intel が OpenCV コミュニティ向けに作ったツールから始まった。今は別会社 CVAT.ai が運営しているが、GitHub コアは依然として OSS(MIT)だ。
CVAT が得意なこと。
- 画像・動画・3D 点群アノテーション — ボックス、ポリゴン、ポリライン、キーポイント、マスク、3D キューボイド。
- SAM、SAM 2、YOLO 統合 — モデル補助アノテーションをセルフホストでそのまま。
- チームワークフロー — Job / Task / Project 階層、レビュー、統計。
- Docker Compose 1発でデプロイ — セルフホスティングが本当に簡単。
価格。
- Self-hosted OSS — 無料、MIT ライセンス。
- CVAT Cloud — Free(45/seat/月)、Enterprise(見積もり)。
いつ選ぶか — データを外に出せないすべての CV チーム、セルフホスティングが絶対条件の政府・国防・医療・金融、予算が厳しい研究室・スタートアップ。
いつ選ばないか — テキスト・音声・LLM データ。CVAT は CV 専用だ。
9. Label Studio (HumanSignal) — マルチドメイン OSS
Label Studio は Heartex(現 HumanSignal)が作ったツールだ。CVAT が CV 専用なら、Label Studio はあらゆるデータ型を1ツールで。
対応データ型。
- 画像(ボックス・ポリゴン・マスク)、動画(トラッキング)、音声(セグメント・転記)、テキスト(NER・分類・要約)、HTML、時系列、会話(LLM データ)。
XML 風のラベル設定で UI を定義する(コードブロックの中だけで安全に使う)。
<View>
<Text name="text" value="$text" />
<Labels name="entities" toName="text">
<Label value="PERSON" background="orange" />
<Label value="ORG" background="green" />
</Labels>
</View>
価格。
- Community Edition — 無料 OSS(Apache 2.0)。
- Starter Cloud — $99/ユーザー/月から。
- Enterprise — 見積もり、SSO・SCIM・オンプレ。
いつ選ぶか — データ型が多様なチーム(テキスト + 画像 + 音声)、セルフホスティングが必要だが CV だけではないチーム、ML バックエンド統合を好むチーム。
10. Doccano、LabelImg、VIA、MakeSense、COCO Annotator — 軽量 OSS
大きなプラットフォームが重ければ軽量 OSS がある。
Doccano — テキスト専用。NER、分類、seq2seq。Python 1行で起動。日本語・韓国語・中国語の NER プロジェクトで人気。MIT。
LabelImg — ボックスだけ描くデスクトップアプリ。Pascal VOC / YOLO 形式。2024年に deprecation の案内が出たが、依然として GitHub スター2万+ のクラシック。学習用に良い。
VIA (VGG Image Annotator) — Oxford VGG の学術ツール。単一 HTML ファイルで動作。ボックス、ポリゴン、ポイント。エアギャップ環境に親和的。
MakeSense.ai — ブラウザのみ、インストール不要。軽くデモするのに良い。YOLO・VOC・COCO エクスポート。
COCO Annotator — COCO 形式ネイティブ。小チームのインスタンスセグメンテーションで使われる。
共通点 — すぐ始められる。 欠点 — チーム・QC・model-assist のような大きなワークフローがない。プロトタイプを超えると CVAT・Label Studio へ移行する。
11. 3D・Lidar アノテーション — Segments、Deepen、3D Map Labs
自動運転とロボティクスは 3D 点群ラベリングが本業だ。
Segments.ai — ベルギー発。マルチセンサー(Lidar + カメラ)を同時に見る。点群インスタンスセグメンテーション、セマンティックセグメンテーション、キューボイド。価格は見積もり、$500/月程度から。
Deepen AI — 自動運転特化。Lidar シーケンストラッキング、キャリブレーションツールまで束ねて売る。Toyota、Honda、BMW などの自動車会社が顧客。
3D Map Labs — HD マップアノテーション専門。自動運転のための車線・標識・信号マッピング。
いつ選ばないか — 単発の 3D プロジェクト。そのときは CVAT または Supervisely の 3D モードで十分だ。
12. LLM 評価 + RLHF — Argilla、Surge AI、Outlier、Snorkel
LLM 時代でラベリングの形が変わった。「ボックスを描く」のではなく「2つの応答のどちらが良いか」または「この応答は事実か」を答える。これが RLHF データや評価データだ。
Argilla(2024年 Hugging Face が買収) — オープンソース LLM データラベリング・キュレーション。Distilabel と組み合わせて合成データパイプラインを書く。HF Hub と直結。Apache 2.0。
Surge AI — Scale AI の真の競合。RLHF / 評価データのマネージド。OpenAI、Anthropic が Scale 比率を減らしながら Surge を伸ばしている。ラベラー品質が堀 — 専門分野(法務・医学・コーディング)のラベラーを明示的にマッチさせる。
Outlier — Scale AI のラベラー向けプラットフォーム(2024年リブランド)。世界中で24万人。RLHF・評価・コードレビューラベリングが中心。
Snorkel AI — プログラマティック・ラベリングの元祖。ヒューリスティック・弱教師で一次ラベルを作り、モデルで伝播。Snowflake、JPMorgan のようなエンタープライズで使われる。
いつ選ぶか —
- LLM ファインチューニングデータ・評価セットが中心 -> Argilla (OSS) または Surge AI (マネージド)。
- 「人を使わずルールで一次ラベル」戦略 -> Snorkel。
13. データ品質 — Cleanlab、Galileo、Lilac
ラベリングの次は品質チェックだ。
Cleanlab — MIT 発。「Confident Learning」アルゴリズムでラベルエラーを自動検出。データセットから誤りの5〜15%を拾う。Cleanlab Studio は SaaS、cleanlab はオープンソースライブラリ(BSD)。
Galileo — LLM・NLP データオブザーバビリティ。学習データから「モデルが混乱するサンプル」「低品質スパン」「ドリフト」のようなものを可視化。エンタープライズ SaaS。
Lilac(Hugging Face が買収) — テキストデータセット探索・クラスタリング・重複検出。オープンソース。
核心となる気づき — 「ラベルを100個追加する」より「既存ラベル1,000個の中から間違った50個を直す」のほうが効く。 モデル精度が1〜5ポイント上がるのが普通(特に不均衡ドメインで)。
14. クラウドソーシング — MTurk、Clickworker、Appen、TELUS
大量・低難度・言語の多様性が必要なときクラウドソーシングが割り込む。
Amazon Mechanical Turk — 2005年開始のオリジナル。最安(タスク$0.01〜)、最も統制が弱い。品質管理(qualifications、master workers、consensus)が大きな宿題。
Clickworker — ドイツ発。MTurk より精製されたクラウド。多言語のテキスト・画像・音声。
Appen — オーストラリア発。音声データ(コールセンター、ASR)に強い。Lionbridge AI(TELUS が買収)と並び音声・言語データの二大柱。
TELUS International AI Data Solutions — Lionbridge AI を統合。Microsoft、Google、Apple の音声アシスタント学習データを多数処理。
いつ選ぶか — 大量の単純作業(画像分類、短文分類)、多言語音声データ収集。ドメイン専門性が必要な作業には Scale、Surge、Labelbox Boost のほうが向く。
15. 自動ラベリング — SAM 2、Grounding DINO、CLIP、GPT-4V、Claude Vision
2026年アノテーションの最大の変化はモデルが一次ラベラーになったことだ。
SAM 2 (Meta, 2024) — 画像・動画セグメンテーションの万能モデル。1クリック・1ボックス、またはテキストでマスクが出る。Labelbox、CVAT、Roboflow すべてが統合した。
Grounding DINO (IDEA) — テキストプロンプト(「ヘルメットを着けた人」)で箱を引く。オープン語彙検出。SAM 2 と組み合わせると(GroundingSAM)テキスト -> 箱 -> マスクが一気通貫で出る。
CLIP / SigLIP — ゼロショット分類。「これは何の画像?」を問い、定義済みラベルから1つ選ぶ。箱・マスクはできないが分類ラベリングに強い。
GPT-4V / Claude Vision / Gemini Vision — VLM に画像を投げてラベルを尋ねる。最も高価で最も柔軟。few-shot プロンプトでドメインを教えられる。
ワークフローパターン。
# 自動ラベリングパイプラインの擬似コード
for image in dataset:
boxes = grounding_dino(image, prompt="helmet, vest, person")
masks = sam2(image, boxes=boxes)
labels = label_studio_predictions(image, boxes, masks)
push_to_review(labels) # 人間は検収のみ
この単一パターンが2026年 CV アノテーションの標準だ。アノテーターの仕事は**「箱を描く」から「AI が描いた箱を検収する」へ明確に移った**。生産性が5〜10倍上がり、単調作業が減ることでラベラーの burnout も減った。
16. AI 安全ラベリング — レッドチーム・jailbreak アノテーション
LLM 時代に新しく生まれたラベリングカテゴリだ。
- レッドチームプロンプトキュレーション — 潜在的に危険なプロンプトを集め、モデルの応答を評価。Anthropic、OpenAI ともに社内 + 外注。
- Jailbreak データ — モデルがガードレールを破るケースを収集。学習用と評価用。
- 有害コンテンツ分類 — toxicity、ヘイトスピーチ、CSAM。Hive、ActiveFence、Surge AI。
核心の難題はラベラーのメンタルヘルスだ。暴力、CSAM、自殺コンテンツを扱うラベラーは PTSD のリスクが実在する。2023年に Time が OpenAI ケニア・ラベラーの処遇問題を暴露して以降、業界はガイドラインを改善中だ。Sama、Surge AI は明示的にメンタルヘルスケアプログラムを置いている。
17. ドメイン別 — 医療、自動運転、地理空間
ドメインが明確なら、ドメイン特化ツールのほうが早い。
医療
- Encord — DICOM ネイティブ、FDA validation 支援。
- V7 Medical — 画像 + 臨床試験ワークフロー。
- Cohort.ai(旧 Centaur Labs) — 医師ラベラーネットワーク。
- MD.ai、Cogitech — 放射線特化。
自動運転
- Scale AI Data Engine — カメラ + Lidar + レーダー同期。
- Mighty AI(Uber が買収)
- Understand.ai(DSpace が買収)
- Deepen AI — キャリブレーション + Lidar。
地理空間
- GroundWork (CamoLabs) — 衛星・ドローン画像。
- RemoteSensingAI — 農業・林業特化。
- Mapbox Labelbox 統合 — 都市マッピング。
18. 品質管理 — IAA、Cohen's kappa、consensus
ラベリングは人がやる。人は間違える。だから品質管理は任意のラベリングツールにとって一級機能だ。
中核指標3つ。
- Inter-annotator agreement (IAA) — 2人以上のラベラーが同じサンプルに同意した割合。
- Cohen's kappa — 偶然の一致を補正した IAA。0.6+ で「まあまあ」、0.8+ で「良好」。
- Fleiss' kappa — 3人以上のラベラー版。
ワークフローパターン。
- Consensus voting — 同じサンプルを N 人がラベル、多数決。
- Gold standard injection — 正解既知のサンプルを混ぜ込み、ラベラー精度を監視。
- Adjudication queue — ラベラー間で意見が割れるサンプルをシニアアノテーターへルート。
マネージドプラットフォーム(Scale、Labelbox、V7)はこれをビルトインで提供する。CVAT・Label Studio は自前で組む必要があるが、Job / Review プリミティブで骨格は揃う。
19. Active learning — どのサンプルをラベリングするかをモデルが決める
ラベリング予算は無限ではない。だから「どのサンプルを先にラベリングするか」が大きな判断になる。
Active learning のアイデア — モデルが自信のないサンプル、クラス境界にあるサンプル、新しいクラスタにあるサンプルを先にラベラーへ送る。
戦略3つ。
- Uncertainty sampling — モデルの予測確率が0.5付近のサンプル。
- Margin sampling — top-1 と top-2 の確率差が小さいサンプル。
- Diversity sampling — 埋め込み空間で遠く離れたクラスタ代表。
ツール。
- Encord Active — 一級機能。
- Cleanlab Studio — ラベルエラーと uncertainty を同時に。
- Roboflow — Smart Polygon + モデル補助。
- CVAT — 自前の nuclio パイプラインで構築可能。
経験則 — active learning を入れると同じモデル性能を半分のラベルで到達できる。 この半分がラベリングコストの半分だ。
20. 韓国アノテーションエコシステム — AI Hub、EzData、Testworks
韓国語・韓国特化データはグローバルツールだけでは賄えない。
AI Hub(NIA、韓国知能情報社会振興院) — 韓国政府の AI データセットハブ。韓国語 NLP、韓国映像、韓国音声データセットが数千件公開。多くが公的予算でラベリングまで進められた。
EzData(이지데이터) — 韓国語ラベリングのマネージドサービス。韓国語 NER、韓国医療画像など。
Testworks(테스트웍스) — ラベリング + QA サービス。ダイバーシティ採用で社会的企業認証を取得。
活用戦略 — AI Hub から公開データセットを一次学習データとして取り、EzData・Testworks でドメイン特化ラベリングを追加する。
21. 日本アノテーションエコシステム — ABEJA、FastLabel、AnnoFab
日本は産業・自動車データに強い。
ABEJA Platform — 日本の ML プラットフォーム。アノテーション + 学習 + デプロイまで。トヨタ、NTT、東急のような大口顧客。
FastLabel — 東京発の AI アノテーション SaaS。日本市場で最も速く成長中。Honda、Sony のような顧客。
Anolytics — 日本・インド同時進出。マネージド・ラベリング。
AnnoFab — 日本市場のアノテーションツール。政府 + 製造業。
活用戦略 — 日本市場特化データ(例: 日本語 OCR、日本道路自動運転)は日本企業がドメイン知識とラベラープールで優位だ。
22. 価格比較 — 実際に何がいくらするのか
ざっくり価格地図(2026年5月時点)。
| カテゴリ | ツール | 価格帯 |
|---|---|---|
| マネージド・エンタープライズ | Scale AI | 見積もり、一般に$100K+/年 |
| マネージド・エンタープライズ | Labelbox Enterprise | 見積もり、500K/年 |
| セルフサービス SaaS | Labelbox Starter | $25/seat/月 |
| セルフサービス SaaS | Label Studio Cloud | $99/ユーザー/月 |
| セルフサービス SaaS | Roboflow | 999/月 |
| セルフサービス SaaS | V7 Darwin | $499/月〜 |
| セルフホスト OSS | CVAT | $0 |
| セルフホスト OSS | Label Studio Community | $0 |
| セルフホスト OSS | Doccano、LabelImg、VIA | $0 |
| クラウド | MTurk | タスクあたり$0.01〜 |
| RLHF マネージド | Surge AI | 見積もり、時給80 |
| 自動ラベリング API | Roboflow Auto、Labelbox Foundry | 画像あたり0.01 |
| 自動ラベリング VLM | GPT-4V、Claude Vision | 画像あたり0.05 |
要点 — セルフホスト OSS はツールは無料だがラベラー人件費は別。 マネージドはツール + ラベラー + QC を一括請求する。
23. 意思決定ツリー — うちのチームは何を選ぶべきか
5つの分岐点。
- データを SaaS の外に出してよいか?
- だめ -> CVAT、Label Studio Community、Doccano(セルフホスト OSS)。
- よい -> 次の分岐へ。
- ドメインは何か?
- 画像/動画一般 -> Roboflow(インディ)または Labelbox(エンタープライズ)。
- 医療 -> Encord、V7 Medical。
- 自動運転 3D -> Scale AI、Deepen AI、Segments.ai。
- テキスト/NER -> Label Studio、Doccano、Argilla。
- LLM RLHF/評価 -> Argilla (OSS)、Surge AI(マネージド)。
- ラベラーを自社で集められるか?
- 集められる -> セルフサービス(Labelbox、Roboflow、Label Studio Cloud)。
- 外注が必要 -> マネージド(Scale、Surge、Labelbox Boost、V7)。
- 予算はいくらか?
- 10K/年 -> OSS セルフホスト + インターン。
- 100K/年 -> Roboflow、Labelbox Starter、Label Studio Cloud。
- $100K+/年 -> Labelbox Enterprise、V7、Encord、Scale の一部。
- 自動ラベリングを一級市民にするか?
- する -> Encord Active、Cleanlab、SAM 2 統合ツール。
- 人間優先 -> Scale、Surge、MTurk。
24. 実戦ワークフロー — 1週間で初データセットを作る
初めての CV データセットを1週間で100〜1,000枚ラベリングまで持っていくワークフロー。
- Day 1 — 収集。クローリング(Apify、Firecrawl)か自前撮影。Storage は S3。
- Day 2 — ツール選定。データが機微でなくインディなら Roboflow。機微なら CVAT セルフホスト。
- Day 3 — 自動ラベリング一次パス。Grounding DINO + SAM 2 で箱とマスク。Roboflow なら「Smart Polygon」、CVAT なら SAM 2 モジュール。
- Day 4 — 人による検収。自動ラベルが引いた箱を素早く検収・修正。普通に人が新規に描くより3〜5倍速い。
- Day 5 — 品質チェック。Cleanlab または Encord Active でラベル誤り候補を検出。10〜20件再確認。
- Day 6 — 学習。Roboflow Train か自前 PyTorch。最初のベースラインモデル。
- Day 7 — 分析。モデルが最も混乱したサンプル N 件を active learning で次のラベリングキューへ追加。
このループを4〜6回回すと、たいてい production-ready モデルが出来上がる。
25. 正直な意思決定 — モデルではなくデータパイプラインを組もう
最後に一行 — 2026年の ML チームの差別化はモデルではなくデータパイプラインだ。
同じ GPT-4o、同じ Llama 3、同じ YOLOv11 をみなが使う。私たちの優位は自分たちのラベリングデータ、自分たちの評価セット、自分たちの品質管理ワークフローだ。
ツールは手の届くものから。CV なら Roboflow か CVAT、テキストなら Label Studio か Doccano、LLM なら Argilla。すべて無料か低コストで始められる。マネージドは自社でラベラーを集められないとき以外は先送りでよい — マネージドを入れた後でツールを変えるのは難しいが、セルフサービスからマネージドへの移行は自然だ。
そして忘れてはいけない — ラベルを100個追加するより、既存1,000個から間違った50個を直すほうが効く。 Cleanlab を半日立ち上げてみるところから始めよう。
26. 参考文献
- Scale AI / Meta 提携発表 (2025): https://www.cnbc.com/2025/06/13/meta-scale-ai-investment.html
- Scale AI: https://scale.com
- Surge AI: https://www.surgehq.ai
- Labelbox 価格: https://labelbox.com/pricing
- Labelbox ドキュメント: https://docs.labelbox.com
- V7 Darwin: https://www.v7labs.com/darwin
- V7 Medical: https://www.v7labs.com/medical
- Roboflow: https://roboflow.com
- Roboflow Universe: https://universe.roboflow.com
- Encord: https://encord.com
- SuperAnnotate: https://www.superannotate.com
- Supervisely: https://supervisely.com
- Hive: https://thehive.ai
- CVAT: https://www.cvat.ai
- CVAT GitHub: https://github.com/cvat-ai/cvat
- Label Studio: https://labelstud.io
- Label Studio Enterprise: https://humansignal.com
- Doccano: https://github.com/doccano/doccano
- Segments.ai: https://segments.ai
- Deepen AI: https://www.deepen.ai
- Argilla: https://argilla.io
- Cleanlab: https://cleanlab.ai
- Galileo: https://www.rungalileo.io
- Lilac: https://www.lilacml.com
- Snorkel AI: https://snorkel.ai
- SAM 2 (Meta): https://ai.meta.com/sam2/
- Grounding DINO: https://github.com/IDEA-Research/GroundingDINO
- Amazon Mechanical Turk: https://www.mturk.com
- Clickworker: https://www.clickworker.com
- Appen: https://appen.com
- TELUS International AI Data Solutions: https://www.telusinternational.com/solutions/ai-data-solutions
- AI Hub (NIA): https://aihub.or.kr
- EzData: https://www.ezdata.co.kr
- Testworks: https://www.testworks.co.kr
- ABEJA Platform: https://abejainc.com/platform
- FastLabel: https://fastlabel.ai
- AnnoFab: https://annofab.com