Skip to content
Published on

AI データアノテーション & ラベリングツール 2026 完全ガイド - Labelbox · V7 · CVAT · Roboflow · Encord · SuperAnnotate · Supervisely · Scale AI · Label Studio 徹底解説

Authors

プロローグ — 2026年もラベリングは高くて難しい

GPT-5 も Claude 4 も Gemini 3 も同じ秘密を共有している。データはモデルより高い。 2025年に Meta が Scale AI に143億ドルを注いだのは単発の事件ではなく信号だった — 「フロンティアモデルを作るにはラベラーの軍隊を買う必要がある」と。

2026年5月時点、ラベリング業界は二手に割れた。

一方はエンタープライズ・マネージドプラットフォームだ。Scale AI、Labelbox、V7、Encord — 自社ラベラープールと自社ツールを束ねて売る。RLHF、自動運転、医療画像のようにドメイン専門性が必要な領域で勝つ。

もう一方は OSS セルフホストだ。CVAT、Label Studio、Doccano — ツールだけ無料で渡し、ラベラーは自チームで集める。データが機微(医療・金融)だったり、予算がタイトだったり(スタートアップ・研究室)、ドメインが特殊(日本語法務 NER)でアウトソースが効かない場合に勝つ。

そして両側の上から ファウンデーションモデルがアノテーションを飲み込もうとしている。SAM 2 がマスクを自動で見つけ、Grounding DINO がテキストから箱を引く。アノテーターの役割は「箱を描く」から「AI が描いた箱をレビューする」へと移った。

この記事はその地図を描く。25のツールを8カテゴリに整理し、自動運転・医療・LLM RLHF・日本語 NER のどれをやるにせよ、どこから始めるべきかを示す。


1. 2026年アノテーション地図 — 8カテゴリでまとめる

まず風景を1ページに収める。

カテゴリ代表ツール誰が使うか
1. エンタープライズ・マネージドScale AI, Labelbox, V7, Encord, SuperAnnotateOpenAI、Tesla、Waymo、製薬
2. CV 特化Roboflow, Supervisely, Hiveインディ CV、農業、産業
3. OSS セルフホストCVAT, Label Studio, Doccano研究、スタートアップ、政府
4. 3D / LidarSegments.ai, Deepen AI, 3D Map Labs自動運転、ロボティクス
5. LLM 評価 / RLHFArgilla, Surge AI, Outlier, Snorkelファウンデーションモデルチーム
6. データ品質Cleanlab, Galileo, LilacML オペレーションチーム
7. クラウドソーシングMechanical Turk, Clickworker, Appen大量・低難度
8. 自動ラベリングモデルSAM 2, Grounding DINO, GPT-4V, Claude Vision1〜7すべてに割り込む

核心となる観察3つ。

  • カテゴリ1と3は同じ問題を別の仕方で解く。 マネージドは「ラベラー + ツール + QC」をひとまとめで売る。OSS はツールだけ。判断軸は「データを外に出せるか」と「予算」だ。
  • カテゴリ8は1〜7すべてに埋め込まれている。 Labelbox は SAM 2 を model-assisted labeling として統合した。CVAT も同様。Roboflow は自前の自動ラベリング API を売っている。「AI が一次、人が検収」が2026年のデフォルトだ。
  • カテゴリ6(データ品質)はラベリングと同等の重さを持つようになった。 ラベリングしたあとに Cleanlab でエラーを探し、Argilla でキュレーションする — これが標準パターンだ。

ツール単体ではなくパイプラインで見ろ。収集 → 自動ラベリング → 人による検収 → 品質チェック → キュレーションの5段階すべてが必要だ。


2. Scale AI — マネージドラベリングの王者、Meta 取引の意味

Scale AI は2016年に Alexandr Wang が19歳で創業した。2025年6月、Meta が Scale AI に143億ドルを投資し、Wang を Meta Superintelligence Labs の Chief AI Officer として迎え入れた。この取引の本当の意味は2つある。

第一に、Scale はもはや中立のラベラーではない。 OpenAI、Google DeepMind、Anthropic は Scale 依存を巻き戻し始めた(2025年7月 Reuters 報道)。Meta 取引が決まるやいなや OpenAI は自社ラベラープールを増強し、Surge AI のシェアを高めた。「自分のフロンティアモデル学習データを競合の子会社に預けない」というシンプルな理屈だ。

第二に、ラベリングは単発の事件ではなく市場のインフラになった。 Meta が143億ドル払う価値があると判断するほどに。

Scale の製品ラインは4つに分かれる。

  • Scale Data Engine — 自動運転・ロボティクスのアノテーション。Waymo、Cruise(撤退前)、Toyota などが使った。
  • Scale Donovan — 政府・国防向け。DoD 契約。
  • Scale GenAI — RLHF、プロンプトキュレーション、評価データ。OpenAI o1 や GPT-4 の学習で大きな役割。
  • Outlier.ai — Scale が運営するラベラー向けプラットフォーム。世界中で24万人。

価格は非公開。1ボックス0.05ドルから1時間60ドルまで、ドメイン・複雑度・QC ティアで幅広く動く。「エンタープライズ営業に相談を」が標準回答だ。

いつ選ぶか — 自動運転・国防・フロンティア LLM 学習のようにドメイン専門性が必須で予算が大きい現場。 インディ・スタートアップにはオーバーキル。

いつ選ばないか — Meta 子会社化を警戒する OpenAI・DeepMind 競合の ML チーム。彼らは Surge AI か自社ラベラーへ移行中だ。


3. Labelbox — エンタープライズ・セルフサービス + マネージド

Labelbox は2018年に SF で立ち上がり、2024年シリーズ D を調達した。立ち位置は「Scale は高すぎ、CVAT は生すぎる。その間を埋める」。

3つのモードを1つのプラットフォームに束ねた。

  • セルフサービス・ラベリング — 自チームでラベリング。$25/seat/月から。
  • Boost(マネージド) — Labelbox がラベラーを供給。
  • Foundry / Model Foundry — ファウンデーションモデルが一次パスを当て、人が検収。

Labelbox の強みは3つ。

  • 画像・動画・テキスト・文書・地理空間・LLM・音声を1つの UI に。 ドメインを乗り換えるたびにツールを学び直さなくていい。
  • SAM 2 統合の自動マスキング。 ワンクリックでマスクが引かれる。アノテーター生産性が報告ベースで5〜10倍。
  • Catalog + Model + Evaluation が1つのワークスペース。データセット・モデル・予測・正解を並べて見る。

価格(2026年5月の公開価格)。

  • Free — 5,000 データ行、3 ユーザー。
  • Starter — $25/seat/月から。
  • Enterprise — 見積もり、SSO・SCIM・オンプレオプション付き。

いつ選ぶか — マルチモーダルデータセットを扱い、セルフサービスとマネージドを自由に混ぜたく、ツール標準化に価値を置くチーム。

いつ選ばないか — データが SaaS の外に出せない場合(医療・金融・政府の一部)。そのときは CVAT セルフホストが答えだ。


4. V7 Darwin — 画像・動画・医療 AI-assisted アノテーション

V7 はロンドン拠点。「Auto-Annotate」を早期(2020年)から推し、医療画像で強い。

3つの製品。

  • V7 Darwin — 一般 CV アノテーションプラットフォーム。
  • V7 Go — 文書自動化と抽出。領収書・請求書・契約書のような業務文書の OCR + フィールド抽出を LLM で。
  • V7 Medical — DICOM、HIPAA、FDA 510(k) 対応。Charite、Mayo Clinic ほか。

V7 が得意なこと。

  • モデル補助アノテーション — 自社 SAM ライクモデル + Grounding DINO。1クリック、1ボックス、またはテキストプロンプトで即ラベル。
  • 動画トラッキング — キーフレームを1度打てば V7 がフレーム間を補間する。
  • 医療マルチフレーム — DICOM シリーズを一括で見る。3D マスキングも可。

価格は見積もり制。一般の入り口はチームあたり$499/月程度だが、医療・エンタープライズでは5〜6桁に一気に伸びる。

いつ選ぶか — 医療・ライフサイエンス画像、動画中心のアノテーション、GenAI でアノテーター生産性を大きく上げたいチーム。


5. Roboflow — インディ CV チームの事実上の標準

Roboflow は2020年に立ち上がった。立ち位置が明確 — 「Hugging Face for Computer Vision」。データセットホスティング、ラベリング、学習、デプロイまで1サイトで。

中核機能4つ。

  • Roboflow Annotate — ボックス、ポリゴン、セグメンテーション、キーポイント。SAM 2 統合。
  • Universe — 50万以上の公開 CV データセット。同カテゴリ(例: ヘルメット検出)なら持ってきて fine-tune で終わる。
  • Train — ワンクリックで YOLOv11、DETR、VLM を学習。GPU は抽象化済み。
  • Inference / Deploy — 学習済みモデルを Roboflow API で配信、あるいはエッジ(Jetson、Raspberry Pi)に押す。

価格。

  • Public — 無料、データセット公開が条件。
  • Starter — $249/月から、非公開。
  • Growth / Enterprise — $999/月から。

いつ選ぶか — CV プロトタイプを1〜2日でデータセットからデプロイまで仕上げたいインディチーム、スタートアップ、学生、産業・農業・小売のサイドプロジェクト。

いつ選ばないか — テキスト・音声アノテーション。Roboflow は CV 専用。


6. Encord — DICOM 医療 + マルチモーダル

Encord はロンドン拠点で、2024年 Davos でシリーズ B を調達した。立ち位置は「医療画像とマルチモーダルデータのアノテーション + active learning」。

差別化ポイント3つ。

  • DICOM / NIfTI ネイティブ — 医療画像を PNG に変換するありがちな罠を避ける。ピクセルスペーシング、HU 値、シリーズメタデータをすべて保持。
  • Encord Active — active learning がメイン機能。モデルが自信のないサンプルを選んで先にラベラーへ送る。
  • マルチモーダル — 画像、動画、DICOM、文書、音声。医療臨床試験のような場ですべて必要になる。

価格は見積もり制。医療ドメインのコンプライアンス対応(HIPAA、ISO 13485、FDA validation サポート)が中心セリングポイントだ。

いつ選ぶか — 放射線・病理・内視鏡のような医療画像 AI チーム、active learning をラベリングパイプラインの一級市民にしたいチーム。


7. SuperAnnotate、Supervisely、Hive — その他マネージド

この3社は近い立ち位置で競合する。

SuperAnnotate — アルメニア発。Adobe や Databricks のような大口顧客。強みはクリーンな UI と強い QC ワークフロー。GenAI データ(LLM RLHF)の比率を増やしている最中。価格は見積もり、$500/月程度から。

Supervisely — チェコ・ロシア発。3D 点群と医療画像に強い。1億以上のアノテーションを処理したと宣伝する。価格は Community(無料、セルフホスト・セルフサービス)と Enterprise。

Hive — SF 発。コンテンツモデレーションをラベリング基盤に発展させた会社。自社ラベラープール(200万人+) + Hive AI モデル。価格は見積もり制。

この3社から選ぶときの軸。

  • Adobe や Databricks のような大口ロゴで安心したい -> SuperAnnotate。
  • 3D 点群が中心 -> Supervisely。
  • コンテンツモデレーション、NSFW、暴力検出のような高ボリュームが必要 -> Hive。

8. CVAT — Intel 発祥のオープンソース CV ラベリング標準

CVAT は Intel が OpenCV コミュニティ向けに作ったツールから始まった。今は別会社 CVAT.ai が運営しているが、GitHub コアは依然として OSS(MIT)だ。

CVAT が得意なこと。

  • 画像・動画・3D 点群アノテーション — ボックス、ポリゴン、ポリライン、キーポイント、マスク、3D キューボイド。
  • SAM、SAM 2、YOLO 統合 — モデル補助アノテーションをセルフホストでそのまま。
  • チームワークフロー — Job / Task / Project 階層、レビュー、統計。
  • Docker Compose 1発でデプロイ — セルフホスティングが本当に簡単。

価格。

  • Self-hosted OSS — 無料、MIT ライセンス。
  • CVAT Cloud — Free(010ユーザー)、Pro0、10ユーザー)、Pro(45/seat/月)、Enterprise(見積もり)。

いつ選ぶか — データを外に出せないすべての CV チーム、セルフホスティングが絶対条件の政府・国防・医療・金融、予算が厳しい研究室・スタートアップ。

いつ選ばないか — テキスト・音声・LLM データ。CVAT は CV 専用だ。


9. Label Studio (HumanSignal) — マルチドメイン OSS

Label Studio は Heartex(現 HumanSignal)が作ったツールだ。CVAT が CV 専用なら、Label Studio はあらゆるデータ型を1ツールで。

対応データ型。

  • 画像(ボックス・ポリゴン・マスク)、動画(トラッキング)、音声(セグメント・転記)、テキスト(NER・分類・要約)、HTML、時系列、会話(LLM データ)。

XML 風のラベル設定で UI を定義する(コードブロックの中だけで安全に使う)。

<View>
  <Text name="text" value="$text" />
  <Labels name="entities" toName="text">
    <Label value="PERSON" background="orange" />
    <Label value="ORG" background="green" />
  </Labels>
</View>

価格。

  • Community Edition — 無料 OSS(Apache 2.0)。
  • Starter Cloud — $99/ユーザー/月から。
  • Enterprise — 見積もり、SSO・SCIM・オンプレ。

いつ選ぶか — データ型が多様なチーム(テキスト + 画像 + 音声)、セルフホスティングが必要だが CV だけではないチーム、ML バックエンド統合を好むチーム。


10. Doccano、LabelImg、VIA、MakeSense、COCO Annotator — 軽量 OSS

大きなプラットフォームが重ければ軽量 OSS がある。

Doccano — テキスト専用。NER、分類、seq2seq。Python 1行で起動。日本語・韓国語・中国語の NER プロジェクトで人気。MIT。

LabelImg — ボックスだけ描くデスクトップアプリ。Pascal VOC / YOLO 形式。2024年に deprecation の案内が出たが、依然として GitHub スター2万+ のクラシック。学習用に良い。

VIA (VGG Image Annotator) — Oxford VGG の学術ツール。単一 HTML ファイルで動作。ボックス、ポリゴン、ポイント。エアギャップ環境に親和的。

MakeSense.ai — ブラウザのみ、インストール不要。軽くデモするのに良い。YOLO・VOC・COCO エクスポート。

COCO Annotator — COCO 形式ネイティブ。小チームのインスタンスセグメンテーションで使われる。

共通点 — すぐ始められる。 欠点 — チーム・QC・model-assist のような大きなワークフローがない。プロトタイプを超えると CVAT・Label Studio へ移行する。


11. 3D・Lidar アノテーション — Segments、Deepen、3D Map Labs

自動運転とロボティクスは 3D 点群ラベリングが本業だ。

Segments.ai — ベルギー発。マルチセンサー(Lidar + カメラ)を同時に見る。点群インスタンスセグメンテーション、セマンティックセグメンテーション、キューボイド。価格は見積もり、$500/月程度から。

Deepen AI — 自動運転特化。Lidar シーケンストラッキング、キャリブレーションツールまで束ねて売る。Toyota、Honda、BMW などの自動車会社が顧客。

3D Map Labs — HD マップアノテーション専門。自動運転のための車線・標識・信号マッピング。

いつ選ばないか — 単発の 3D プロジェクト。そのときは CVAT または Supervisely の 3D モードで十分だ。


12. LLM 評価 + RLHF — Argilla、Surge AI、Outlier、Snorkel

LLM 時代でラベリングの形が変わった。「ボックスを描く」のではなく「2つの応答のどちらが良いか」または「この応答は事実か」を答える。これが RLHF データや評価データだ。

Argilla(2024年 Hugging Face が買収) — オープンソース LLM データラベリング・キュレーション。Distilabel と組み合わせて合成データパイプラインを書く。HF Hub と直結。Apache 2.0。

Surge AI — Scale AI の真の競合。RLHF / 評価データのマネージド。OpenAI、Anthropic が Scale 比率を減らしながら Surge を伸ばしている。ラベラー品質が堀 — 専門分野(法務・医学・コーディング)のラベラーを明示的にマッチさせる。

Outlier — Scale AI のラベラー向けプラットフォーム(2024年リブランド)。世界中で24万人。RLHF・評価・コードレビューラベリングが中心。

Snorkel AI — プログラマティック・ラベリングの元祖。ヒューリスティック・弱教師で一次ラベルを作り、モデルで伝播。Snowflake、JPMorgan のようなエンタープライズで使われる。

いつ選ぶか —

  • LLM ファインチューニングデータ・評価セットが中心 -> Argilla (OSS) または Surge AI (マネージド)
  • 「人を使わずルールで一次ラベル」戦略 -> Snorkel

13. データ品質 — Cleanlab、Galileo、Lilac

ラベリングの次は品質チェックだ。

Cleanlab — MIT 発。「Confident Learning」アルゴリズムでラベルエラーを自動検出。データセットから誤りの5〜15%を拾う。Cleanlab Studio は SaaS、cleanlab はオープンソースライブラリ(BSD)。

Galileo — LLM・NLP データオブザーバビリティ。学習データから「モデルが混乱するサンプル」「低品質スパン」「ドリフト」のようなものを可視化。エンタープライズ SaaS。

Lilac(Hugging Face が買収) — テキストデータセット探索・クラスタリング・重複検出。オープンソース。

核心となる気づき — 「ラベルを100個追加する」より「既存ラベル1,000個の中から間違った50個を直す」のほうが効く。 モデル精度が1〜5ポイント上がるのが普通(特に不均衡ドメインで)。


14. クラウドソーシング — MTurk、Clickworker、Appen、TELUS

大量・低難度・言語の多様性が必要なときクラウドソーシングが割り込む。

Amazon Mechanical Turk — 2005年開始のオリジナル。最安(タスク$0.01〜)、最も統制が弱い。品質管理(qualifications、master workers、consensus)が大きな宿題。

Clickworker — ドイツ発。MTurk より精製されたクラウド。多言語のテキスト・画像・音声。

Appen — オーストラリア発。音声データ(コールセンター、ASR)に強い。Lionbridge AI(TELUS が買収)と並び音声・言語データの二大柱。

TELUS International AI Data Solutions — Lionbridge AI を統合。Microsoft、Google、Apple の音声アシスタント学習データを多数処理。

いつ選ぶか — 大量の単純作業(画像分類、短文分類)、多言語音声データ収集。ドメイン専門性が必要な作業には Scale、Surge、Labelbox Boost のほうが向く。


15. 自動ラベリング — SAM 2、Grounding DINO、CLIP、GPT-4V、Claude Vision

2026年アノテーションの最大の変化はモデルが一次ラベラーになったことだ。

SAM 2 (Meta, 2024) — 画像・動画セグメンテーションの万能モデル。1クリック・1ボックス、またはテキストでマスクが出る。Labelbox、CVAT、Roboflow すべてが統合した。

Grounding DINO (IDEA) — テキストプロンプト(「ヘルメットを着けた人」)で箱を引く。オープン語彙検出。SAM 2 と組み合わせると(GroundingSAM)テキスト -> 箱 -> マスクが一気通貫で出る。

CLIP / SigLIP — ゼロショット分類。「これは何の画像?」を問い、定義済みラベルから1つ選ぶ。箱・マスクはできないが分類ラベリングに強い。

GPT-4V / Claude Vision / Gemini Vision — VLM に画像を投げてラベルを尋ねる。最も高価で最も柔軟。few-shot プロンプトでドメインを教えられる。

ワークフローパターン。

# 自動ラベリングパイプラインの擬似コード
for image in dataset:
    boxes = grounding_dino(image, prompt="helmet, vest, person")
    masks = sam2(image, boxes=boxes)
    labels = label_studio_predictions(image, boxes, masks)
    push_to_review(labels)  # 人間は検収のみ

この単一パターンが2026年 CV アノテーションの標準だ。アノテーターの仕事は**「箱を描く」から「AI が描いた箱を検収する」へ明確に移った**。生産性が5〜10倍上がり、単調作業が減ることでラベラーの burnout も減った。


16. AI 安全ラベリング — レッドチーム・jailbreak アノテーション

LLM 時代に新しく生まれたラベリングカテゴリだ。

  • レッドチームプロンプトキュレーション — 潜在的に危険なプロンプトを集め、モデルの応答を評価。Anthropic、OpenAI ともに社内 + 外注。
  • Jailbreak データ — モデルがガードレールを破るケースを収集。学習用と評価用。
  • 有害コンテンツ分類 — toxicity、ヘイトスピーチ、CSAM。Hive、ActiveFence、Surge AI。

核心の難題はラベラーのメンタルヘルスだ。暴力、CSAM、自殺コンテンツを扱うラベラーは PTSD のリスクが実在する。2023年に Time が OpenAI ケニア・ラベラーの処遇問題を暴露して以降、業界はガイドラインを改善中だ。Sama、Surge AI は明示的にメンタルヘルスケアプログラムを置いている。


17. ドメイン別 — 医療、自動運転、地理空間

ドメインが明確なら、ドメイン特化ツールのほうが早い。

医療

  • Encord — DICOM ネイティブ、FDA validation 支援。
  • V7 Medical — 画像 + 臨床試験ワークフロー。
  • Cohort.ai(旧 Centaur Labs) — 医師ラベラーネットワーク。
  • MD.ai、Cogitech — 放射線特化。

自動運転

  • Scale AI Data Engine — カメラ + Lidar + レーダー同期。
  • Mighty AI(Uber が買収)
  • Understand.ai(DSpace が買収)
  • Deepen AI — キャリブレーション + Lidar。

地理空間

  • GroundWork (CamoLabs) — 衛星・ドローン画像。
  • RemoteSensingAI — 農業・林業特化。
  • Mapbox Labelbox 統合 — 都市マッピング。

18. 品質管理 — IAA、Cohen's kappa、consensus

ラベリングは人がやる。人は間違える。だから品質管理は任意のラベリングツールにとって一級機能だ。

中核指標3つ。

  • Inter-annotator agreement (IAA) — 2人以上のラベラーが同じサンプルに同意した割合。
  • Cohen's kappa — 偶然の一致を補正した IAA。0.6+ で「まあまあ」、0.8+ で「良好」。
  • Fleiss' kappa — 3人以上のラベラー版。

ワークフローパターン。

  • Consensus voting — 同じサンプルを N 人がラベル、多数決。
  • Gold standard injection — 正解既知のサンプルを混ぜ込み、ラベラー精度を監視。
  • Adjudication queue — ラベラー間で意見が割れるサンプルをシニアアノテーターへルート。

マネージドプラットフォーム(Scale、Labelbox、V7)はこれをビルトインで提供する。CVAT・Label Studio は自前で組む必要があるが、Job / Review プリミティブで骨格は揃う。


19. Active learning — どのサンプルをラベリングするかをモデルが決める

ラベリング予算は無限ではない。だから「どのサンプルを先にラベリングするか」が大きな判断になる。

Active learning のアイデア — モデルが自信のないサンプル、クラス境界にあるサンプル、新しいクラスタにあるサンプルを先にラベラーへ送る。

戦略3つ。

  • Uncertainty sampling — モデルの予測確率が0.5付近のサンプル。
  • Margin sampling — top-1 と top-2 の確率差が小さいサンプル。
  • Diversity sampling — 埋め込み空間で遠く離れたクラスタ代表。

ツール。

  • Encord Active — 一級機能。
  • Cleanlab Studio — ラベルエラーと uncertainty を同時に。
  • Roboflow — Smart Polygon + モデル補助。
  • CVAT — 自前の nuclio パイプラインで構築可能。

経験則 — active learning を入れると同じモデル性能を半分のラベルで到達できる。 この半分がラベリングコストの半分だ。


20. 韓国アノテーションエコシステム — AI Hub、EzData、Testworks

韓国語・韓国特化データはグローバルツールだけでは賄えない。

AI Hub(NIA、韓国知能情報社会振興院) — 韓国政府の AI データセットハブ。韓国語 NLP、韓国映像、韓国音声データセットが数千件公開。多くが公的予算でラベリングまで進められた。

EzData(이지데이터) — 韓国語ラベリングのマネージドサービス。韓国語 NER、韓国医療画像など。

Testworks(테스트웍스) — ラベリング + QA サービス。ダイバーシティ採用で社会的企業認証を取得。

活用戦略 — AI Hub から公開データセットを一次学習データとして取り、EzData・Testworks でドメイン特化ラベリングを追加する。


21. 日本アノテーションエコシステム — ABEJA、FastLabel、AnnoFab

日本は産業・自動車データに強い。

ABEJA Platform — 日本の ML プラットフォーム。アノテーション + 学習 + デプロイまで。トヨタ、NTT、東急のような大口顧客。

FastLabel — 東京発の AI アノテーション SaaS。日本市場で最も速く成長中。Honda、Sony のような顧客。

Anolytics — 日本・インド同時進出。マネージド・ラベリング。

AnnoFab — 日本市場のアノテーションツール。政府 + 製造業。

活用戦略 — 日本市場特化データ(例: 日本語 OCR、日本道路自動運転)は日本企業がドメイン知識とラベラープールで優位だ。


22. 価格比較 — 実際に何がいくらするのか

ざっくり価格地図(2026年5月時点)。

カテゴリツール価格帯
マネージド・エンタープライズScale AI見積もり、一般に$100K+/年
マネージド・エンタープライズLabelbox Enterprise見積もり、50K50K〜500K/年
セルフサービス SaaSLabelbox Starter$25/seat/月
セルフサービス SaaSLabel Studio Cloud$99/ユーザー/月
セルフサービス SaaSRoboflow249249〜999/月
セルフサービス SaaSV7 Darwin$499/月〜
セルフホスト OSSCVAT$0
セルフホスト OSSLabel Studio Community$0
セルフホスト OSSDoccano、LabelImg、VIA$0
クラウドMTurkタスクあたり$0.01〜
RLHF マネージドSurge AI見積もり、時給2525〜80
自動ラベリング APIRoboflow Auto、Labelbox Foundry画像あたり0.0010.001〜0.01
自動ラベリング VLMGPT-4V、Claude Vision画像あたり0.010.01〜0.05

要点 — セルフホスト OSS はツールは無料だがラベラー人件費は別。 マネージドはツール + ラベラー + QC を一括請求する。


23. 意思決定ツリー — うちのチームは何を選ぶべきか

5つの分岐点。

  1. データを SaaS の外に出してよいか?
    • だめ -> CVAT、Label Studio Community、Doccano(セルフホスト OSS)。
    • よい -> 次の分岐へ。
  2. ドメインは何か?
    • 画像/動画一般 -> Roboflow(インディ)または Labelbox(エンタープライズ)。
    • 医療 -> Encord、V7 Medical。
    • 自動運転 3D -> Scale AI、Deepen AI、Segments.ai。
    • テキスト/NER -> Label Studio、Doccano、Argilla。
    • LLM RLHF/評価 -> Argilla (OSS)、Surge AI(マネージド)。
  3. ラベラーを自社で集められるか?
    • 集められる -> セルフサービス(Labelbox、Roboflow、Label Studio Cloud)。
    • 外注が必要 -> マネージド(Scale、Surge、Labelbox Boost、V7)。
  4. 予算はいくらか?
    • 00〜10K/年 -> OSS セルフホスト + インターン。
    • 10K10K〜100K/年 -> Roboflow、Labelbox Starter、Label Studio Cloud。
    • $100K+/年 -> Labelbox Enterprise、V7、Encord、Scale の一部。
  5. 自動ラベリングを一級市民にするか?
    • する -> Encord Active、Cleanlab、SAM 2 統合ツール。
    • 人間優先 -> Scale、Surge、MTurk。

24. 実戦ワークフロー — 1週間で初データセットを作る

初めての CV データセットを1週間で100〜1,000枚ラベリングまで持っていくワークフロー。

  • Day 1 — 収集。クローリング(Apify、Firecrawl)か自前撮影。Storage は S3。
  • Day 2 — ツール選定。データが機微でなくインディなら Roboflow。機微なら CVAT セルフホスト。
  • Day 3 — 自動ラベリング一次パス。Grounding DINO + SAM 2 で箱とマスク。Roboflow なら「Smart Polygon」、CVAT なら SAM 2 モジュール。
  • Day 4 — 人による検収。自動ラベルが引いた箱を素早く検収・修正。普通に人が新規に描くより3〜5倍速い。
  • Day 5 — 品質チェック。Cleanlab または Encord Active でラベル誤り候補を検出。10〜20件再確認。
  • Day 6 — 学習。Roboflow Train か自前 PyTorch。最初のベースラインモデル。
  • Day 7 — 分析。モデルが最も混乱したサンプル N 件を active learning で次のラベリングキューへ追加。

このループを4〜6回回すと、たいてい production-ready モデルが出来上がる。


25. 正直な意思決定 — モデルではなくデータパイプラインを組もう

最後に一行 — 2026年の ML チームの差別化はモデルではなくデータパイプラインだ。

同じ GPT-4o、同じ Llama 3、同じ YOLOv11 をみなが使う。私たちの優位は自分たちのラベリングデータ、自分たちの評価セット、自分たちの品質管理ワークフローだ。

ツールは手の届くものから。CV なら Roboflow か CVAT、テキストなら Label Studio か Doccano、LLM なら Argilla。すべて無料か低コストで始められる。マネージドは自社でラベラーを集められないとき以外は先送りでよい — マネージドを入れた後でツールを変えるのは難しいが、セルフサービスからマネージドへの移行は自然だ。

そして忘れてはいけない — ラベルを100個追加するより、既存1,000個から間違った50個を直すほうが効く。 Cleanlab を半日立ち上げてみるところから始めよう。


26. 参考文献