필사 모드: AIコンテンツモデレーション & トラスト&セーフティ 2026 完全ガイド - Hive · Perspective API · Microsoft Content Safety · Spectrum Labs · Cinder · Sift · ActiveFence 徹底解説
日本語プロローグ — なぜ今、T&Sインフラなのか
2026年春、ある東南アジアのゲーム会社のトラスト&セーフティ(T&S)運用ルーム。深夜4時17分、あるユーザーがボイスチャットで別のユーザーに対し、その幼い子に言及しながら罵倒メッセージを送る。音声ストリームはHive AIのリアルタイム音声モデレーションへ流れ、「abuse, harassment, child reference」の3ラベルが同時に立つ。同じユーザーのテキストチャットはSpectrum LabsのGuardianへ送られ、グルーミング・パターンの可能性を評価される。2つのシグナルが合算され、CinderのT&Sワークフロー上に「P0 — child safety」ケースとして表示される。15分以内にT&Sアナリストがアカウントを一時停止し、米国と英国からのユーザー通報も入っていたため、NCMEC CyberTiplineへの正式報告が自動生成される。
同じ時刻、ベルリンに本社を置くあるメッセージングプラットフォームではEU DSAの四半期透明性レポート期限が迫っている。T&Sディレクターは当四半期に処理した約6,000万件のコンテンツ・アクション — 削除、ダウンランク、アカウント停止、年齢ゲート — をカテゴリ別に整理してECに提出しなければならない。露出統計、人的審査比率、自動化判定の比率、誤判定率、異議申立処理時間まで含まれる。
東京のあるSNS会社は別の問題に直面している。2024年改正のプロバイダ責任制限法(PCMA)により発信者情報開示請求が強化される一方で、「どのコンテンツを、どの根拠で削除しなかったか」も同等の重みを持つ義務となった。削除しすぎても、削除しなさすぎても責任が問われる。
本稿はこれらの風景の背後にある、2026年春のコンテンツモデレーション&T&S地図である。AIモデレーション基盤、ハッシュ共有、ディープフェイク検出、LLM安全、ワークフロー、規制 — 米国・EU・英国・韓国・日本の各社 — を一気に整理する。
1章 · なぜT&Sが2026年の中核インフラになったのか
コンテンツモデレーションはインターネットで最も古い作業の一つだ。1990年代のBBSシスオペ、2000年代のフォーラムモデレーター、2010年代のSNS通報/削除。2026年が異なる理由は3つに集約される。
**第一に、規制の地殻変動**。2022年にEUで成立し2024年に全面施行された**DSA(Digital Services Act)** は、月間アクティブユーザー4,500万人以上の「VLOP」に対し、システミックリスク評価、外部監査、四半期透明性レポートを義務付けた。英国の**Online Safety Act 2023**(2025年本格発効)はOfcomに強力な執行権限を与え、「児童に対する危害」カテゴリへの積極的対応義務を敷いた。韓国は電気通信事業法と情報通信網法、日本は**プロバイダ責任制限法(PCMA)** の2024年改正で発信者情報開示と削除義務手続を整備した。米国はKOSA(Kids Online Safety Act)と州ごとの立法が続く。
**第二に、コンテンツ生産量の爆発**。生成AIがテキスト・画像・動画・音声の生産コストをほぼゼロまで下げ、スパム・詐欺・ディープフェイクの絶対量が急増した。2024年だけでMetaが処理したコンテンツ・アクションは50億件超。人手だけでは絶対に処理できない規模である。
**第三に、ブランドセーフティと広告市場**。広告主が自社ブランドの隣に並ぶコンテンツに対して厳しくなり、「brand safety」はT&Sのもう一つの軸となった。GARM(Global Alliance for Responsible Media)のbrand safetyカテゴリ、IABのコンテンツ分類体系が広告入札に直接組み込まれている。
これら3つが生み出した市場規模は2026年時点で100億USDを超える。その内側に、インフラ各社、ワークフロー各社、プラットフォーム内部チームが見える。
2章 · AIモデレーションのカテゴリ — 画像・動画・テキスト・音声・マルチモーダル
コンテンツモデレーションをモダリティ別に切ると輪郭が明確になる。
**画像モデレーション** — 最も古い領域。CSAM(児童性的虐待コンテンツ)、ヌード・性的コンテンツ、暴力、ヘイトシンボル(ナチスのシンボル、旧日本軍の旭日旗、テロ組織旗等)、薬物、武器 — この分類はほぼ標準化されている。PhotoDNA(ハッシュマッチング)とCNN系分類器が並走する。
**動画モデレーション** — 画像の拡張だが時間軸が加わる。暴力シーン、自傷、CSAM動画、そして**ディープフェイク**。2024年以降、政治家・芸能人・女性に対する非合意ディープフェイクが急増し、真贋判定が独立カテゴリとして浮上した。
**テキストモデレーション** — ヘイトスピーチ、嫌がらせ、スパム、詐欺、政治的虚偽情報。言語ごとにモデルが異なり、スラングと新語の変化が速い。韓国語・日本語・アラビア語・ヒンディー語のようにトークナイザ自体が難しい言語では精度が落ちる。
**音声モデレーション** — ボイスチャット、ボイスルーム、ライブ配信の音声。罵倒、嫌がらせ、音声クローン(ディープフェイクボイス)。ゲーム会社(Riot, Activision, Epic)が最も切迫した顧客層である。
**マルチモーダル** — 画像+キャプション、動画+字幕、音声+映像。各モダリティ単独では無害に見えても、組み合わせると問題になるケース(例:普通の写真 + 脅迫テキスト)を捉えるにはマルチモーダルモデルが必要になる。CLIP/BLIP系、LLaVA、そして2024年以降はGPT-4V・Claude 3.5 Sonnet vision・Geminiによるzero-shotモデレーションが標準に入った。
3章 · Hive AI — マルチモーダルモデレーションの事実上の標準
サンフランシスコの**Hive AI**は2017年設立。創業者Kevin GuoとDmitriy Karpmanは当初データラベリング会社として出発し、独自モデルを構築してそれをコンテンツモデレーションAPIとして外部へ展開した。
2026年時点でHive AIはコンテンツモデレーション分野で最も広いモダリティ・カバレッジを持つ。
- **画像モデレーション** — 約90カテゴリ。NSFW、成人向け、暴力、薬物、ヘイトシンボル、自傷。
- **動画モデレーション** — フレームサンプリング + 時系列分析。
- **テキストモデレーション** — 英語・スペイン語・ポルトガル語・日本語・韓国語・アラビア語など30以上の言語。
- **音声モデレーション** — リアルタイムボイスチャット、ライブ配信、ゲーム音声。
- **AI生成コンテンツ検出** — Stable Diffusion・Midjourney・DALL-E生成画像の判別。
- **ディープフェイク検出** — 顔合成動画の判別。
- **OCR + 文脈** — 画像内のテキストを読み取り、合わせて分類。
Hiveの強みは**単一APIでマルチモーダル**である点。プラットフォームは画像・動画・テキスト・音声のモデレーションを一つのベンダーから統合調達できる。顧客はReddit、Yubo、Bumble、そして米国防総省の一部プログラム。2024年にはRedditとの複数年契約が公表された。
価格は処理ボリュームに依存するが、公開リファレンスでは、テキストは1万件あたり約0.5〜1ドル、画像は1万件あたり2〜5ドル程度。大規模契約は個別交渉である。
4章 · Microsoft Azure AI Content Safety
マイクロソフトの**Azure AI Content Safety**は2023年に一般提供開始。Azure Cognitive Servicesの中の独立ラインナップとして、マイクロソフトが自社のLLM・検索・ゲーム事業のために構築した基盤を外部に開放したものだ。
主要機能:
- **画像・テキストモデレーションAPI** — Hate、Self-harm、Sexual、Violenceの4コアカテゴリ。各カテゴリに0〜7の重大度スコア。
- **Prompt Shields** — LLMのプロンプトインジェクションとjailbreakを検出。
- **Groundedness Detection** — RAGシステムにおいてLLMの応答がソース文書に基づいているかを判定。
- **Protected Material Detection** — 著作権付きのテキスト・コードの意図しない再生産の検出。
Azureプラットフォームとの統合が深い。Azure OpenAI Serviceを使うと、Content Safetyが入力・出力の両方に自動的に挟まり、RAI(Responsible AI)フィルタリングを標準提供する。医療・金融・法務といった規制産業ではこのデフォルトフィルタが採用の決め手となる。
2024年からは**Custom Categories**が正式公開され、プラットフォームごとに独自カテゴリ(例:「ネタバレ」「医療診断発言」「投資推奨」)をfew-shot学習で追加できるようになった。
5章 · Google Perspective API — トキシシティ・スコアリングの元祖
Googleの**Jigsaw**(旧Google Ideas)が2017年に公開した**Perspective API**は、テキスト・トキシシティ・スコアリングの事実上の最初の標準である。出発点はThe New York Timesのコメントモデレーションのために作られたモデルだった。
主要アトリビュート:
- **TOXICITY** — 失礼・非礼なコメント。
- **SEVERE_TOXICITY** — より強い形態。
- **IDENTITY_ATTACK** — アイデンティティ(人種・宗教・性別・障害等)への攻撃。
- **INSULT** — 侮辱。
- **PROFANITY** — 罵倒語。
- **THREAT** — 脅迫。
- **SEXUALLY_EXPLICIT**(実験的)、**FLIRTATION**(実験的)など。
各アトリビュートは0〜1の確率スコアを返す。閾値はプラットフォーム側の判断である。
サポート言語は英語・スペイン語・フランス語・ドイツ語・イタリア語・ポルトガル語・ロシア語・中国語・日本語・アラビア語など。韓国語は2024年後半に追加された。
Perspective APIは無料である(公正利用枠内)。そのため、小規模プラットフォーム、研究者、市民団体の最初の入口の標準となった。ただし学術研究では人種・方言に対するfalse positiveバイアスが繰り返し指摘されている — 黒人英語(AAVE)やLGBTQ+アイデンティティの単語そのものがトキシシティとして誤分類される傾向。Jigsawはこれに対して「Unintended Bias」シリーズで再学習を重ねている。
6章 · OpenAI Moderation API · Anthropic Constitutional Classifiers
LLM時代のモデレーション基盤はLLM各社自身が構築した。
**OpenAI Moderation API** — 無料提供。text-moderation-latestモデル(GPT-4oベース)が2024年に投入され、精度が大きく上がった。カテゴリ:sexual、hate、harassment、self-harm、sexual/minors、hate/threatening、violence/graphicなど。各カテゴリにbooleanフラグと0〜1スコア。ChatGPTやSoraの内部フィルタリングも同じシグナルを使う。
**Anthropic Constitutional Classifiers** — 2025年3月発表。Anthropicが自社Claudeモデルの安全性評価に使ってきた分類器群を外部に開放した。中核は「Constitutional AI(憲法的AI)」の原則 — 危害、差別、自傷、暴力、詐欺、サイバー攻撃、化学・生物・放射・核(CBRN)兵器、薬物 — のカテゴリ。Claude APIと併用すれば入力・出力の両方に挟める。
違い:OpenAIは「発話行為としてのコンテンツ」に重点を置く一般カテゴリ、Anthropicは「AIが出力すると危険なコンテンツ」(特にCBRNとサイバー)に重点を置く。LLM安全とコンテンツモデレーションが合流するポイントである。
7章 · Spectrum Labs · Cinder · Cove — コミュニティとワークフロー
**Spectrum Labs** — サンフランシスコ。2016年設立。主力製品の**Guardian**はテキスト+行動シグナルを組み合わせて「ユーザーの意図」を推論する。単純なキーワードではなく、ユーザーの会話の流れからグルーミング、詐欺、自傷シグナル、人種主義を捉える。ゲーム会社(Riot Games、Wildlife Studios)、デーティングアプリ、マーケットプレイスが主要顧客。2023年にActiveFenceとの提携を拡大。
**Cinder** — 2021年Y Combinator。元Facebook T&SのBrian Fishman、Declan Cummings、Glen Wiseが共同創業。Cinderはモデル会社ではなく**T&S運用プラットフォーム**である。複数のAIシグナル(Hive、Perspective、社内モデル)を一つのキューに集約し、T&Sアナリストのワークフロー(分類・エスカレーション・異議申立処理・透明性レポート生成)を標準化する。Discord、Yelp、Bumble、Patreonが顧客。2024年シリーズB。
**Cove** — 2024年Y Combinatorのバッチ。Cinderよりさらに小規模なプラットフォーム・新興SaaSをターゲットとしたT&Sワークフロー。「T&S as a Service」のコンセプト。
**ActiveFence** — テルアビブ+ニューヨーク。当初はインテル(脅威調査)とテロ・児童保護寄りのモデレーション情報会社として出発。2024年にはLLM時代に合わせ**ActiveScore** + **ActiveOS**ラインで一般コンテンツモデレーション基盤まで拡張。Microsoft・Reddit・X・Discordにソリューション提供。
**Two Hat / Community Sift** — 2021年にマイクロソフトが買収。ゲーム・キッズ向けコンテンツモデレーション。Xbox・Minecraftのチャットモデレーション標準。
**Sentropy** — 2021年にDiscordが買収。テキストモデレーション+アンチスパム。買収後はDiscord自身のT&Sインフラとなった。
**Sift** — 米国。当初は詐欺・アカウント乗っ取り防止(fraud)だったが、T&Sに近いコンテンツ+ユーザーシグナル分析まで拡張。Airbnb、DoorDash、Twitch。
**TrustLab** — 米国。選挙完全性(election integrity)と虚偽情報分析。EUのCode of Practice on Disinformationのモニタリングパートナー。
**Bodyguard.ai** — フランス。コミュニティモデレーションの自動化。欧州のメディア企業のコメントモデレーションに採用。
8章 · 画像ハッシュ — PhotoDNA · PDQ · TMK+PDQF
CSAMとテロコンテンツはモデレーションの最も古く、最も合意の取れたカテゴリである。そこで標準となった技術が**パーセプチュアル・ハッシング** — 多少改変(クロップ、リサイズ、ウォーターマーク、JPEG再圧縮)された画像でも同じハッシュを生成するアルゴリズムである。
**PhotoDNA** — 2009年にマイクロソフトがダートマス大学のHany Farid教授と共同開発。NCMECと連携し、既知のCSAM画像ハッシュデータベース(数十万〜数百万件)へのマッチングを無料提供する。Facebook、Twitter、Google、Redditなどほぼすべての大型プラットフォームが採用。最も古く、最も普遍的な標準。
**PDQ + TMK** — Metaが2019年にオープンソース公開。PDQは画像ハッシュ、TMK+PDQFは動画ハッシュ。ThreatExchangeと組み合わせてプラットフォーム間のハッシュ共有に使われる。Metaの判断は「あるプラットフォームが捉えたCSAM・テロコンテンツを他のプラットフォームでも捉えられるようにしよう」だった。
**NeuralHash**(Apple) — 2021年に発表されたがプライバシー団体の反発で保留。CSAMのクライアントサイドスキャンの起点。
ハッシュマッチングは単純だが強力である。既知の素材に対しては「見つけたらすぐ捕まえる」が可能。ただし新規・未知のCSAMには効かないため分類器(classifier)モデルと併用する。
9章 · NCMEC · IWF · GIFCT · Tech Coalition — ハッシュ共有のネットワーク
ハッシュは作っても共有されなければ意味が半減する。そこで2010年代初頭からハッシュ共有コンソーシアムが立ち上がってきた。
**NCMEC(National Center for Missing & Exploited Children)** — 米国。1984年設立。**CyberTipline**は米国法に従い、米国拠点のすべてのプラットフォームがCSAMを発見した場合に通報する義務を持つチャネル。2023年だけで約3,600万件のCyberTiplineレポートが入った。NCMECはハッシュデータベースを運営し、プラットフォームにPhotoDNAをライセンス提供し、法執行機関と連携する。
**IWF(Internet Watch Foundation)** — 英国。NCMECの英国版。URLブロックリストとハッシュデータベースを運営。OfcomのOnline Safety Act執行と深く結びつく。
**GIFCT(Global Internet Forum to Counter Terrorism)** — 2017年にFacebook・Microsoft・Twitter・YouTubeが共同設立。テロコンテンツ(暴力的過激主義)のハッシュを共有するコンソーシアム。2019年クライストチャーチ襲撃以降、加盟プラットフォームが大幅に増加。中核は**Hash-Sharing Database** — 加盟員が捉えたテロコンテンツを他の加盟員が即座にブロックできる。
**Tech Coalition** — CSAM対応のプラットフォーム・コンソーシアム。NCMEC・IWFと連携しながら加盟プラットフォーム間のハッシュ・シグナル共有を標準化。2024年に**Lantern**プロジェクトを立ち上げ、CSAMシグナル共有基盤を公開。
**StopNCII.org**(IWF + Meta + Bumbleなど) — 同意なしに共有された親密画像(intimate image abuse)の事前ブロックハッシュ。被害者が自分の画像をハッシュ化して登録すると、加盟プラットフォームがそれにマッチする画像のアップロードをブロックする。
10章 · ディープフェイク検出 — Reality Defender · Sensity · Truepic · TrueMedia
2024年の最大のコンテンツ安全イシューはディープフェイクだった。特に非合意の親密ディープフェイク(主に女性・未成年被害)と政治ディープフェイク。
**Reality Defender** — ニューヨーク。2021年設立。マルチモデル(画像・動画・音声・テキスト)のディープフェイク検出。顧客はCNN、NBC、米国国務省、NATO StratComなど。2024年シリーズA。
**Sensity AI**(旧Deeptrace Labs) — オランダ・アムステルダム。2018年からディープフェイク脅威モニタリング。セキュリティ会社・金融機関・政府が主要顧客。
**Truepic** — 米国サンディエゴ。別アプローチ — **C2PA(Content Authenticity Initiative)** 標準のメタデータ署名をカメラ側で付ける。写真の出所(provenance)を暗号学的に証明し、「この写真は本物だ」の根拠を作る。Adobe・Microsoft・Nikon・Sonyが同じ標準陣営。
**TrueMedia.org** — 2024年に出た非営利ディープフェイク検出ツール。AI2(Allen Institute)などの協力。ジャーナリスト・研究者は無料。
**Hive AI Deepfake Detection** — 3章参照。Hiveのマルチモーダル・ラインに含まれる。
**Microsoft Video Authenticator** — 2020年米大統領選向けに公開。政治動画限定。
**Intel FakeCatcher** — 顔の微細な血流(PPG)信号を分析し、本物の人間かを判別。
2026年の標準構成は「検出(detection) + 出所(provenance)の両輪」。検出だけでは限界があり、カメラから署名を付ける出所標準(C2PA)が両面で補完する。
11章 · プラットフォーム内製ツール — Meta · YouTube · Microsoft · Google
大型プラットフォームは外部インフラ+自社ツールの組み合わせで動く。
**Meta Hasher-Matcher-Actioner(HMA)** — 2022年オープンソース公開。PDQ・TMKハッシュを受けてマッチングしアクションをトリガするパイプライン。小規模プラットフォームが自前のハッシュマッチングを構築する際の標準的な出発点。
**YouTube CSAI Match** — YouTubeが内製したCSAM動画マッチングツール。外部に無料ライセンス提供。
**Microsoft Content Moderator** — Azure Content Safety以前のモデレーションAPI。一部機能はContent Safetyへ移管、一部はdeprecated中。
**Google Content ID** — YouTubeの著作権マッチング。T&Sとは別領域だが、「コンテンツ・フィンガープリンティング・マッチング」の最大の産業事例。月間数十億件のマッチング。
**Meta Llama Guard 3** — 14章参照。LLM安全分類器。オープンソース。
**Roblox Voice Safety** — ボイスチャット・モデレーションの内製モデル。キッズプラットフォーム固有性。
**TikTok TIDAL**(Trust & Safety Insights, Data, Analytics, Learnings) — TikTok内部のT&S運用プラットフォーム。
12章 · 韓国のコンテンツモデレーション — KOCSC · カカオ · ネイバー · KISA
韓国はコンテンツモデレーションの法制と民間自主規制が並走的に発達した国である。
**KOCSC(放送通信審議委員会)** — インターネットコンテンツに対する是正要求・削除権限を持つ行政機関。名誉毀損、わいせつ物、賭博、薬物、自殺誘発、選挙関連虚偽情報など。2024年の是正要求件数は約24万件。表現の自由との緊張で批判もある。
**KISA(韓国インターネット振興院)** — 科学技術情報通信部傘下。違法わいせつ情報の通報受付(局番なし118)、デジタル性犯罪被害者支援、サイバーインシデント対応。2018年からデジタル性犯罪被害コンテンツ削除支援事業を実施。
**カカオ安全センター** — カカオトーク・Daum News・カカオストーリーなどの通報チャネル。カカオは2024年からトラスト&セーフティ・レポートの定期発刊を開始。
**ネイバー通報センター** — ネイバーカフェ・ブログ・知識iN・ニュースコメントの通報処理。ネイバーは自社AI(クローバX系)でコメントモデレーションを自動化する。罵倒・ヘイトの自動非公開。
**カカオAI安全 — サイレン(Siren)** — カカオのコンテンツモデレーション内製AI。通報分類、自動ブロック、人的レビュー・キューのルーティング。カカオトークのオープンチャットの自動モデレーションも同ライン。
**ネイバー クリーンボット / コメントモデレーション** — ネイバーニュース・コメントの罵倒・ヘイト・連投の自動ブロック。2020年に本格導入。韓国語の罵倒辞書と変形(字母分離、スペース変形)に強い。
**N番部屋防止法(2020)** — デジタル性犯罪コンテンツへの積極的義務。一定規模以上のプラットフォームに技術的措置を強制。この法律で韓国のコンテンツ・マッチング基盤が事実上義務化された。
13章 · 日本のコンテンツモデレーション — Yahoo!Japan · LINE · メルカリ · pixiv
日本では2024年改正のプロバイダ責任制限法(PCMA)が大きな分岐点となった。発信者情報開示請求手続が簡素化され、プラットフォームの積極的対応が増えた。
**Yahoo!Japan コメントモデレーター** — Yahoo!ニュースコメントのAIモデレーション。2019年から内製モデル(特に日本語の罵倒・人格攻撃検出に特化)。2024年にLLMベースのモデレーターへアップグレード。
**LINE Cleansing** — LINEのグループ/オープンチャットのコンテンツモデレーションAI。音声通話・絵文字・スタンプまでマルチモーダル。
**メルカリ Hate-Detection** — マイクロソフト+独自モデルで出品商品の偽物・禁止品・ヘイト表象を検出。2024年からはAIモデレーターが出品時点から自動ブロック。
**サイボウズ モデレーション** — 日本企業向けSaaSのサイボウズが自社プラットフォームで使うモデレーションAI。
**pixiv モデレーション** — イラスト・小説プラットフォームのpixiv。性的コンテンツ分類、R-18・R-18Gの自動タグ付け、CSAM検出(外部+自社)。
**ニコニコ動画** — 日本の動画プラットフォーム。自社モデレーション+外部ハッシュマッチング。
**Twitter / X 日本法人** — 2024年PCMA改正以降、発信者情報開示請求対応の義務が増加。日本ユーザーに対する名誉毀損コンテンツ処理が最大の運用負担。
**日本インターネット・ホットラインセンター(IHC)** — 違法・有害情報の通報チャネル。警察庁と連携。
14章 · LLM安全 — Llama Guard 3 · Lakera Guard · Guardrails AI · NeMo Guardrails
LLMチャットボットとエージェントが日常に入ってきたことで、「AIが出力するコンテンツ」のモデレーションが独立産業となった。入力プロンプト(prompt injection、jailbreak)と出力応答(hallucination、harmful content)の両面を見る。
**Llama Guard 3**(Meta) — Llama 3ベースの安全分類器。2024年7月公開。入力・出力の両方を分類し、MLCommonsの危害分類体系に従う。カテゴリ:violent crimes、non-violent crimes、sex crimes、child exploitation、defamation、specialized advice、privacy、IP、indiscriminate weapons、hate、self-harm、sexual content。オープンソース(ライセンス条件あり)。
**Anthropic Constitutional Classifiers**(2025年3月) — 6章参照。Claudeの安全シグナルを外部開放。
**Lakera Guard** — スイス・チューリッヒ。**プロンプトインジェクション**検出に特化。LLMチャットボットがシステムプロンプトを迂回したり、ツール呼び出しを悪用するパターンを捕捉する。2024年シリーズA。
**Guardrails AI** — オープンソース+商用。LLM応答の構造・内容検証を宣言的に定義できる。JSONスキーマ、regex、外部分類器呼び出しを一箇所で。
**NVIDIA NeMo Guardrails** — NVIDIAのオープンソースLLMガードレール・フレームワーク。「Colang」というDSLで対話フローと安全規則を定義。エンタープライズ・チャットボットで採用が活発。
**Prompt Guard**(Meta、2024) — Llama Guard 3と同時公開。プロンプトインジェクションとjailbreak検出専用の小型モデル。
**Rebuff** — オープンソースのプロンプトインジェクション防御。多層構成(ヒューリスティック、埋め込み類似度、LLM分類、カナリアトークン)。
**OpenAI Moderation API** — 6章参照。LLM時代の出力フィルタリングにも同じシグナルが使える。
**Microsoft Prompt Shields** — 4章参照。Azure AI Content SafetyのLLM保護コンポーネント。
LLM安全は2026年時点ですでに独立市場である。Gartnerは2026年「AI Trust, Risk and Security Management(AI TRiSM)」市場規模を約10億USDと推定する。
15章 · オープンソース · detoxify · Project Arachnid · その他
研究者・中小プラットフォーム・市民団体が使うオープンソース層も豊富である。
**detoxify**(Unitary) — 英国。Pythonライブラリ。Jigsawのトキシシティ・データセットで学習したオープンソース分類器。一行コードでトキシシティ・スコア。学術研究で多用される。
**Perspective API**(Jigsaw) — 5章参照。無料API。
**Project Arachnid**(C3P、Canadian Centre for Child Protection) — CSAMコンテンツのクロール+マッチング+通報の自動化。カナダ拠点。
**Microsoft Reporting Service** — PhotoDNAを一部非営利組織に無料ライセンス提供。
**Hive Submarine**(オープンモデル) — Hiveが一部モデルを学術ライセンスで公開したプロジェクト(範囲限定)。
**LLM Guard**(オープンソース) — LLM入出力検査ライブラリ。PIIマスキング、プロンプトインジェクション検出、トピックブロックなど。
**オープンソースのCSAMハッシュデータベース** — 一般公開されない。運用上正当な理由でNCMEC・IWFが認証したプラットフォームのみに提供される。
16章 · 評価 — 精度/再現率、バイアス、データセット
コンテンツモデレーションモデルは単純に精度が高ければ終わりではない。**バイアス**が中核評価軸である。
**False Positiveバイアス**:
- AAVE(African American Vernacular English)に対するトキシシティの過剰評価。2019年のSap et al.論文が代表。
- LGBTQ+アイデンティティ単語(例:「gay」「lesbian」「trans」)それ自体がトキシシティとして分類される傾向。
- 韓国語の方言、日本語のカジュアル表現に対するfalse positive。
**False Negativeバイアス**:
- 非主流言語(スワヒリ語、ウズベク語など)におけるヘイトスピーチ検出失敗。
- マルチモーダル(画像+テキスト融合)におけるmissing detection。
**評価データセット**:
- **Jigsaw Toxicity Classification**(Kaggle) — Wikipedia Talkコメント。
- **Jigsaw Unintended Bias** — アイデンティティ基準のバイアス評価。
- **HolisticBias**(Meta) — 約600のアイデンティティ・ディスクリプタにわたる評価。
- **TextDetox**(shared task) — 多言語トキシシティ+デトックス(rewriting)。
- **HateXplain** — ヘイトスピーチ分類+説明(rationale)。
- **Stormfrontデータセット** — 白人至上主義フォーラムのテキスト(研究限定)。
- **CivilComments** — ニュースコメント+アイデンティティラベル。
- **MMHS150K** — マルチモーダル(画像+テキスト)ヘイト・ミーム。
**プラットフォーム標準評価**:
- **MLCommons AILuminate** — 2024年公開。AI安全ベンチマーク。Llama Guard 3が従うカテゴリ体系と一致。
- **HELM Safety** — Stanford CRFMの評価セット。
中核教訓:**単一の点数**ではコンテンツモデレーションモデルを評価できない。アイデンティティ・言語・ドメインでスライスした精度を見なければならない。
17章 · AIレッドチーミング — Anthropic · OpenAI · GIFCT
T&Sモデルは敵対的環境で生き残らなければならない。そこで**レッドチーミング(red teaming)** が必須プロセスとなった。
**Anthropic Red Teaming** — Claude公開前の内部+外部レッドチーミング。CBRN、サイバー、政治的影響といったカテゴリについて専門家パネルと評価する。結果はModel CardとConstitutional Classifierの学習に反映。
**OpenAI Red Team Network** — GPT-4公開時から運用。外部専門家(セキュリティ、化学、生物、政治、医療、サイバー)プールが新モデルを事前評価。結果はGPT-4 System Cardなどに公開。
**Microsoft AI Red Team** — Azure AIシステムへの内部敵対的評価。**PyRIT**(Python Risk Identification Tool、2024年オープンソース化)を一般公開。
**GIFCT Red Team Exercises** — テロコンテンツについて加盟プラットフォーム合同レッドチーム。2023年から定期運用。
**DEF CON AI Village** — 2023年に初開催された大規模公開LLMレッドチーム・イベント(約2,200名参加)。以降毎年。
**MITRE ATLAS** — AIシステムへの脅威分類フレームワーク。ATT&CKのAI版。
レッドチーミングの成果物は単なる発見報告ではない。**自動化された敵対評価セット(adversarial eval)**、**モデル再学習用データ**、**カテゴリポリシー更新**の入力となる。すなわち、一回のレッドチームが分類器・ポリシー・LLMの重みの三箇所を同時に動かす。
18章 · 透明性レポート — DSA · 定期開示
2026年春時点で、すべての大型プラットフォームは定期的に透明性レポートを公開する。
**EU DSA Article 15** — すべての仲介サービス提供者(VLOP以外も含む)は年次透明性レポートを英語+自国語で公開する義務がある。カテゴリ:コンテンツ・アクション件数、自動化/手動の比率、カテゴリ別分類、人的審査時間、異議申立処理。
**EU DSA Article 24** — VLOPは四半期レポート。
**米国**:カリフォルニア州AB 587(2023年)が一定規模以上のプラットフォームに四半期レポートを義務化。テキサス・フロリダ等の州ごとの差異あり。
**韓国**:情報通信網法に基づく定期報告は一部義務だが、全体的な透明性レポートは自律。カカオ・ネイバーは自律公開。
**日本**:自律。Yahoo!Japan・LINEの自律報告。
**主要企業のレポート**:
- **Meta Community Standards Enforcement Report** — 四半期ごとのFacebook・Instagramのコンテンツ・アクション統計。
- **YouTube Community Guidelines Enforcement Report** — 四半期。
- **TikTok Community Guidelines Enforcement Report**。
- **X(Twitter)Transparency Center** — 一貫性に対する批判あり。
- **Discord Transparency Report** — 半期。
- **Reddit Transparency Report** — 年次+一部四半期。
- **Snap Transparency Report** — 半期。
レポートの精度はますます上がっている。EU DSA以降は「0.1%」単位までカテゴリ別アクション比率を公開する。
19章 · 小規模プラットフォームのモデレーション・スタック — 実アーキテクチャ
小規模プラットフォーム(MAU 10万〜1,000万規模)が2026年に構築可能な標準モデレーション・スタックを一枚に描いてみる。
**1)入力レイヤー**:
- テキスト → Perspective API(無料)またはHive Text Moderation。
- 画像 → Hive Image + PhotoDNAマッチング(NCMECライセンス)。
- 動画 → Hive Video + PDQ/TMKハッシュ。
- 音声/ボイスチャット → Hive Audio。
- LLM入出力 → Llama Guard 3(セルフホスト)またはLakera Guard。
**2)分類+キュー・ルーティング**:
- T&Sワークフロー・プラットフォーム — CinderまたはCove。
- シグナルを結合し、P0/P1/P2キューにトリアージ。
**3)人的レビュー**:
- 社内T&Sアナリスト+外部BPOパートナー(Telus International、TaskUs、Majorelなど)。
- 多言語カバレッジが必要な場合、外部BPOは事実上必須。
**4)アクション+異議申立**:
- コンテンツ・アクション:削除、ダウンランク、年齢ゲート、アカウント停止。
- ユーザーに通知し、異議申立チャネルを提供。
**5)レポート+通報**:
- CSAM発見時にNCMEC CyberTiplineへ自動送信。
- テロコンテンツ → GIFCTハッシュ共有。
- 定期透明性レポートの生成。
**6)モデルガバナンス**:
- 四半期バイアス評価(HolisticBiasなど)。
- ポリシー更新 → 分類器再学習 → A/Bテスト。
このスタックを自前で構築すると年間100万USD〜数百万USD、外部ソリューションの組み合わせなら数十万USDから開始可能。規制(特にDSA・OSA)が強い市場に進出すると費用は2倍以上に増える。
20章 · 労働と報酬 — モデレーターのメンタルヘルス
本稿が外せない一章は人間のモデレーターである。AIがどれほど発達しても、最も難しい判断は人が下す。CSAM、自傷、暴力的過激主義、虐待 — 毎日見る人たちがいる。
2018年以降、一連の報道(The VergeのCasey Newtonシリーズ、ドキュメンタリー『The Cleaners』など)と訴訟(Selena Scola v. Facebook、2018年、$52M和解)がモデレーターのPTSDを公論化した。2024年にはケニアのFacebookモデレーター(Sama契約)が集団訴訟を提起した。
**改善の方向性**:
- 画面のグレースケール化、音声処理、日次露出量制限。
- 心理カウンセリングと同僚サポートの義務化。
- BPO従属職種の正規化または直接雇用。
- 「見なくてよいAI処理量」の段階的増加。
T&S産業の倫理はコンテンツ精度だけではなく、**モデレーターの労働条件**でもある。2026年のT&SディレクターがKPIとして扱う項目の一つが「human reviewer wellness score」である。
21章 · 事例 — あるゲーム会社のボイスチャット・モデレーションの15分
冒頭のシナリオに戻って、ゲーム会社のボイスチャット・モデレーション1ケースの15分を分単位で展開してみる。
- **T+0:00** — ユーザーAがマルチプレイ・マッチ中にボイスチャットを開始。音声ストリームはHive AIの音声モデレーションと内製STTパイプラインに同時送信。
- **T+0:30** — Hiveが「abuse, slur, child reference」の3ラベルに0.8以上のスコア。内製STTがテキストを生成しSpectrum Labs Guardianへ送る。
- **T+1:00** — GuardianがユーザーAの直近7日間のチャット履歴と結合。「grooming pattern probability: 0.7」シグナルを追加。
- **T+1:30** — CinderのT&Sキューに「P0 — child safety」ケースを生成。自動通知がオンコールのT&Sアナリストへ。
- **T+10:00** — T&Sアナリストがケースを開き、ボイスクリップとテキスト、ユーザー履歴、通報内容を確認。
- **T+12:00** — アナリストがアカウント停止+NCMEC CyberTiplineへの自動通報をトリガ。
- **T+15:00** — ユーザーB(被害者)に安全リソース案内メッセージ。親/保護者の連絡先があれば別チャネルへ。
- **T+24:00** — 四半期透明性レポートにカテゴリ別統計として集計。
この流れの矢印のすべてに一社が入っている。ボイスモデレーション(Hive)、パターン検出(Spectrum Labs)、ワークフロー(Cinder)、CSAM通報(NCMEC)、レポート(DSA Article 15)。一回のゲームの15分がT&Sエコシステム全体を横断する。
22章 · 限界 — バイアス、責任、表現の自由
本稿の最後の一章は限界についての正直な一言である。
**言語・文化バイアス** — ほとんどのコンテンツモデレーションモデルは英語中心で学習され、非英語言語と非主流方言で性能が落ちる。韓国語・日本語・アラビア語・ヒンディー語・スワヒリ語・フィリピノ語 — 市場は小さくないがモデル品質の差は大きい。
**False Positiveと表現の自由** — 過剰モデレーションは正当な意見・風刺・芸術を隠す。AAVE黒人英語、LGBTQ+の自己記述、政治風刺が自動で捕捉されるケースが毎年報告される。EU DSAの「異議申立権」が部分的な答えだが、一度隠されたコンテンツは完全には戻りにくい。
**False Negativeと被害** — モデレーション不足は被害を継続させる。非合意親密ディープフェイクの爆発はモデレーションの不足をそのまま露呈した。
**責任の所在** — モデレーション判断の責任は誰のものか?プラットフォーム?AIモデル提供者?モデレーター?DSAとOSAはプラットフォームの責任を明確化するが、AIモデルの誤動作が直接原因の場合の判例はまだ薄い。
**プライバシーと安全の緊張** — エンドツーエンド暗号化メッセージング上でCSAMをどう捕えるのか?AppleのNeuralHash保留、EUの「Chat Control」論争、UK Online Safety Actの技術要求 — 同じ問いから異なる答えが生まれている。
**モデレーターのメンタルヘルス** — 20章参照。AIが一部負担を軽減するが、最も暗いコンテンツは依然として人が見る。
**規制の断片化** — EU DSA、UK OSA、韓国情報通信網法、日本PCMA、米国の州法。グローバル・プラットフォームが同時に満たすには、最も厳しい基準へ収束する。これが「Brussels effect」 — 事実上EU規制がグローバル標準化する効果。
これらの限界は、しかしこの分野を否定する理由ではない。表現の自由と安全の綱渡りは活版印刷以降のすべてのメディアが通った道だ。AIも同じ道を行く — 批判的に、一歩ずつ。
23章 · 結論 — 多層防御、人的審査、そして信頼
2026年春、あるゲーム会社のボイスチャット1ケースの15分の中に、私たちはこの時代の一枚の絵を見た。Hive、Spectrum Labs、Cinder、NCMEC、EU DSA — 異なる会社、異なる標準、異なるアルゴリズム。しかしユーザー一人の安全という同じ点に集まる。
これからの5年の方向は明確である。**多層防御**(ハッシュ+分類器+行動シグナル+LLM+人)、**provenance標準**(C2PA)、**バイアス評価の定着**(HolisticBias系)、**モデレーター保護の産業標準化**、**透明性レポートの比較可能性**(DSA Article 39)。
T&Sは一社の秘密兵器から産業の共通インフラへ移った。NCMECとGIFCTが示したように、「あるプラットフォームが捉えた危害は他のプラットフォームでも素早く防げるべき」が標準である。同時に、一つのプラットフォームのモデレーション判断はそのプラットフォームのガバナンス — 表現の自由、ユーザー権利、外部監査 — と結びつく。
信頼は一回で作られない。しかし、一度失われるたびに同じ重さで漏れていく。2026年のT&Sインフラの最も重要な資産は結局アルゴリズムではなく、ユーザーが「このプラットフォームは私を守ってくれる」と感じる信頼である。そしてその信頼は、上で見たすべての会社 — Hive、Microsoft、Google、Anthropic、Spectrum Labs、Cinder、ActiveFence、NCMEC、IWF、GIFCT — と、その背後にいる人間モデレーターたちが共に作っている。
T&Sは一国のゲームではない。そして一社のゲームでもない。
24章 · 参考資料
- [EU Digital Services Act · Official](https://commission.europa.eu/strategy-and-policy/priorities-2019-2024/europe-fit-digital-age/digital-services-act_en)
- [UK Online Safety Act 2023 · Ofcom](https://www.ofcom.org.uk/online-safety)
- [Hive AI · Content Moderation API](https://thehive.ai/)
- [Microsoft Azure AI Content Safety](https://azure.microsoft.com/en-us/products/ai-services/ai-content-safety)
- [Google Perspective API · Jigsaw](https://perspectiveapi.com/)
- [OpenAI Moderation API · Docs](https://platform.openai.com/docs/guides/moderation)
- [Anthropic Constitutional Classifiers Announcement (Mar 2025)](https://www.anthropic.com/research/constitutional-classifiers)
- [Spectrum Labs · Guardian](https://www.spectrumlabsai.com/)
- [Cinder · Trust and Safety Operations](https://www.cinder.co/)
- [ActiveFence · Content Moderation and Threat Intelligence](https://www.activefence.com/)
- [Sift · Digital Trust and Safety](https://sift.com/)
- [NCMEC · CyberTipline](https://www.missingkids.org/gethelpnow/cybertipline)
- [Internet Watch Foundation (IWF)](https://www.iwf.org.uk/)
- [GIFCT · Global Internet Forum to Counter Terrorism](https://gifct.org/)
- [Tech Coalition · Lantern](https://www.technologycoalition.org/lantern)
- [Microsoft PhotoDNA](https://www.microsoft.com/en-us/photodna)
- [Meta · PDQ and TMK Open Source](https://github.com/facebook/ThreatExchange)
- [Meta · Hasher-Matcher-Actioner](https://github.com/facebook/ThreatExchange/tree/main/hasher-matcher-actioner)
- [Reality Defender · Deepfake Detection](https://www.realitydefender.com/)
- [Sensity AI · Visual Threat Intelligence](https://sensity.ai/)
- [Truepic · C2PA Provenance](https://truepic.com/)
- [TrueMedia.org · Nonprofit Deepfake Detection](https://www.truemedia.org/)
- [Llama Guard 3 · Meta](https://github.com/meta-llama/PurpleLlama)
- [Lakera Guard · Prompt Injection Defense](https://www.lakera.ai/)
- [NVIDIA NeMo Guardrails](https://github.com/NVIDIA/NeMo-Guardrails)
- [Guardrails AI](https://www.guardrailsai.com/)
- [detoxify · Unitary Open Source](https://github.com/unitaryai/detoxify)
- [MLCommons AILuminate Benchmark](https://mlcommons.org/benchmarks/ailuminate/)
- [Korean KOCSC](https://www.kocsc.or.kr/)
- [Japan Internet Hotline Center · IHC](https://www.internethotline.jp/)
현재 단락 (1/253)
2026年春、ある東南アジアのゲーム会社のトラスト&セーフティ(T&S)運用ルーム。深夜4時17分、あるユーザーがボイスチャットで別のユーザーに対し、その幼い子に言及しながら罵倒メッセージを送る。音声...