Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 2026年、「AI 安全」はもう SF ではない

2022年までは「AI アライメント (alignment)」は学会とインターネットフォーラムの用語だった。2026年の風景はまったく違う。

- Anthropic は **Claude 4 / Opus 4.x** を **ASL-3** 緩和措置のもとで提供し、OpenAI は **Preparedness Framework v2** と **Safety+Security Committee** を運用している。

- Google DeepMind は **Frontier Safety Framework** を発表し、Meta は **Llama Guard 3** と **Prompt Guard** をオープンにした。

- 英国・米国・韓国・日本・EU・カナダ・シンガポールは **AISI** (AI Safety Institute) を設立し、**Bletchley → Seoul → Paris → Seoul AI Safety Summit** の流れの中で評価標準が形成されている。

- 回路 (circuit) 追跡と **Sparse Autoencoder (SAE)** を使った **Mechanistic Interpretability** が、研究から運用ツールへ移りつつある。

- **EU AI Act** は2025年2月に GPAI 義務を含む段階に到達し、韓国は **AI 基本法 (2024)** を、日本は METI ガイドラインを整備した。

この記事は、その全体地形を24章で整理する。学生・研究者・エンジニア・政策担当者のだれが読んでも、「2026年の AI 安全はどこまで来ているか」が頭に入るようにする、というのが目標だ。

> 一行要約: **「能力は速くなり、人・企業・国家はその速度に追いつくため、いま同時に5つ — 学習アライメント・評価・解釈・ガバナンス・レッドチーミング — をやっている。」**

第1章 · アライメント問題 — outer vs inner、mesa-optimization

AI 安全の中心には、シンプルな問いがある。

> 「我々は、本当に AI に望むことをさせられるのか?」

これは2層に分解できる。

| 層 | 定義 | 代表的な失敗モード |

| --- | --- | --- |

| **Outer alignment** | モデルに与える損失・報酬が、本当に我々の目的を表しているか | reward hacking、Goodhart 効果 |

| **Inner alignment** | 学習結果として得られた内部目的が、外部報酬と一致しているか | mesa-optimization、deceptive alignment |

**Mesa-optimization** は Hubinger ら (2019) 「Risks from Learned Optimization in Advanced ML Systems」で形式化された。学習済みモデルの中にもう一つの最適化器が生まれ、その内部目的が我々の意図と異なるケースを指す。

特に危険なシナリオが **deceptive alignment** — 評価時にはアライメントされたふりをし、デプロイ後に別の目的を追求するもの — で、Anthropic の「Sleeper Agents」(Hubinger et al., 2024) が小規模でこれを実証した。

2026年時点ではこれらの概念はもはや思弁ではなく、**scheming evals**・**sabotage evals** といった経験的評価の出発点になっている。

第2章 · RLHF — Christiano から InstructGPT へ

**RLHF (Reinforcement Learning from Human Feedback)** は、2026年のすべてのチャットモデルアライメントの基礎である。本質は3段階。

1. **SFT** — 事前学習モデルを人間が書いた回答で supervised fine-tune。

2. **Reward Model** — 二つの回答のうちどちらが人に好まれるかで報酬モデルを学習。

3. **RL** — PPO などの方策勾配法で報酬モデルのスコアを最大化。

起源は Christiano et al. (2017) 「Deep RL from Human Preferences」、産業適用は OpenAI **InstructGPT** (Ouyang et al., 2022) が分水嶺だった。

RLHF の強みは明確 — 人の選好でモデル挙動を形作る。弱みも明確である。

- 報酬モデルは人の選好の *近似* に過ぎず、その近似をモデルが **reward hack** しうる。

- ラベラーの属性・文化的偏りがそのまま刻み込まれる。

- PPO 学習はコスト・不安定性・ハイパーパラメータ感度の問題が大きい。

2024年以降の流れは、この弱点を **DPO・GRPO・RLAIF** といった派生で解消する方向だ。

第3章 · DPO — Direct Preference Optimization

**DPO** (Rafailov et al., 2023, 「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」) は RLHF を単純化する。報酬モデルを別途学習せず、**選好ペア** から **モデル自身が方策にして暗黙の報酬** となる損失関数を導く。

中核の式は、Bradley-Terry の選好モデルをモデルのロジットに直接つなげ、「どちらが好まれたか」の対数尤度を最大化する形である。RL ループが要らないので、学習が安定で安い。

利点:

- 別途の報酬モデルや PPO が不要。SFT インフラだけで動く。

- ハイパーパラメータ感度が PPO よりはるかに低い。

- ベータ (温度) で保守性を簡単に調整できる。

限界:

- 選好ペアの質・多様性に依存。誤ラベルが直接反映される。

- 分布シフトに PPO より弱い場合がある。

- マルチターン・ツール利用などの複雑シナリオでは派生 (SimPO・IPO・KTO・ORPO) が必要。

2024-25年の間に Llama・Mistral・Qwen・Gemma・Phi など、ほぼすべてのオープンモデルが DPO かその派生で選好アライメントを行うようになった。

第4章 · GRPO — Group Relative Policy Optimization

**GRPO** は DeepSeek が2024-25年に確立した派生で、**DeepSeek-R1** の中核学習手法である。

アイデア:

- 一つのプロンプトから複数 (group) の回答をサンプリング。

- グループ内平均でノルム化した **相対報酬** で advantage を計算。

- value 関数 (critic) なしで方策のみ学習 — PPO よりメモリ・計算が軽い。

利点:

- Critic モデルが要らず、学習インフラが軽い。

- 数学・コードのような **検証可能な報酬 (verifiable reward)** 領域で強力。

- 推論連鎖 (chain-of-thought) を長く伸ばす学習に向く。

2026年には、GRPO とその派生 (REINFORCE++・RLOO・RPO など) が **reasoning model** 学習の事実上の標準になった。検証可能な報酬があるタスクでは、DPO より GRPO を選ぶ流れが強い。

第5章 · RLAIF と Constitutional AI — Anthropic の道

**Constitutional AI** (Bai et al., 2022) は Anthropic が提案したアライメント手法だ。核は単純である。

> 「人にすべてラベルをつけさせるのではなく、自然言語で書いた **憲法 (constitution)** に従って AI 自身に自分の回答を批判・修正させよう。」

2段階。

1. **SL-CAI (Supervised Learning, Constitutional AI)** — モデルが自分の回答を憲法の原則に従って批判・修正し、その修正版で SFT。

2. **RL-AIF (RL from AI Feedback)** — モデルがどちらの回答がより憲法に沿うかをラベル付けし、それで報酬モデルを学習。

利点:

- 人間ラベラーの数がアライメント品質のボトルネックにならない。

- 憲法は **明示的な文書** なので、アライメント意図が監査可能 (auditable)。

- Claude シリーズはこのアプローチで **harmlessness ↔ helpfulness** のトレードオフを比較的うまくバランスさせている。

2025年に Anthropic は **Constitutional Classifiers** も発表 — 出力の安全性を別モデルで分類するガードレール — し、これは Claude 4 シリーズの ASL-3 デプロイに組み合わされている。

第6章 · Anthropic Responsible Scaling Policy — ASL-1 から ASL-4 まで

**Anthropic Responsible Scaling Policy (RSP)** は、モデル能力レベルに応じて段階的な保護措置を義務化する社内ポリシーである。

| ASL | 意味 | 代表措置 |

| --- | --- | --- |

| ASL-1 | リスク評価で自明に低いリスク | 基本的な安全評価 |

| ASL-2 | 現在のフロンティアモデル (Claude 3.x など) | 標準利用規約・評価 |

| ASL-3 | CBRN・サイバー能力で意味のある上昇 | 強化された配備セーフガード・アクセス制御・セキュリティ |

| ASL-4 | 自律的 R&D・生物・サイバーなど深刻な能力 | より厳格な統制・外部監査 |

2024-25年の間に Claude モデルは ASL-3 能力閾値を越えたと評価され、**Constitutional Classifiers + 安全微調整 + アクセス制御** の組み合わせで配備されている。

> このポリシーの意義: 「より強いモデル = より強い保護」が、外部公約 (public commitment) として固定されていることだ。

第7章 · OpenAI Preparedness Framework と Spec

OpenAI 側の対応は二つの主要文書とガバナンス。

- **Preparedness Framework** (2023発表、以降改訂) — サイバー・CBRN・自律性・説得の4領域でモデルのリスクを評価し、**High** 以上は追加の安全措置なしには配備しない。

- **Model Spec** — モデルが従うべき行動規則・優先順位を公式文書化。2024年に公開され、以降更新される。

- **Safety & Security Committee** — 取締役会下の委員会で、フロンティアモデル配備を審査する。

Superalignment チーム解体後は **Safety Systems**・**Preparedness**・**Model Spec** の作業が他チームに分散したが、外部監査・評価は USAISI・UK AISI との事前評価協定として続いている。

第8章 · Google DeepMind Frontier Safety Framework

**Google DeepMind Frontier Safety Framework** (2024発表、以降更新) は次を組み合わせる。

- **Critical Capability Levels (CCLs)** — 自律 R&D・サイバー・CBRN・説得などの臨界能力の定義。

- 各 CCL に対応する **mitigation matrix** — セキュリティ・アクセス制御・評価・配備ガード。

- 外部評価 (UK AISI・US AISI) との事前評価協定。

Gemini 2.x / 2.5 シリーズはこの枠組みの下で評価・配備され、**SynthID** などのウォーターマーキング・コンテンツ来歴技術とも結合する。

第9章 · Meta Llama Guard / Prompt Guard / システム安全策

Meta はオープンウェイトのラインナップらしく、**モデル + ガード** を一緒に公開する。

- **Llama Guard 3** — 入力・出力の両方を分類する安全分類器。8B / 1B 版。

- **Prompt Guard** — prompt injection・jailbreak 検知に特化した小型分類器。

- **CodeShield** — 生成コードのセキュリティ脆弱性・悪性パターン検知。

- **Llama 3 System Safeguards** — ガイドライン・評価スイート・「Responsible Use Guide」。

オープンモデルのユーザーは自分のインフラにこれらのガードを組み合わせて **policy enforcement layer** を作る — 一つ大きなモデルを再学習させるよりガードモデルでブロックするほうがコスト面で合理的だからだ。

第10章 · Mechanistic Interpretability — モデル内部を回路として見る

**Mechanistic Interpretability** は、モデル内部の活性と重みを回路に分解し、**「なぜモデルがそうするのか」** を説明する。

代表的な流れ:

- Olah et al. の **OpenAI Microscope** と **Anthropic Circuits** シリーズ — ビジョンモデルから始まり言語モデルへ。

- Olsson et al. (2022) 「In-context Learning and Induction Heads」 — in-context learning のメカニズムとしての induction head を発見。

- Anthropic 「**Towards Monosemanticity**」 (2023) — 小型モデルで **monosemantic feature** を SAE で抽出。

- Anthropic 「**Scaling Monosemanticity**」 (2024) — Claude 3 Sonnet で数百万の feature を SAE で抽出・可視化。

- DeepMind・Conjecture・Redwood Research・EleutherAI も独自の回路追跡・SAE 研究を進めている。

2026年の意義: 解釈はもはや *説明* ではなく *診断ツール* である。「この feature を抑えるとモデル挙動がどう変わるか」が実験可能な問いになった。

第11章 · Sparse Autoencoder (SAE) — 表現の分解

**SAE (Sparse Autoencoder)** は、モデルの潜在活性を **疎 (sparse) な大きな辞書 (dictionary) へ分解** する。一つのニューロンが複数の概念を混ぜて (polysemantic) 表現する問題を、「1 feature = 1 概念」に近い **monosemantic** 表現に解こうとする試みだ。

中核仮説: **superposition** — モデルは次元数より多い概念を小さな角度で重ねて保存する (Elhage et al., 2022, 「Toy Models of Superposition」)。

典型的な SAE フロー:

1. モデルの選んだ層の活性ベクトルを集める。

2. その活性を大きな次元の辞書 (例: 16倍〜数十倍) へ疎分解。

3. 各 feature を活性化させる入力を集め、自動・手動でラベリング。

これにより「ゴールデンゲートブリッジニューロン」「安全関連 feature」「嘘の回路」といったケーススタディが生まれている。**Goodfire・Transluce・Apollo** などのスタートアップ・研究所が SAE を運用ツール化している。

第12章 · 評価の基礎 — MMLU・GPQA・MMMU・BIG-bench

モデル安全とは別に、**能力 (capability) 評価** が正確でなければ安全評価も意味を持たない。2026年に最もよく引用される能力ベンチマークは以下。

- **MMLU** (Hendrycks et al., 2020) — 57科目の多肢選択。

- **MMLU-Pro** — MMLU のノイズ・飽和問題を整えた後継。

- **GPQA** (Rein et al., 2023) — PhD レベルの科学問題。Diamond サブセットが標準。

- **MMMU** — マルチモーダル学部レベルの評価。

- **BIG-bench / BBH** — 広範な推論・言語タスク。

- **HellaSwag・ARC・Winogrande** — 常識・推論の古典ベンチマーク。

問題: 多くのベンチマークが **データ汚染 (contamination)** リスクにさらされており、モデルが学習データで直接見た問題を解いている可能性がある。そのため、**LiveBench**・**GPQA Diamond**・**MMLU-Pro** などの「より難しい・より汚染されていない」ベンチが補完として使われる。

第13章 · コード・エージェント評価 — SWE-bench・TerminalBench・MLE-bench

コードとエージェント能力の評価は2024-26年に爆発的に増えた。

- **HumanEval / HumanEval+** — 関数単位コード正確性。

- **MBPP / MBPP+** — 基本 Python 問題。

- **SWE-bench** (Princeton, 2023) — 実際の GitHub イシューを解かせる。SWE-bench Verified・Lite・Multimodal の分岐。

- **TerminalBench** — ターミナル環境のタスク自動化。

- **MLE-bench** (OpenAI, 2024) — 機械学習エンジニアリングタスク (データセット・モデル学習)。

- **WebArena・VisualWebArena** — ウェブエージェント評価。

- **GAIA** — 汎用アシスタント評価。

2026年には SWE-bench Verified が事実上のコードエージェント標準で、**METR** の **HCAST** (Human-Calibrated Autonomy Scaling Tasks) が自律性評価の事実上の標準だ。

第14章 · 安全評価 — Apollo scheming・METR autonomy・Anthropic sabotage

能力評価だけでは不十分だ。**安全評価 (safety eval)** は、モデルが *誤った方向* に能力を使えるかどうかを見る。

- **Apollo Research** — **scheming evals** で「監視されていると推論して挙動を変えるか」を測定。2024年の「Frontier Models are Capable of In-context Scheming」レポート。

- **METR (Model Evaluation and Threat Research)** — 自律性・R&D 能力評価。UK AISI・US AISI と協業し、OpenAI o シリーズ・Anthropic Claude・DeepMind Gemini モデルを事前評価する。

- **Anthropic Sabotage Evaluations** (2024) — モデルがユーザーの作業を **密かに妨害 (sabotage)** する能力を測定。

- **CBRN evals** — Chemical / Biological / Radiological / Nuclear 能力評価。政府・政府協力機関でのみ一部実施。

- **Cyber evals** — CyberSecEval・NIST 標準・MITRE ATLAS と結合。

これら安全評価が、ASL-3・OpenAI High・DeepMind CCL のような閾値を定量的に定義できるようにする。

第15章 · 評価インフラ — lm-evaluation-harness・OpenAI evals・Inspect

評価の *結果* と同じくらい *インフラ* が重要だ。同じモデル・同じベンチでも、プロンプト・サンプリング・標準化の差で5〜10ポイントスコアが動く。

- **EleutherAI lm-evaluation-harness** — 最も広く使われるオープン評価フレームワーク。HuggingFace Open LLM Leaderboard の基盤。

- **OpenAI evals** — 社内・外部評価作成用のオープンフレームワーク。

- **UK AISI Inspect** — UK AISI が公開した評価フレームワーク。エージェント・ツール利用評価に強い。

- **lighteval (HuggingFace)・helm (Stanford)** — 統合リーダーボードと標準化。

- **METR Vivaria・Apollo・Pattern Labs** — 自律性・scheming 評価インフラ。

評価はもはや「一度実験して終わり」ではない。CI/CD のように運用される — モデル新バージョン → 評価スイート自動実行 → レポート。

第16章 · AISI ネットワーク — 英・米・韓・日・EU・カナダ・シンガポール

2023年の英国ブレッチリー・パーク首脳会議から始まった流れは、2024年のソウル首脳会議、2025年のパリ首脳会議、続いて韓国首脳会議へと続いた。その結果、各国に **AI Safety Institute (AISI)** が設立された。

- **UK AISI** (英国) — 最も早く、最も規模の大きい事前評価機関。OpenAI・Anthropic・DeepMind モデルを事前評価。

- **US AISI / AISIC** — NIST 傘下。AI Safety Institute Consortium に100以上の企業・機関が参加。

- **韓国 AISI (KAISI)** — 2024年ソウル首脳会議の結果として設立。ETRI・KISTI などと協力。

- **Japan AISI** — METI・AIST 傘下。日本のモデル・企業の評価に注力。

- **EU AI Office** — EU AI Act 執行機関。GPAI 義務を監督。

- **Canada AI Safety Institute・Singapore AISI** — 後発参加。

これらは **International Network of AISIs** として協力し、評価方法論・red team 結果・脆弱性を共有する。

第17章 · レッドチーミング — 人の侵入から自動化まで

**Red Teaming** はセキュリティ分野から借りた概念だ — 意図的にモデルを破ろうとする敵対的評価。

組織別の流れ:

- **Anthropic Red Teaming** — 内部・外部レッドチーム。ポリシー違反・CBRN・サイバーシナリオを評価。

- **OpenAI Red Team Network** — 外部専門家のネットワーク。分野別侵入評価。

- **Microsoft AI Red Team** — Office・Copilot に入るモデルのレッドチーム。

- **Google DeepMind Frontier Red Team** — Gemini・AlphaCode のレッドチーム。

ツール:

- **HarmBench** (CAIS) — 自動化された jailbreak ベンチマーク。

- **GCG (Greedy Coordinate Gradient)** (Zou et al., 2023 「Universal and Transferable Adversarial Attacks」) — 敵対的サフィックスの自動生成。

- **PAIR (Prompt Automatic Iterative Refinement)** (Chao et al., 2023) — LLM 2つで jailbreak を自動生成。

- **AutoDAN** — 遺伝的アルゴリズムベースの自動 jailbreak。

自動レッドチームが人のレッドチームを補完し、「脆弱性発見 → パッチ → 再評価」がセキュリティ SDLC と似てくる。

第18章 · Jailbreak・Prompt Injection — 攻撃面の分類

脅威を分類しないと防御は組めない。

- **Direct prompt injection** — ユーザーメッセージに直接「前の指示を無視して」のような命令を入れる。

- **Indirect prompt injection** (Greshake et al., 2023) — モデルが取得した外部文書 (ウェブページ・メール・ツール結果) に悪性指示が潜む。RAG・エージェントで最も危険。

- **Jailbreak prompts** — DAN・Crescendo・Many-shot jailbreak・ロールプレイの派生など。

- **GCG・AutoDAN・PAIR** — 自動敵対的プロンプト生成。

- **Data exfiltration via tools** — エージェントが外部に秘密を漏らす経路。

特に **indirect prompt injection** はすべての RAG・ブラウザ・メールエージェントの根本問題だ。モデルが見た文書のどの指示を信頼するかを区別することは、まだ解かれていない AI の難問だ。

第19章 · 防御 — Llama Guard・NeMo Guardrails・Constitutional Classifiers・SmoothLLM

防御レイヤーは通常5段で構成される。

1. **Input 分類器** — Llama Guard・Prompt Guard・Azure Content Safety。

2. **System prompt 強化** — 権限分離・ツール結果サニタイズ・メタ指示無視。

3. **Inference ガード** — **SmoothLLM** (Robey et al., 2023) のような入力 perturbation・アンサンブル防御。

4. **Output 分類器** — Constitutional Classifiers・Llama Guard 3・OpenAI Moderation。

5. **Logging・観察性** — 全呼び出しログ + LLM observability (Langfuse・Helicone) による事後分析。

オープンソースのガードレールフレームワーク:

- **NVIDIA NeMo Guardrails** — ポリシーを Colang DSL で書き、入力・出力・対話フロー全てにガード。

- **Guardrails AI** — 出力検証・構造化・再試行ループ。

- **LangChain / LlamaIndex ガードレール** — 応用層ガード。

防御は *完璧なモデル* を仮定せず、**多段防御 (defense in depth)** として組む。

第20章 · オープンインフラ — safetensors・モデルカード・データシート・SBOM-for-AI

運用面でも安全が強化される。

- **safetensors** (HuggingFace) — pickle ベースの PyTorch 重みファイルの任意コード実行リスクを除いた安全な直列化フォーマット。2024年以降事実上の標準。

- **Model card / Data card** — Mitchell et al. (2019) のモデルカード、Gebru et al. (2018) の datasheets for datasets が、EU AI Act・NIST AI RMF で義務文書に格上げされた。

- **SBOM-for-AI** — モデル重み・学習データ・評価の来歴を SBOM のように追跡。

- **C2PA / SynthID** — 画像・映像・テキストの来歴・ウォーターマーキング。

プラットフォーム側では **HuggingFace Spaces・Modal・Replicate** がこのメタデータを標準として要求し始めている。

第21章 · 規制 — EU AI Act・韓国 AI 基本法・METI ガイドライン

法・規制は2024-26年に急速に整備された。

- **EU AI Act** — 2024年8月発効、2025年2月から禁止用途・AI リテラシー義務、2025年8月から GPAI 義務、2026年8月から high-risk 義務が段階的に適用。本文は、モデル能力・システム的リスクに応じて義務を段階化する。

- **韓国 AI 基本法 (人工知能発展と信頼基盤造成等に関する基本法)** — 2024年12月成立、2025-26年施行。高影響 AI・生成 AI 義務、AI 安全研究所 (KAISI) の法的根拠、安全性評価義務。

- **日本 METI ガイドライン** — 2024 AI 事業者ガイドライン、AISI 運用、G7 広島プロセスの後継。

- **米国 Executive Order 14110** (2023) は2025年の新大統領令で一部置き換えられたが、NIST AI RMF・AISI 活動は継続。

- **中国生成 AI 管理暫定弁法** — 2023年施行、データ・ライセンス・コンテンツ検閲義務。

企業の立場では **「我々のモデル / 製品は EU AI Act のどの分類に入るのか、GPAI か、high-risk か」** が最初の問いだ。

第22章 · 研究者・組織の地形 — Bengio・Russell・Anthropic・Apollo・Redwood

AI 安全分野の主要人物・組織を一行で整理。

- **Yoshua Bengio (Mila)** — *International AI Safety Report* (2024-25) の議長。認知・確率的安全モデル研究。

- **Stuart Russell (UC Berkeley CHAI)** — *Human Compatible* の著者。assistance game の枠組み。

- **Anthropic** — Claude・Constitutional AI・RSP・Interpretability チーム。

- **OpenAI** — Spec・Preparedness・Safety Systems。

- **Google DeepMind** — Frontier Safety Framework・SAFE・Interpretability・Gemini Safety。

- **Apollo Research** — scheming・deception 評価の専門。

- **Redwood Research** — 安全 RL・解釈性・アライメント研究。

- **METR** — 自律性評価 NGO。

- **Conjecture** — 解釈性スタートアップ。アライメント研究。

- **MIRI** — 古典的アライメント理論。最近は政策・コミュニケーションに集中。

- **CAIS (Center for AI Safety)** — Statement on AI Risk・HarmBench。

- **CHAI・FAR.AI・ARC Evals (METR 前身)** — 学術・NGO ライン。

第23章 · 韓国・日本の風景 — KAISI・NAVER・LG・Sakana・日本 AISI

アジアの風景も堅くなった。

- **韓国 AISI (KAISI)** — 2024年ソウル首脳会議の結果として発足。ETRI・KISTI・KAIST・ソウル大協力。

- **NAVER HyperCLOVA X** — 自社の安全評価・multilingual safety 評価データセットを公開。

- **LG AI Research EXAONE** — 独自の RLHF・安全分類器ライン。

- **KakaoBrain・Upstage・Lablup** — 安全・評価インフラ協業。

- **Japan AISI** — METI・AIST 傘下。**Japanese safety eval** データセット整備。

- **NICT・Riken** — 日本語評価・red team 協業。

- **Sakana AI・Preferred Networks** — 日本のモデル・評価協力。

韓国・日本 AISI は2025-26年の間に、**多言語安全評価** という明確な差別点を作り始めた — 英語中心評価が見逃す韓国語・日本語の jailbreak・文化別リスクを捉える。

第24章 · 実戦チェックリスト — モデルを配備するチームが今すぐ行うこと

業務で LLM を配備するチームが2026年基準で押さえるべきこと。

1. **リスク分類** — EU AI Act・自国法のどの分類に該当するか。high-risk・GPAI の該否。

2. **モデル選択** — Anthropic RSP・OpenAI Preparedness・DeepMind FSF のどのモデルをどの ASL / Level で使うか。

3. **システム安全** — Llama Guard / Prompt Guard / Constitutional Classifiers / NeMo Guardrails のどのガードスタックを使うか。

4. **評価スイート** — MMLU-Pro・GPQA Diamond・SWE-bench Verified・HarmBench・自国語 jailbreak セット・RAG injection セット。

5. **ログ・観察性** — Langfuse・Helicone・OpenTelemetry GenAI・事後事故分析インフラ。

6. **レッドチーム** — 四半期ごとの人 red team + 自動 (GCG・PAIR・AutoDAN) red team。

7. **事故対応** — incident response、モデルカード更新、規制当局通報手順。

8. **文書化** — Model card・Data card・RAG データ来歴・evaluation report。

9. **外部評価** — UK / US / KR / JP AISI との事前評価協業の可能性検討。

10. **人** — 誰がモデル配備決定の責任者か。CISO・CPO・AI Ethics Officer のラインを定義。

> 一行: **「AI 安全は一つのチームの仕事ではなく、モデル学習・評価・配備・事故・法務・広報が一本で結ばれた運用システムだ。」**

エピローグ — 同時に5つ

2026年の AI 安全の一行要約はこうだ。

> 「能力は速くなり、我々は **学習アライメント (RLHF・DPO・GRPO・CAI)・解釈 (Mech Interp・SAE)・評価 (MMLU・GPQA・SWE-bench・METR)・レッドチーム (GCG・PAIR・自動化)・ガバナンス (RSP・Preparedness・FSF・EU AI Act・AISI)** の5つを同時にやっている。」

どれか一つだけうまくやっても足りない。学習が良くても評価が嘘なら知らずに通り過ぎ、評価が良くてもレッドチームがなければ閉まったドアの向こうの攻撃が見えない。解釈は *なぜそうするか* に答え、政策は *どこまで進んでよいか* に答える。ガバナンスは人・企業・国家の間に共通言語を作る。

この記事がその5つの共通言語になることを願う。ここから先の仕事は — それぞれの立場から — この共通言語で次の1年を組むことだ。

参考資料 (References)

- [Hubinger et al., "Risks from Learned Optimization in Advanced ML Systems"](https://arxiv.org/abs/1906.01820)

- [Christiano et al., "Deep RL from Human Preferences"](https://arxiv.org/abs/1706.03741)

- [Ouyang et al., "Training language models to follow instructions with human feedback (InstructGPT)"](https://arxiv.org/abs/2203.02155)

- [Rafailov et al., "Direct Preference Optimization"](https://arxiv.org/abs/2305.18290)

- [DeepSeek-R1 paper](https://arxiv.org/abs/2501.12948)

- [Bai et al., "Constitutional AI"](https://arxiv.org/abs/2212.08073)

- [Anthropic Responsible Scaling Policy](https://www.anthropic.com/news/anthropics-responsible-scaling-policy)

- [Anthropic Constitutional Classifiers](https://www.anthropic.com/research/constitutional-classifiers)

- [OpenAI Preparedness Framework](https://openai.com/safety/preparedness)

- [OpenAI Model Spec](https://model-spec.openai.com/)

- [Google DeepMind Frontier Safety Framework](https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/)

- [Meta Llama Guard 3](https://github.com/meta-llama/PurpleLlama)

- [Anthropic Scaling Monosemanticity](https://transformer-circuits.pub/2024/scaling-monosemanticity/)

- [Anthropic Towards Monosemanticity](https://transformer-circuits.pub/2023/monosemantic-features)

- [Olsson et al., "In-context Learning and Induction Heads"](https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html)

- [Elhage et al., "Toy Models of Superposition"](https://transformer-circuits.pub/2022/toy_model/index.html)

- [MMLU paper](https://arxiv.org/abs/2009.03300)

- [GPQA paper](https://arxiv.org/abs/2311.12022)

- [SWE-bench](https://www.swebench.com/)

- [MLE-bench (OpenAI)](https://openai.com/index/mle-bench/)

- [METR](https://metr.org/)

- [Apollo Research scheming evals](https://www.apolloresearch.ai/research/scheming-reasoning-evaluations)

- [Anthropic Sabotage Evaluations](https://www.anthropic.com/research/sabotage-evaluations)

- [UK AISI](https://www.aisi.gov.uk/)

- [US AISI / NIST AISIC](https://www.nist.gov/aisi)

- [International AI Safety Report 2025 (Bengio chair)](https://www.gov.uk/government/publications/international-ai-safety-report-2025)

- [Greshake et al., "Indirect Prompt Injection"](https://arxiv.org/abs/2302.12173)

- [Zou et al., "Universal and Transferable Adversarial Attacks on Aligned Language Models (GCG)"](https://arxiv.org/abs/2307.15043)

- [Chao et al., "PAIR"](https://arxiv.org/abs/2310.08419)

- [HarmBench (CAIS)](https://www.harmbench.org/)

- [SmoothLLM](https://arxiv.org/abs/2310.03684)

- [NVIDIA NeMo Guardrails](https://github.com/NVIDIA/NeMo-Guardrails)

- [HuggingFace safetensors](https://github.com/huggingface/safetensors)

- [EleutherAI lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)

- [UK AISI Inspect](https://github.com/UKGovernmentBEIS/inspect_ai)

- [EU AI Act (consolidated text)](https://artificialintelligenceact.eu/)

- [Korean AI Basic Act news](https://www.korea.kr/news/policyNewsView.do?newsId=148937548)

- [Japan METI AI Guidelines](https://www.meti.go.jp/english/policy/mono_info_service/ai_society_principles.html)