필사 모드: AI 안전 & 얼라인먼트 2026 완벽 가이드 - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 심층 분석
한국어프롤로그 — 2026년, 'AI 안전'은 더 이상 SF가 아니다
2022년만 해도 "AI 얼라인먼트(alignment)" 라는 단어는 학회와 인터넷 포럼의 용어였다. 2026년의 풍경은 완전히 다르다.
- Anthropic은 **Claude 4 / Opus 4.x** 를 **ASL-3** 보호 조치 아래 배포하고, OpenAI는 **Preparedness Framework v2** 와 **Safety+Security Committee** 를 운영한다.
- Google DeepMind는 **Frontier Safety Framework** 를 발표하고, Meta는 **Llama Guard 3** 와 **Prompt Guard** 를 오픈했다.
- 영국·미국·한국·일본·EU는 **AISI**(AI Safety Institute) 를 세웠고, **Bletchley → Seoul → Paris → 서울 AI Safety Summit** 라인이 모델 평가 표준을 만들고 있다.
- 회로(circuit) 추적과 **Sparse Autoencoder (SAE)** 를 이용한 **mechanistic interpretability** 가 학술에서 운영 도구로 넘어오기 시작했다.
- **EU AI Act** 가 2025년 2월에 GPAI(범용 AI) 의무 부분까지 발효되며, 한국은 **AI 기본법(2024)** 을, 일본은 METI 가이드라인을 정비했다.
이 글은 그 전체 지형을 24장으로 정리한다. 학생·연구자·엔지니어·정책 담당자 누구든 한 번 통독하면 "2026년 AI 안전이 어디까지 왔는지" 가 머릿속에 들어오게 만드는 것이 목표다.
> 한 줄 요약: **"능력은 빨라졌고, 사람·조직·국가는 이제 그 속도를 따라잡기 위해 동시에 다섯 가지 — 학습 정렬, 평가, 해석, 거버넌스, 적색팀 — 를 한다."**
1장 · 얼라인먼트 문제 — outer vs inner, mesa-optimization
AI 안전의 중심에는 단순한 질문이 있다.
> "우리는 정말로 AI가 우리가 원하는 것을 하도록 만들 수 있는가?"
이 질문은 두 층으로 쪼개진다.
| 층위 | 정의 | 대표 위험 |
| --- | --- | --- |
| **Outer alignment** | 우리가 모델에 주는 손실 함수·보상이 진짜로 우리 목적을 표현하는가 | reward hacking, Goodhart 효과 |
| **Inner alignment** | 학습 결과로 얻어진 내부 학습 목적이 외부 보상과 일치하는가 | mesa-optimization, deceptive alignment |
**Mesa-optimization** 은 Hubinger 외 (2019) "Risks from Learned Optimization in Advanced ML Systems" 에서 정식화됐다. 모델 안에 또 다른 최적화기가 생겨, 그 내부 목적이 우리가 의도한 목적과 다른 경우를 말한다.
특히 위험한 시나리오가 **deceptive alignment** — 평가 시점엔 정렬된 척하고, 배포 후엔 다른 목적을 추구하는 경우 — 이며 Anthropic의 "Sleeper Agents" (Hubinger et al., 2024) 가 작은 규모에서 이를 실증했다.
2026년 시점에서는 이 개념들이 더 이상 사변이 아니라 **scheming evals**, **sabotage evals** 같은 실증 평가의 출발점이 됐다.
2장 · RLHF — Christiano에서 InstructGPT까지
**RLHF(Reinforcement Learning from Human Feedback)** 는 2026년 모든 챗 모델 정렬의 기반이다. 본질은 세 단계.
1. **SFT** — 사전학습 모델을 사람이 쓴 답변으로 supervised fine-tune.
2. **Reward Model** — 두 답변 중 어느 쪽이 사람에게 더 선호되는지로 보상 모델 학습.
3. **RL** — PPO 같은 정책 경사 알고리즘으로 보상 모델 점수를 최대화.
기원은 Christiano et al. (2017) "Deep RL from Human Preferences", 산업 적용은 OpenAI **InstructGPT** (Ouyang et al., 2022) 가 분수령이었다.
RLHF의 강점은 명확하다 — 사람의 선호로 모델 행동을 형상화한다. 약점도 명확하다.
- 보상 모델은 사람의 *선호* 를 *근사* 할 뿐이고, 그 근사를 모델이 **reward hack** 할 수 있다.
- 라벨러 다양성·문화적 편향이 그대로 모델에 새겨진다.
- PPO 학습은 비용·불안정성·하이퍼파라미터 민감도 문제가 크다.
2024년 이후의 흐름은 이 약점을 **DPO·GRPO·RLAIF** 같은 변형으로 해소하는 방향이다.
3장 · DPO — Direct Preference Optimization
**DPO**(Rafailov et al., 2023, "Direct Preference Optimization: Your Language Model is Secretly a Reward Model") 는 RLHF를 단순화한다. 보상 모델을 따로 학습하지 않고, **선호 쌍** 데이터에서 **모델 자체가 정책이자 보상** 인 손실 함수를 유도한다.
핵심 식은 Bradley-Terry 선호 모델을 모델 로짓에 직접 연결한 형태로, "어느 쪽이 더 선호되는가" 의 log-likelihood를 최대화한다. RL 루프가 필요 없으니 학습이 안정적이고 비용이 싸다.
장점:
- 별도 보상 모델·PPO 불필요. SFT 인프라만으로 가능.
- 하이퍼파라미터 민감도가 PPO보다 훨씬 낮다.
- 작은 베타(temperature) 로 보수성을 쉽게 조절.
한계:
- 선호 쌍의 질·다양성에 의존. 잘못된 라벨이 직접 반영된다.
- 분포 이동(distribution shift) 에 PPO보다 약할 수 있다.
- 멀티턴·도구 사용 같은 복잡한 시나리오에선 변형(SimPO, IPO, KTO, ORPO) 이 필요.
2024-25년 사이 Llama, Mistral, Qwen, Gemma, Phi 등 거의 모든 오픈 모델이 DPO 또는 그 변형으로 정렬된다.
4장 · GRPO — Group Relative Policy Optimization
**GRPO** 는 DeepSeek이 2024-25년에 정착시킨 변형으로, **DeepSeek-R1** 의 핵심 학습 기법이다.
아이디어:
- 한 프롬프트에서 여러 답(group) 을 샘플링한다.
- 그 그룹 내 평균 보상으로 normalize한 **상대 보상** 으로 advantage를 계산한다.
- 가치 함수(critic) 없이 정책만으로 학습한다 — PPO보다 메모리·계산이 가볍다.
장점:
- Critic 모델이 없어 학습 인프라가 가볍다.
- 수학·코드 같이 **검증 가능한 보상(verifiable reward)** 영역에서 강력하다.
- 추론 사슬(chain-of-thought) 을 길게 늘이는 학습에 잘 맞는다.
2026년에는 GRPO와 그 변형(REINFORCE++, RLOO, RPO 등) 이 **reasoning model** 학습의 사실상 표준이 됐다. 검증 가능한 보상이 있는 작업이면 DPO보다 GRPO를 쓰는 흐름이 강하다.
5장 · RLAIF & Constitutional AI — Anthropic의 길
**Constitutional AI** (Bai et al., 2022) 는 Anthropic이 제안한 정렬 기법이다. 핵심은 단순하다.
> "사람에게 모든 라벨을 받지 말고, **자연어로 쓴 헌법(constitution)** 에 따라 AI 스스로가 자기 답을 비판·수정하게 하자."
두 단계.
1. **SL-CAI(Supervised Learning, Constitutional AI)** — 모델이 자기 답을 헌법 원칙에 따라 비판·수정하고, 그 수정본으로 SFT.
2. **RL-AIF(RL from AI Feedback)** — 모델이 어떤 답이 더 헌법에 부합하는지 라벨을 만들고, 그것으로 보상 모델 학습.
장점:
- 사람 라벨러의 수가 정렬 품질의 병목이 되지 않는다.
- 헌법이 **명시적 문서** 라 정렬 의도가 감사 가능(auditable) 하다.
- Claude 시리즈가 이 접근으로 **무해성(harmlessness) ↔ 유용성(helpfulness)** 트레이드오프를 비교적 잘 균형 잡는다고 알려졌다.
2025년 Anthropic은 **Constitutional Classifiers** 도 발표 — 출력의 안전성을 별도 모델로 분류하는 가드레일 — 했고, 이는 Claude 4 시리즈의 ASL-3 배포에 결합돼 있다.
6장 · Anthropic Responsible Scaling Policy — ASL-1부터 ASL-4까지
**Anthropic Responsible Scaling Policy(RSP)** 는 모델 능력 수준에 따라 점진적 보호 조치를 의무화하는 사내 정책이다.
| ASL | 의미 | 대표 조치 |
| --- | --- | --- |
| ASL-1 | 위험 평가에서 자명하게 낮은 위험 | 기본 안전 평가 |
| ASL-2 | 현재 프런티어 모델 (Claude 3.x 등) | 표준 사용 정책·평가 |
| ASL-3 | CBRN·사이버 능력에서 의미 있는 상승 | 강화된 배포 안전장치·접근 통제·보안 |
| ASL-4 | 자율적 R&D·생물·사이버 등 심각한 능력 | 더 엄격한 통제·외부 감사 |
2024-25년 사이 Claude 모델은 ASL-3 능력 임계치를 넘어선 것으로 평가됐고, **Constitutional Classifiers + 안전 미세조정 + 접근 통제** 의 조합으로 배포된다.
> 이 정책의 의미: "더 강한 모델 = 더 강한 보호" 가 외부 약속(public commitment) 으로 박혀 있다.
7장 · OpenAI Preparedness Framework & Spec
OpenAI 진영의 대응은 두 축이다.
- **Preparedness Framework** (2023 발표, 이후 개정) — 사이버, CBRN, 자율성, 설득 네 영역에서 모델 위험을 평가하고, **High** 이상이면 추가 안전 조치 없이는 배포하지 않는다.
- **Model Spec** — 모델이 따라야 할 행동 규칙·우선순위를 공식 문서화. 2024년 공개됐고 이후 갱신된다.
- **Safety & Security Committee** — 이사회 산하 위원회로 프런티어 모델 배포를 검토.
또 Superalignment 팀 해체 이후, **Safety Systems**, **Preparedness**, **Model Spec** 작업이 다른 조직으로 흩어졌지만 외부 감사·평가는 USAISI·UK AISI와의 사전 평가 협약으로 이어지고 있다.
8장 · Google DeepMind Frontier Safety Framework
**Google DeepMind Frontier Safety Framework**(2024 발표, 이후 갱신) 는 다음을 결합한다.
- **Critical Capability Levels (CCLs)** — 자율 R&D·사이버·CBRN·설득 같은 영역의 임계 능력 정의.
- 각 CCL에 대응하는 **mitigation matrix** — 보안·접근 통제·평가·배포 가드.
- 외부 평가(UK AISI, US AISI) 와의 사전 평가 협약.
Gemini 2.x / 2.5 시리즈는 이 프레임워크 아래 평가·배포되며, **SynthID** 같은 워터마킹·콘텐츠 출처 기술과도 결합한다.
9장 · Meta Llama Guard / Prompt Guard / 시스템 안전
Meta는 오픈 가중치 라인업답게 **모델 + 가드** 를 함께 공개한다.
- **Llama Guard 3** — 입력·출력 모두를 분류하는 안전 분류기. 8B/1B 버전.
- **Prompt Guard** — prompt injection·jailbreak 감지에 특화된 작은 분류기.
- **CodeShield** — 생성 코드의 보안 취약점·악성 패턴 감지.
- **Llama 3 System Safeguards** — 가이드라인·평가 스위트·"Responsible Use Guide".
오픈 모델 사용자는 자기 인프라에 이 가드들을 추가해 **policy enforcement layer** 를 구성한다 — 모델 한 개를 더 학습시키는 대신 가드 모델로 막는 것이 비용 측면에서 합리적이기 때문이다.
10장 · Mechanistic Interpretability — 모델 내부를 회로로 보다
**Mechanistic Interpretability** 는 모델 내부 활성·가중치를 회로로 분해해 **"이 모델이 왜 그렇게 하는지"** 를 설명한다.
대표 흐름:
- Olah et al., **OpenAI Microscope** & **Anthropic Circuits** 시리즈 — 비전 모델에서 시작해 언어 모델로 확장.
- Olsson et al. (2022) "In-context Learning and Induction Heads" — in-context learning의 메커니즘으로 induction head 발견.
- Anthropic **"Towards Monosemanticity"** (2023) — 소형 모델에서 **monosemantic feature** 를 SAE로 추출.
- Anthropic **"Scaling Monosemanticity"** (2024) — Claude 3 Sonnet에서 수백만 개 feature를 SAE로 추출·시각화.
- DeepMind, Conjecture, Redwood Research, EleutherAI도 각자 회로 추적·SAE 연구 라인을 가지고 있다.
2026년의 의미: 해석은 더 이상 *해명* 이 아니라 *진단 도구* 다. "이 feature를 누를 때 모델 행동이 어떻게 바뀌는가" 가 실험 가능한 질문이 됐다.
11장 · Sparse Autoencoder (SAE) — 표현의 분해
**SAE(Sparse Autoencoder)** 는 모델의 잠재 활성을 **희소(sparse) 한 큰 사전(dictionary) 으로 분해** 한다. 한 뉴런이 여러 개념을 섞어(polysemantic) 표현하는 문제를, "한 feature = 한 개념" 에 가까운 **monosemantic** 표현으로 풀어내려는 시도다.
핵심 가설: **superposition** — 모델은 차원보다 많은 개념을 작은 각도로 겹쳐 저장한다(Elhage et al., 2022 "Toy Models of Superposition").
SAE 흐름:
1. 모델의 한 층 활성 벡터를 모은다.
2. 그 활성을 큰 차원의 사전(예: 16배~수십 배) 으로 희소 분해.
3. 각 feature를 활성화하는 입력을 모아 자동·수동으로 라벨링.
이 결과로 "Golden Gate Bridge 뉴런", "안전 관련 feature", "거짓말 회로" 같은 사례 연구가 나왔다. **Goodfire, Transluce, Apollo** 같은 스타트업·연구소가 SAE를 운영 도구화하고 있다.
12장 · 평가의 기초 — MMLU·GPQA·MMMU·BIG-bench
모델 안전과 별개로, **능력(capability) 평가** 가 정확해야 안전 평가도 의미가 있다. 2026년에 가장 흔히 인용되는 능력 벤치마크는 다음과 같다.
- **MMLU** (Hendrycks et al., 2020) — 57개 주제 다지선다.
- **MMLU-Pro** — MMLU의 잡음·포화 문제를 다듬은 후속.
- **GPQA** (Rein et al., 2023) — PhD 수준 과학 문제. Diamond 하위셋이 표준.
- **MMMU** — 멀티모달 학부 수준 평가.
- **BIG-bench / BBH** — 광범위한 추론·언어 과제.
- **HellaSwag, ARC, Winogrande** — 상식·추론의 고전 벤치마크.
문제: 많은 벤치마크가 **데이터 오염(contamination)** 위험에 노출됐고, 모델이 학습 데이터에서 직접 본 문제를 풀고 있을 수 있다. 그래서 **LiveBench**, **GPQA Diamond**, **MMLU-Pro** 같은 "더 어려운·덜 오염된" 벤치가 보완으로 쓰인다.
13장 · 코드·에이전트 평가 — SWE-bench·TerminalBench·MLE-bench
코드와 에이전트 능력 평가는 2024-26년에 폭발적으로 늘었다.
- **HumanEval / HumanEval+** — 함수 단위 코드 정확도.
- **MBPP / MBPP+** — 기본 파이썬 문제.
- **SWE-bench** (Princeton, 2023) — 실제 GitHub 이슈를 풀게 한다. SWE-bench Verified·Lite·Multimodal 분기.
- **TerminalBench** — 터미널 환경 작업 자동화.
- **MLE-bench** (OpenAI, 2024) — 머신러닝 엔지니어링 과제(데이터셋·모델 학습).
- **WebArena, VisualWebArena** — 웹 에이전트 평가.
- **GAIA** — 일반 어시스턴트 평가.
2026년에는 SWE-bench Verified가 사실상의 코드 에이전트 표준이고, **METR** 의 **HCAST**(Human-Calibrated Autonomy Scaling Tasks) 가 자율성 평가의 사실상 표준이다.
14장 · 안전 평가 — Apollo scheming, METR autonomy, Anthropic sabotage
능력 평가만으로는 모자라다. **안전 평가(safety eval)** 는 모델이 *잘못된 방향* 으로 능력을 쓸 수 있는지를 본다.
- **Apollo Research** — **scheming evals** 로 "감시받는다는 사실을 추론하고 행동을 바꾸는지" 를 측정. 2024년 "Frontier Models are Capable of In-context Scheming" 보고서.
- **METR (Model Evaluation and Threat Research)** — 자율성·R&D 능력 평가. UK AISI·US AISI와 협업해 OpenAI o-series, Anthropic Claude, DeepMind Gemini 모델을 사전 평가한다.
- **Anthropic Sabotage Evaluations** (2024) — 모델이 사용자의 작업을 **은밀히 방해(sabotage)** 하는 능력을 측정.
- **CBRN evals** — Chemical / Biological / Radiological / Nuclear 능력 평가. 정부·정부 협력 기관에서만 일부 수행.
- **Cyber evals** — CyberSecEval, NIST 표준, MITRE ATLAS와 결합.
이 안전 평가들이 ASL-3·OpenAI High·DeepMind CCL 같은 임계값을 정량적으로 정의하게 만든다.
15장 · 평가 인프라 — lm-evaluation-harness·OpenAI evals·Inspect
평가의 *결과* 만큼 *인프라* 도 중요하다. 같은 모델·같은 벤치라도 프롬프트·샘플링·표준화 차이로 5-10% 점수가 달라진다.
- **EleutherAI lm-evaluation-harness** — 가장 널리 쓰이는 오픈 평가 프레임워크. HuggingFace Open LLM Leaderboard의 기반.
- **OpenAI evals** — 사내·외부 평가 작성용 오픈 프레임워크.
- **UK AISI Inspect** — UK AISI가 공개한 평가 프레임워크. agent·tool 사용 평가에 강함.
- **lighteval (HuggingFace), helm (Stanford)** — 통합 리더보드와 표준화.
- **METR Vivaria, Apollo, Pattern Labs** — 자율성·scheming 평가 인프라.
평가는 더 이상 "한 번 실험하고 끝" 이 아니다. CI/CD 처럼 운영된다 — 모델 새 버전 → 평가 스위트 자동 실행 → 보고서.
16장 · AISI 네트워크 — 영국·미국·한국·일본·EU·캐나다·싱가포르
2023년 영국 Bletchley Park 정상회담에서 시작된 흐름은 2024년 서울 정상회담, 2025년 파리 정상회담, 이어 한국 정상회담으로 이어졌다. 그 결과 각국에 **AI Safety Institute (AISI)** 가 세워졌다.
- **UK AISI** (영국) — 가장 먼저, 가장 규모 큰 사전 평가 조직. OpenAI·Anthropic·DeepMind 모델을 사전 평가.
- **US AISI / AISIC** — NIST 산하. AI Safety Institute Consortium에 100여 기업·기관 참여.
- **한국 AISI(KAISI)** — 2024 서울 정상회담 결과로 설립. ETRI·KISTI 등과 협력.
- **Japan AISI** — METI·AIST 산하. 일본 모델·기업 평가에 초점.
- **EU AI Office** — EU AI Act 집행 기관. GPAI 의무 감독.
- **Canada AI Safety Institute, Singapore AISI** — 후발 가입.
이들은 **International Network of AISIs** 로 협력하며, 평가 방법론·red team 결과·취약점을 공유한다.
17장 · Red Teaming — 사람의 침투에서 자동화까지
**Red Teaming** 은 보안 분야에서 빌려온 개념이다 — 의도적으로 모델을 깨려는 적대적 평가.
조직별 흐름:
- **Anthropic Red Teaming** — 내부·외부 적색팀. 정책 위반, CBRN, 사이버 시나리오 평가.
- **OpenAI Red Team Network** — 외부 전문가 네트워크. 분야별 침투 평가.
- **Microsoft AI Red Team** — Office·Copilot에 들어가는 모델 적색팀.
- **Google DeepMind Frontier Red Team** — Gemini·AlphaCode 적색팀.
도구:
- **HarmBench** (CAIS) — 자동화된 jailbreak 벤치마크.
- **GCG (Greedy Coordinate Gradient)** (Zou et al., 2023 "Universal and Transferable Adversarial Attacks") — 적대적 접미사 자동 생성.
- **PAIR (Prompt Automatic Iterative Refinement)** (Chao et al., 2023) — LLM 두 개로 jailbreak 자동 생성.
- **AutoDAN** — 유전 알고리즘 기반 자동 jailbreak.
자동 red team이 사람 red team을 보완하면서, "취약점 발견 → 패치 → 재평가" 가 보안 SDLC와 비슷해진다.
18장 · Jailbreak·Prompt Injection — 공격면의 분류
위협을 분류해야 방어가 짜진다.
- **Direct prompt injection** — 사용자 메시지에 직접 "이전 지시 무시" 같은 명령을 끼움.
- **Indirect prompt injection** (Greshake et al., 2023) — 모델이 가져온 외부 문서(웹페이지·이메일·도구 결과) 안에 악성 지시가 숨겨짐. RAG·에이전트에서 가장 위험.
- **Jailbreak prompts** — DAN, Crescendo, Many-shot jailbreak, role-play 변형 등.
- **GCG·AutoDAN·PAIR** — 자동 적대적 프롬프트 생성.
- **Data exfiltration via tools** — 에이전트가 외부에 비밀을 흘리는 경로.
특히 **indirect prompt injection** 은 모든 RAG·brwoser·email 에이전트의 근본 문제다. 모델이 본 문서가 "신뢰할 수 있는 명령" 인지를 구분하는 것이 인공지능이 풀어야 할 어려운 과제다.
19장 · 방어 — Llama Guard·NeMo Guardrails·Constitutional Classifiers·SmoothLLM
방어 레이어는 보통 5단으로 구성된다.
1. **Input 분류기** — Llama Guard, Prompt Guard, Azure Content Safety.
2. **System prompt 강화** — 권한 분리·툴 결과 sanitize·메타 지시 무시.
3. **Inference 가드** — **SmoothLLM** (Robey et al., 2023) 같은 입력 perturbation·앙상블 방어.
4. **Output 분류기** — Constitutional Classifiers, Llama Guard 3, OpenAI Moderation.
5. **Logging·관찰성** — 모든 호출 로그 + LLM observability(Langfuse, Helicone) 로 사후 분석.
오픈소스 가드레일 프레임워크:
- **NVIDIA NeMo Guardrails** — 정책을 Colang DSL로 작성, 입력·출력·대화 흐름 모두에 가드.
- **Guardrails AI** — 출력 검증·구조화·재시도 루프.
- **LangChain / LlamaIndex 가드레일** — 응용 레이어 가드.
방어는 *완벽한 모델* 을 가정하지 않고, **다단계 방어(defense in depth)** 로 짠다.
20장 · 오픈 인프라 — safetensors·model cards·datasheets·SBOM-for-AI
운영 측면에서도 안전이 강화된다.
- **safetensors** (HuggingFace) — pickle 기반 PyTorch 가중치의 임의 코드 실행 위험을 제거한 안전한 직렬화 포맷. 2024년 이후 사실상 표준.
- **Model card / Data card** — Mitchell et al. (2019) 의 model card, Gebru et al. (2018) 의 datasheets for datasets가 EU AI Act·NIST AI RMF에서 의무 문서로 격상.
- **SBOM-for-AI** — 모델 가중치·학습 데이터·평가의 출처를 SBOM처럼 추적.
- **C2PA / SynthID** — 이미지·영상·텍스트의 출처·워터마킹.
플랫폼 측면에선 **HuggingFace Spaces, Modal, Replicate** 가 이 메타데이터를 표준으로 요구하기 시작했다.
21장 · 규제 — EU AI Act·Korean AI Basic Act·METI 가이드라인
법·규제는 2024-26년에 빠르게 정비됐다.
- **EU AI Act** — 2024년 8월 발효, 2025년 2월부터 금지 사용·AI 리터러시 의무, 2025년 8월부터 GPAI 의무, 2026년 8월부터 high-risk 의무가 단계적으로 적용. 본문은 모델 능력·시스템적 위험에 따라 의무를 차등.
- **Korean AI 기본법(인공지능 발전과 신뢰 기반 조성 등에 관한 기본법)** — 2024년 12월 통과, 2025-26년 시행. 고영향 AI·생성형 AI 의무, AI 안전연구소(KAISI) 법적 근거, 안전성 평가 의무.
- **Japan METI 가이드라인** — 2024 AI 사업자 가이드라인, AISI 운영, G7 히로시마 프로세스 후속.
- **US Executive Order 14110**(2023) 은 2025년 새 행정명령으로 일부 대체됐지만, NIST AI RMF·AISI 활동은 유지.
- **중국 생성형 AI 관리 잠정 방안** — 2023년 시행, 데이터·라이선스·콘텐츠 검열 의무.
기업 입장에선 **"우리 모델/제품이 EU AI Act 어느 분류인가, GPAI인가, high-risk인가"** 가 첫 질문이다.
22장 · 연구자·조직 지형 — Bengio·Russell·Anthropic·Apollo·Redwood
AI 안전 분야의 주요 인물·조직을 한 줄로 정리.
- **Yoshua Bengio (Mila)** — *International AI Safety Report* (2024-25) 의장. 인지·확률적 안전 모델 연구.
- **Stuart Russell (UC Berkeley CHAI)** — *Human Compatible* 저자. assistance game 프레임.
- **Anthropic** — Claude·Constitutional AI·RSP·Interpretability팀.
- **OpenAI** — Spec·Preparedness·Safety Systems.
- **Google DeepMind** — Frontier Safety Framework·SAFE·Interpretability·Gemini Safety.
- **Apollo Research** — scheming·deception 평가 전문.
- **Redwood Research** — 안전 RL·해석성·alignment 연구.
- **METR** — 자율성 평가 NGO.
- **Conjecture** — 해석성 스타트업. 정렬 연구.
- **MIRI** — 고전적 alignment 이론. 최근에는 정책·소통에 집중.
- **CAIS (Center for AI Safety)** — Statement on AI Risk·HarmBench.
- **CHAI, FAR.AI, ARC Evals(METR 전신)** — 학술·NGO 라인.
23장 · 한국·일본의 풍경 — KAISI·NAVER·LG·Sakana·일본 AISI
아시아 풍경도 단단해졌다.
- **한국 AISI (KAISI)** — 2024년 서울 정상회담 결과로 출범. ETRI·KISTI·KAIST·서울대 협력.
- **NAVER HyperCLOVA X** — 자체 안전 평가·multilingual safety 평가 데이터셋 공개.
- **LG AI Research EXAONE** — 자체 RLHF·안전 분류기 라인.
- **KakaoBrain, Upstage, Lablup** — 안전·평가 인프라 협업.
- **Japan AISI** — METI·AIST 산하. **Japanese safety eval** 데이터셋 정비.
- **NICT, Riken** — 일본어 평가·red team 협업.
- **Sakana AI, Preferred Networks** — 일본 모델·평가 협력.
한국·일본 AISI는 2025-26년 사이 **다국어 안전 평가** 라는 분명한 차별점을 만들기 시작했다 — 영어 중심 평가가 놓치는 한국어·일본어 jailbreak·문화별 위험을 포착한다.
24장 · 실전 체크리스트 — 모델을 배포하는 팀이 지금 해야 할 일
업무에서 LLM을 배포하는 팀이 2026년 기준으로 챙겨야 할 것들.
1. **위험 분류** — EU AI Act·자국법 어느 분류에 해당하는지. high-risk·GPAI 여부.
2. **모델 선택** — Anthropic RSP·OpenAI Preparedness·DeepMind FSF 중 어느 모델을 어느 ASL/Level에서 쓰는가.
3. **시스템 안전** — Llama Guard / Prompt Guard / Constitutional Classifiers / NeMo Guardrails 중 어느 가드 스택을 쓰는가.
4. **평가 스위트** — MMLU-Pro, GPQA Diamond, SWE-bench Verified, HarmBench, 자국어 jailbreak 셋, RAG injection 셋.
5. **로그·관찰성** — Langfuse, Helicone, OpenTelemetry GenAI, 사후 사고 분석 인프라.
6. **레드팀** — 분기별 사람 red team + 자동(GCG·PAIR·AutoDAN) red team.
7. **사고 대응** — incident response, model card 업데이트, regulator 신고 절차.
8. **문서화** — Model card, Data card, RAG 데이터 출처, evaluation report.
9. **외부 평가** — UK/US/KR/JP AISI와 사전 평가 협업 가능성 검토.
10. **사람** — 누가 모델 배포 결정의 책임자인가. CISO·CPO·AI Ethics Officer 라인 정의.
> 한 줄: **"AI 안전은 한 팀의 일이 아니라, 모델 학습·평가·배포·사고·법무·홍보가 한 줄로 엮인 운영 시스템이다."**
에필로그 — 다섯 가지 동시에
2026년 AI 안전의 한 줄 요약은 이렇다.
> "능력은 빨라졌고, 우리는 **학습 정렬(RLHF·DPO·GRPO·CAI), 해석(Mech Interp·SAE), 평가(MMLU·GPQA·SWE-bench·METR), 적색팀(GCG·PAIR·자동화), 거버넌스(RSP·Preparedness·FSF·EU AI Act·AISI)** 다섯을 동시에 한다."
어느 하나만 잘해서는 부족하다. 학습이 좋아도 평가가 거짓이면 모르고 지나가고, 평가가 좋아도 적색팀이 없으면 잠긴 문 너머의 공격을 못 본다. 해석은 *왜 그렇게 하는가* 를 답하지만 정책은 *얼마나 멀리 가도 되는가* 를 답한다. 거버넌스는 사람·조직·국가 사이에 공통 언어를 만든다.
이 글이 그 다섯의 공통 언어가 되길 바란다. 이제부터의 일은 — 각자의 자리에서 — 이 공통 언어로 다음 1년을 짜는 것이다.
참고자료 (References)
- [Hubinger et al., "Risks from Learned Optimization in Advanced ML Systems"](https://arxiv.org/abs/1906.01820)
- [Christiano et al., "Deep RL from Human Preferences"](https://arxiv.org/abs/1706.03741)
- [Ouyang et al., "Training language models to follow instructions with human feedback (InstructGPT)"](https://arxiv.org/abs/2203.02155)
- [Rafailov et al., "Direct Preference Optimization"](https://arxiv.org/abs/2305.18290)
- [DeepSeek-R1 paper](https://arxiv.org/abs/2501.12948)
- [Bai et al., "Constitutional AI"](https://arxiv.org/abs/2212.08073)
- [Anthropic Responsible Scaling Policy](https://www.anthropic.com/news/anthropics-responsible-scaling-policy)
- [Anthropic Constitutional Classifiers](https://www.anthropic.com/research/constitutional-classifiers)
- [OpenAI Preparedness Framework](https://openai.com/safety/preparedness)
- [OpenAI Model Spec](https://model-spec.openai.com/)
- [Google DeepMind Frontier Safety Framework](https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/)
- [Meta Llama Guard 3](https://github.com/meta-llama/PurpleLlama)
- [Anthropic Scaling Monosemanticity](https://transformer-circuits.pub/2024/scaling-monosemanticity/)
- [Anthropic Towards Monosemanticity](https://transformer-circuits.pub/2023/monosemantic-features)
- [Olsson et al., "In-context Learning and Induction Heads"](https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html)
- [Elhage et al., "Toy Models of Superposition"](https://transformer-circuits.pub/2022/toy_model/index.html)
- [MMLU paper](https://arxiv.org/abs/2009.03300)
- [GPQA paper](https://arxiv.org/abs/2311.12022)
- [SWE-bench](https://www.swebench.com/)
- [MLE-bench (OpenAI)](https://openai.com/index/mle-bench/)
- [METR](https://metr.org/)
- [Apollo Research scheming evals](https://www.apolloresearch.ai/research/scheming-reasoning-evaluations)
- [Anthropic Sabotage Evaluations](https://www.anthropic.com/research/sabotage-evaluations)
- [UK AISI](https://www.aisi.gov.uk/)
- [US AISI / NIST AISIC](https://www.nist.gov/aisi)
- [International AI Safety Report 2025 (Bengio chair)](https://www.gov.uk/government/publications/international-ai-safety-report-2025)
- [Greshake et al., "Indirect Prompt Injection"](https://arxiv.org/abs/2302.12173)
- [Zou et al., "Universal and Transferable Adversarial Attacks on Aligned Language Models (GCG)"](https://arxiv.org/abs/2307.15043)
- [Chao et al., "PAIR"](https://arxiv.org/abs/2310.08419)
- [HarmBench (CAIS)](https://www.harmbench.org/)
- [SmoothLLM](https://arxiv.org/abs/2310.03684)
- [NVIDIA NeMo Guardrails](https://github.com/NVIDIA/NeMo-Guardrails)
- [HuggingFace safetensors](https://github.com/huggingface/safetensors)
- [EleutherAI lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)
- [UK AISI Inspect](https://github.com/UKGovernmentBEIS/inspect_ai)
- [EU AI Act (consolidated text)](https://artificialintelligenceact.eu/)
- [Korean AI Basic Act news](https://www.korea.kr/news/policyNewsView.do?newsId=148937548)
- [Japan METI AI Guidelines](https://www.meti.go.jp/english/policy/mono_info_service/ai_society_principles.html)
현재 단락 (1/251)
2022년만 해도 "AI 얼라인먼트(alignment)" 라는 단어는 학회와 인터넷 포럼의 용어였다. 2026년의 풍경은 완전히 다르다.