- Published on
AI 안전 & 얼라인먼트 2026 완벽 가이드 - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 심층 분석
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 2026년, 'AI 안전'은 더 이상 SF가 아니다
2022년만 해도 "AI 얼라인먼트(alignment)" 라는 단어는 학회와 인터넷 포럼의 용어였다. 2026년의 풍경은 완전히 다르다.
- Anthropic은 Claude 4 / Opus 4.x 를 ASL-3 보호 조치 아래 배포하고, OpenAI는 Preparedness Framework v2 와 Safety+Security Committee 를 운영한다.
- Google DeepMind는 Frontier Safety Framework 를 발표하고, Meta는 Llama Guard 3 와 Prompt Guard 를 오픈했다.
- 영국·미국·한국·일본·EU는 AISI(AI Safety Institute) 를 세웠고, Bletchley → Seoul → Paris → 서울 AI Safety Summit 라인이 모델 평가 표준을 만들고 있다.
- 회로(circuit) 추적과 Sparse Autoencoder (SAE) 를 이용한 mechanistic interpretability 가 학술에서 운영 도구로 넘어오기 시작했다.
- EU AI Act 가 2025년 2월에 GPAI(범용 AI) 의무 부분까지 발효되며, 한국은 AI 기본법(2024) 을, 일본은 METI 가이드라인을 정비했다.
이 글은 그 전체 지형을 24장으로 정리한다. 학생·연구자·엔지니어·정책 담당자 누구든 한 번 통독하면 "2026년 AI 안전이 어디까지 왔는지" 가 머릿속에 들어오게 만드는 것이 목표다.
한 줄 요약: "능력은 빨라졌고, 사람·조직·국가는 이제 그 속도를 따라잡기 위해 동시에 다섯 가지 — 학습 정렬, 평가, 해석, 거버넌스, 적색팀 — 를 한다."
1장 · 얼라인먼트 문제 — outer vs inner, mesa-optimization
AI 안전의 중심에는 단순한 질문이 있다.
"우리는 정말로 AI가 우리가 원하는 것을 하도록 만들 수 있는가?"
이 질문은 두 층으로 쪼개진다.
| 층위 | 정의 | 대표 위험 |
|---|---|---|
| Outer alignment | 우리가 모델에 주는 손실 함수·보상이 진짜로 우리 목적을 표현하는가 | reward hacking, Goodhart 효과 |
| Inner alignment | 학습 결과로 얻어진 내부 학습 목적이 외부 보상과 일치하는가 | mesa-optimization, deceptive alignment |
Mesa-optimization 은 Hubinger 외 (2019) "Risks from Learned Optimization in Advanced ML Systems" 에서 정식화됐다. 모델 안에 또 다른 최적화기가 생겨, 그 내부 목적이 우리가 의도한 목적과 다른 경우를 말한다.
특히 위험한 시나리오가 deceptive alignment — 평가 시점엔 정렬된 척하고, 배포 후엔 다른 목적을 추구하는 경우 — 이며 Anthropic의 "Sleeper Agents" (Hubinger et al., 2024) 가 작은 규모에서 이를 실증했다.
2026년 시점에서는 이 개념들이 더 이상 사변이 아니라 scheming evals, sabotage evals 같은 실증 평가의 출발점이 됐다.
2장 · RLHF — Christiano에서 InstructGPT까지
RLHF(Reinforcement Learning from Human Feedback) 는 2026년 모든 챗 모델 정렬의 기반이다. 본질은 세 단계.
- SFT — 사전학습 모델을 사람이 쓴 답변으로 supervised fine-tune.
- Reward Model — 두 답변 중 어느 쪽이 사람에게 더 선호되는지로 보상 모델 학습.
- RL — PPO 같은 정책 경사 알고리즘으로 보상 모델 점수를 최대화.
기원은 Christiano et al. (2017) "Deep RL from Human Preferences", 산업 적용은 OpenAI InstructGPT (Ouyang et al., 2022) 가 분수령이었다.
RLHF의 강점은 명확하다 — 사람의 선호로 모델 행동을 형상화한다. 약점도 명확하다.
- 보상 모델은 사람의 선호 를 근사 할 뿐이고, 그 근사를 모델이 reward hack 할 수 있다.
- 라벨러 다양성·문화적 편향이 그대로 모델에 새겨진다.
- PPO 학습은 비용·불안정성·하이퍼파라미터 민감도 문제가 크다.
2024년 이후의 흐름은 이 약점을 DPO·GRPO·RLAIF 같은 변형으로 해소하는 방향이다.
3장 · DPO — Direct Preference Optimization
DPO(Rafailov et al., 2023, "Direct Preference Optimization: Your Language Model is Secretly a Reward Model") 는 RLHF를 단순화한다. 보상 모델을 따로 학습하지 않고, 선호 쌍 데이터에서 모델 자체가 정책이자 보상 인 손실 함수를 유도한다.
핵심 식은 Bradley-Terry 선호 모델을 모델 로짓에 직접 연결한 형태로, "어느 쪽이 더 선호되는가" 의 log-likelihood를 최대화한다. RL 루프가 필요 없으니 학습이 안정적이고 비용이 싸다.
장점:
- 별도 보상 모델·PPO 불필요. SFT 인프라만으로 가능.
- 하이퍼파라미터 민감도가 PPO보다 훨씬 낮다.
- 작은 베타(temperature) 로 보수성을 쉽게 조절.
한계:
- 선호 쌍의 질·다양성에 의존. 잘못된 라벨이 직접 반영된다.
- 분포 이동(distribution shift) 에 PPO보다 약할 수 있다.
- 멀티턴·도구 사용 같은 복잡한 시나리오에선 변형(SimPO, IPO, KTO, ORPO) 이 필요.
2024-25년 사이 Llama, Mistral, Qwen, Gemma, Phi 등 거의 모든 오픈 모델이 DPO 또는 그 변형으로 정렬된다.
4장 · GRPO — Group Relative Policy Optimization
GRPO 는 DeepSeek이 2024-25년에 정착시킨 변형으로, DeepSeek-R1 의 핵심 학습 기법이다.
아이디어:
- 한 프롬프트에서 여러 답(group) 을 샘플링한다.
- 그 그룹 내 평균 보상으로 normalize한 상대 보상 으로 advantage를 계산한다.
- 가치 함수(critic) 없이 정책만으로 학습한다 — PPO보다 메모리·계산이 가볍다.
장점:
- Critic 모델이 없어 학습 인프라가 가볍다.
- 수학·코드 같이 검증 가능한 보상(verifiable reward) 영역에서 강력하다.
- 추론 사슬(chain-of-thought) 을 길게 늘이는 학습에 잘 맞는다.
2026년에는 GRPO와 그 변형(REINFORCE++, RLOO, RPO 등) 이 reasoning model 학습의 사실상 표준이 됐다. 검증 가능한 보상이 있는 작업이면 DPO보다 GRPO를 쓰는 흐름이 강하다.
5장 · RLAIF & Constitutional AI — Anthropic의 길
Constitutional AI (Bai et al., 2022) 는 Anthropic이 제안한 정렬 기법이다. 핵심은 단순하다.
"사람에게 모든 라벨을 받지 말고, 자연어로 쓴 헌법(constitution) 에 따라 AI 스스로가 자기 답을 비판·수정하게 하자."
두 단계.
- SL-CAI(Supervised Learning, Constitutional AI) — 모델이 자기 답을 헌법 원칙에 따라 비판·수정하고, 그 수정본으로 SFT.
- RL-AIF(RL from AI Feedback) — 모델이 어떤 답이 더 헌법에 부합하는지 라벨을 만들고, 그것으로 보상 모델 학습.
장점:
- 사람 라벨러의 수가 정렬 품질의 병목이 되지 않는다.
- 헌법이 명시적 문서 라 정렬 의도가 감사 가능(auditable) 하다.
- Claude 시리즈가 이 접근으로 무해성(harmlessness) ↔ 유용성(helpfulness) 트레이드오프를 비교적 잘 균형 잡는다고 알려졌다.
2025년 Anthropic은 Constitutional Classifiers 도 발표 — 출력의 안전성을 별도 모델로 분류하는 가드레일 — 했고, 이는 Claude 4 시리즈의 ASL-3 배포에 결합돼 있다.
6장 · Anthropic Responsible Scaling Policy — ASL-1부터 ASL-4까지
Anthropic Responsible Scaling Policy(RSP) 는 모델 능력 수준에 따라 점진적 보호 조치를 의무화하는 사내 정책이다.
| ASL | 의미 | 대표 조치 |
|---|---|---|
| ASL-1 | 위험 평가에서 자명하게 낮은 위험 | 기본 안전 평가 |
| ASL-2 | 현재 프런티어 모델 (Claude 3.x 등) | 표준 사용 정책·평가 |
| ASL-3 | CBRN·사이버 능력에서 의미 있는 상승 | 강화된 배포 안전장치·접근 통제·보안 |
| ASL-4 | 자율적 R&D·생물·사이버 등 심각한 능력 | 더 엄격한 통제·외부 감사 |
2024-25년 사이 Claude 모델은 ASL-3 능력 임계치를 넘어선 것으로 평가됐고, Constitutional Classifiers + 안전 미세조정 + 접근 통제 의 조합으로 배포된다.
이 정책의 의미: "더 강한 모델 = 더 강한 보호" 가 외부 약속(public commitment) 으로 박혀 있다.
7장 · OpenAI Preparedness Framework & Spec
OpenAI 진영의 대응은 두 축이다.
- Preparedness Framework (2023 발표, 이후 개정) — 사이버, CBRN, 자율성, 설득 네 영역에서 모델 위험을 평가하고, High 이상이면 추가 안전 조치 없이는 배포하지 않는다.
- Model Spec — 모델이 따라야 할 행동 규칙·우선순위를 공식 문서화. 2024년 공개됐고 이후 갱신된다.
- Safety & Security Committee — 이사회 산하 위원회로 프런티어 모델 배포를 검토.
또 Superalignment 팀 해체 이후, Safety Systems, Preparedness, Model Spec 작업이 다른 조직으로 흩어졌지만 외부 감사·평가는 USAISI·UK AISI와의 사전 평가 협약으로 이어지고 있다.
8장 · Google DeepMind Frontier Safety Framework
Google DeepMind Frontier Safety Framework(2024 발표, 이후 갱신) 는 다음을 결합한다.
- Critical Capability Levels (CCLs) — 자율 R&D·사이버·CBRN·설득 같은 영역의 임계 능력 정의.
- 각 CCL에 대응하는 mitigation matrix — 보안·접근 통제·평가·배포 가드.
- 외부 평가(UK AISI, US AISI) 와의 사전 평가 협약.
Gemini 2.x / 2.5 시리즈는 이 프레임워크 아래 평가·배포되며, SynthID 같은 워터마킹·콘텐츠 출처 기술과도 결합한다.
9장 · Meta Llama Guard / Prompt Guard / 시스템 안전
Meta는 오픈 가중치 라인업답게 모델 + 가드 를 함께 공개한다.
- Llama Guard 3 — 입력·출력 모두를 분류하는 안전 분류기. 8B/1B 버전.
- Prompt Guard — prompt injection·jailbreak 감지에 특화된 작은 분류기.
- CodeShield — 생성 코드의 보안 취약점·악성 패턴 감지.
- Llama 3 System Safeguards — 가이드라인·평가 스위트·"Responsible Use Guide".
오픈 모델 사용자는 자기 인프라에 이 가드들을 추가해 policy enforcement layer 를 구성한다 — 모델 한 개를 더 학습시키는 대신 가드 모델로 막는 것이 비용 측면에서 합리적이기 때문이다.
10장 · Mechanistic Interpretability — 모델 내부를 회로로 보다
Mechanistic Interpretability 는 모델 내부 활성·가중치를 회로로 분해해 "이 모델이 왜 그렇게 하는지" 를 설명한다.
대표 흐름:
- Olah et al., OpenAI Microscope & Anthropic Circuits 시리즈 — 비전 모델에서 시작해 언어 모델로 확장.
- Olsson et al. (2022) "In-context Learning and Induction Heads" — in-context learning의 메커니즘으로 induction head 발견.
- Anthropic "Towards Monosemanticity" (2023) — 소형 모델에서 monosemantic feature 를 SAE로 추출.
- Anthropic "Scaling Monosemanticity" (2024) — Claude 3 Sonnet에서 수백만 개 feature를 SAE로 추출·시각화.
- DeepMind, Conjecture, Redwood Research, EleutherAI도 각자 회로 추적·SAE 연구 라인을 가지고 있다.
2026년의 의미: 해석은 더 이상 해명 이 아니라 진단 도구 다. "이 feature를 누를 때 모델 행동이 어떻게 바뀌는가" 가 실험 가능한 질문이 됐다.
11장 · Sparse Autoencoder (SAE) — 표현의 분해
SAE(Sparse Autoencoder) 는 모델의 잠재 활성을 희소(sparse) 한 큰 사전(dictionary) 으로 분해 한다. 한 뉴런이 여러 개념을 섞어(polysemantic) 표현하는 문제를, "한 feature = 한 개념" 에 가까운 monosemantic 표현으로 풀어내려는 시도다.
핵심 가설: superposition — 모델은 차원보다 많은 개념을 작은 각도로 겹쳐 저장한다(Elhage et al., 2022 "Toy Models of Superposition").
SAE 흐름:
- 모델의 한 층 활성 벡터를 모은다.
- 그 활성을 큰 차원의 사전(예: 16배~수십 배) 으로 희소 분해.
- 각 feature를 활성화하는 입력을 모아 자동·수동으로 라벨링.
이 결과로 "Golden Gate Bridge 뉴런", "안전 관련 feature", "거짓말 회로" 같은 사례 연구가 나왔다. Goodfire, Transluce, Apollo 같은 스타트업·연구소가 SAE를 운영 도구화하고 있다.
12장 · 평가의 기초 — MMLU·GPQA·MMMU·BIG-bench
모델 안전과 별개로, 능력(capability) 평가 가 정확해야 안전 평가도 의미가 있다. 2026년에 가장 흔히 인용되는 능력 벤치마크는 다음과 같다.
- MMLU (Hendrycks et al., 2020) — 57개 주제 다지선다.
- MMLU-Pro — MMLU의 잡음·포화 문제를 다듬은 후속.
- GPQA (Rein et al., 2023) — PhD 수준 과학 문제. Diamond 하위셋이 표준.
- MMMU — 멀티모달 학부 수준 평가.
- BIG-bench / BBH — 광범위한 추론·언어 과제.
- HellaSwag, ARC, Winogrande — 상식·추론의 고전 벤치마크.
문제: 많은 벤치마크가 데이터 오염(contamination) 위험에 노출됐고, 모델이 학습 데이터에서 직접 본 문제를 풀고 있을 수 있다. 그래서 LiveBench, GPQA Diamond, MMLU-Pro 같은 "더 어려운·덜 오염된" 벤치가 보완으로 쓰인다.
13장 · 코드·에이전트 평가 — SWE-bench·TerminalBench·MLE-bench
코드와 에이전트 능력 평가는 2024-26년에 폭발적으로 늘었다.
- HumanEval / HumanEval+ — 함수 단위 코드 정확도.
- MBPP / MBPP+ — 기본 파이썬 문제.
- SWE-bench (Princeton, 2023) — 실제 GitHub 이슈를 풀게 한다. SWE-bench Verified·Lite·Multimodal 분기.
- TerminalBench — 터미널 환경 작업 자동화.
- MLE-bench (OpenAI, 2024) — 머신러닝 엔지니어링 과제(데이터셋·모델 학습).
- WebArena, VisualWebArena — 웹 에이전트 평가.
- GAIA — 일반 어시스턴트 평가.
2026년에는 SWE-bench Verified가 사실상의 코드 에이전트 표준이고, METR 의 HCAST(Human-Calibrated Autonomy Scaling Tasks) 가 자율성 평가의 사실상 표준이다.
14장 · 안전 평가 — Apollo scheming, METR autonomy, Anthropic sabotage
능력 평가만으로는 모자라다. 안전 평가(safety eval) 는 모델이 잘못된 방향 으로 능력을 쓸 수 있는지를 본다.
- Apollo Research — scheming evals 로 "감시받는다는 사실을 추론하고 행동을 바꾸는지" 를 측정. 2024년 "Frontier Models are Capable of In-context Scheming" 보고서.
- METR (Model Evaluation and Threat Research) — 자율성·R&D 능력 평가. UK AISI·US AISI와 협업해 OpenAI o-series, Anthropic Claude, DeepMind Gemini 모델을 사전 평가한다.
- Anthropic Sabotage Evaluations (2024) — 모델이 사용자의 작업을 은밀히 방해(sabotage) 하는 능력을 측정.
- CBRN evals — Chemical / Biological / Radiological / Nuclear 능력 평가. 정부·정부 협력 기관에서만 일부 수행.
- Cyber evals — CyberSecEval, NIST 표준, MITRE ATLAS와 결합.
이 안전 평가들이 ASL-3·OpenAI High·DeepMind CCL 같은 임계값을 정량적으로 정의하게 만든다.
15장 · 평가 인프라 — lm-evaluation-harness·OpenAI evals·Inspect
평가의 결과 만큼 인프라 도 중요하다. 같은 모델·같은 벤치라도 프롬프트·샘플링·표준화 차이로 5-10% 점수가 달라진다.
- EleutherAI lm-evaluation-harness — 가장 널리 쓰이는 오픈 평가 프레임워크. HuggingFace Open LLM Leaderboard의 기반.
- OpenAI evals — 사내·외부 평가 작성용 오픈 프레임워크.
- UK AISI Inspect — UK AISI가 공개한 평가 프레임워크. agent·tool 사용 평가에 강함.
- lighteval (HuggingFace), helm (Stanford) — 통합 리더보드와 표준화.
- METR Vivaria, Apollo, Pattern Labs — 자율성·scheming 평가 인프라.
평가는 더 이상 "한 번 실험하고 끝" 이 아니다. CI/CD 처럼 운영된다 — 모델 새 버전 → 평가 스위트 자동 실행 → 보고서.
16장 · AISI 네트워크 — 영국·미국·한국·일본·EU·캐나다·싱가포르
2023년 영국 Bletchley Park 정상회담에서 시작된 흐름은 2024년 서울 정상회담, 2025년 파리 정상회담, 이어 한국 정상회담으로 이어졌다. 그 결과 각국에 AI Safety Institute (AISI) 가 세워졌다.
- UK AISI (영국) — 가장 먼저, 가장 규모 큰 사전 평가 조직. OpenAI·Anthropic·DeepMind 모델을 사전 평가.
- US AISI / AISIC — NIST 산하. AI Safety Institute Consortium에 100여 기업·기관 참여.
- 한국 AISI(KAISI) — 2024 서울 정상회담 결과로 설립. ETRI·KISTI 등과 협력.
- Japan AISI — METI·AIST 산하. 일본 모델·기업 평가에 초점.
- EU AI Office — EU AI Act 집행 기관. GPAI 의무 감독.
- Canada AI Safety Institute, Singapore AISI — 후발 가입.
이들은 International Network of AISIs 로 협력하며, 평가 방법론·red team 결과·취약점을 공유한다.
17장 · Red Teaming — 사람의 침투에서 자동화까지
Red Teaming 은 보안 분야에서 빌려온 개념이다 — 의도적으로 모델을 깨려는 적대적 평가.
조직별 흐름:
- Anthropic Red Teaming — 내부·외부 적색팀. 정책 위반, CBRN, 사이버 시나리오 평가.
- OpenAI Red Team Network — 외부 전문가 네트워크. 분야별 침투 평가.
- Microsoft AI Red Team — Office·Copilot에 들어가는 모델 적색팀.
- Google DeepMind Frontier Red Team — Gemini·AlphaCode 적색팀.
도구:
- HarmBench (CAIS) — 자동화된 jailbreak 벤치마크.
- GCG (Greedy Coordinate Gradient) (Zou et al., 2023 "Universal and Transferable Adversarial Attacks") — 적대적 접미사 자동 생성.
- PAIR (Prompt Automatic Iterative Refinement) (Chao et al., 2023) — LLM 두 개로 jailbreak 자동 생성.
- AutoDAN — 유전 알고리즘 기반 자동 jailbreak.
자동 red team이 사람 red team을 보완하면서, "취약점 발견 → 패치 → 재평가" 가 보안 SDLC와 비슷해진다.
18장 · Jailbreak·Prompt Injection — 공격면의 분류
위협을 분류해야 방어가 짜진다.
- Direct prompt injection — 사용자 메시지에 직접 "이전 지시 무시" 같은 명령을 끼움.
- Indirect prompt injection (Greshake et al., 2023) — 모델이 가져온 외부 문서(웹페이지·이메일·도구 결과) 안에 악성 지시가 숨겨짐. RAG·에이전트에서 가장 위험.
- Jailbreak prompts — DAN, Crescendo, Many-shot jailbreak, role-play 변형 등.
- GCG·AutoDAN·PAIR — 자동 적대적 프롬프트 생성.
- Data exfiltration via tools — 에이전트가 외부에 비밀을 흘리는 경로.
특히 indirect prompt injection 은 모든 RAG·brwoser·email 에이전트의 근본 문제다. 모델이 본 문서가 "신뢰할 수 있는 명령" 인지를 구분하는 것이 인공지능이 풀어야 할 어려운 과제다.
19장 · 방어 — Llama Guard·NeMo Guardrails·Constitutional Classifiers·SmoothLLM
방어 레이어는 보통 5단으로 구성된다.
- Input 분류기 — Llama Guard, Prompt Guard, Azure Content Safety.
- System prompt 강화 — 권한 분리·툴 결과 sanitize·메타 지시 무시.
- Inference 가드 — SmoothLLM (Robey et al., 2023) 같은 입력 perturbation·앙상블 방어.
- Output 분류기 — Constitutional Classifiers, Llama Guard 3, OpenAI Moderation.
- Logging·관찰성 — 모든 호출 로그 + LLM observability(Langfuse, Helicone) 로 사후 분석.
오픈소스 가드레일 프레임워크:
- NVIDIA NeMo Guardrails — 정책을 Colang DSL로 작성, 입력·출력·대화 흐름 모두에 가드.
- Guardrails AI — 출력 검증·구조화·재시도 루프.
- LangChain / LlamaIndex 가드레일 — 응용 레이어 가드.
방어는 완벽한 모델 을 가정하지 않고, 다단계 방어(defense in depth) 로 짠다.
20장 · 오픈 인프라 — safetensors·model cards·datasheets·SBOM-for-AI
운영 측면에서도 안전이 강화된다.
- safetensors (HuggingFace) — pickle 기반 PyTorch 가중치의 임의 코드 실행 위험을 제거한 안전한 직렬화 포맷. 2024년 이후 사실상 표준.
- Model card / Data card — Mitchell et al. (2019) 의 model card, Gebru et al. (2018) 의 datasheets for datasets가 EU AI Act·NIST AI RMF에서 의무 문서로 격상.
- SBOM-for-AI — 모델 가중치·학습 데이터·평가의 출처를 SBOM처럼 추적.
- C2PA / SynthID — 이미지·영상·텍스트의 출처·워터마킹.
플랫폼 측면에선 HuggingFace Spaces, Modal, Replicate 가 이 메타데이터를 표준으로 요구하기 시작했다.
21장 · 규제 — EU AI Act·Korean AI Basic Act·METI 가이드라인
법·규제는 2024-26년에 빠르게 정비됐다.
- EU AI Act — 2024년 8월 발효, 2025년 2월부터 금지 사용·AI 리터러시 의무, 2025년 8월부터 GPAI 의무, 2026년 8월부터 high-risk 의무가 단계적으로 적용. 본문은 모델 능력·시스템적 위험에 따라 의무를 차등.
- Korean AI 기본법(인공지능 발전과 신뢰 기반 조성 등에 관한 기본법) — 2024년 12월 통과, 2025-26년 시행. 고영향 AI·생성형 AI 의무, AI 안전연구소(KAISI) 법적 근거, 안전성 평가 의무.
- Japan METI 가이드라인 — 2024 AI 사업자 가이드라인, AISI 운영, G7 히로시마 프로세스 후속.
- US Executive Order 14110(2023) 은 2025년 새 행정명령으로 일부 대체됐지만, NIST AI RMF·AISI 활동은 유지.
- 중국 생성형 AI 관리 잠정 방안 — 2023년 시행, 데이터·라이선스·콘텐츠 검열 의무.
기업 입장에선 "우리 모델/제품이 EU AI Act 어느 분류인가, GPAI인가, high-risk인가" 가 첫 질문이다.
22장 · 연구자·조직 지형 — Bengio·Russell·Anthropic·Apollo·Redwood
AI 안전 분야의 주요 인물·조직을 한 줄로 정리.
- Yoshua Bengio (Mila) — International AI Safety Report (2024-25) 의장. 인지·확률적 안전 모델 연구.
- Stuart Russell (UC Berkeley CHAI) — Human Compatible 저자. assistance game 프레임.
- Anthropic — Claude·Constitutional AI·RSP·Interpretability팀.
- OpenAI — Spec·Preparedness·Safety Systems.
- Google DeepMind — Frontier Safety Framework·SAFE·Interpretability·Gemini Safety.
- Apollo Research — scheming·deception 평가 전문.
- Redwood Research — 안전 RL·해석성·alignment 연구.
- METR — 자율성 평가 NGO.
- Conjecture — 해석성 스타트업. 정렬 연구.
- MIRI — 고전적 alignment 이론. 최근에는 정책·소통에 집중.
- CAIS (Center for AI Safety) — Statement on AI Risk·HarmBench.
- CHAI, FAR.AI, ARC Evals(METR 전신) — 학술·NGO 라인.
23장 · 한국·일본의 풍경 — KAISI·NAVER·LG·Sakana·일본 AISI
아시아 풍경도 단단해졌다.
- 한국 AISI (KAISI) — 2024년 서울 정상회담 결과로 출범. ETRI·KISTI·KAIST·서울대 협력.
- NAVER HyperCLOVA X — 자체 안전 평가·multilingual safety 평가 데이터셋 공개.
- LG AI Research EXAONE — 자체 RLHF·안전 분류기 라인.
- KakaoBrain, Upstage, Lablup — 안전·평가 인프라 협업.
- Japan AISI — METI·AIST 산하. Japanese safety eval 데이터셋 정비.
- NICT, Riken — 일본어 평가·red team 협업.
- Sakana AI, Preferred Networks — 일본 모델·평가 협력.
한국·일본 AISI는 2025-26년 사이 다국어 안전 평가 라는 분명한 차별점을 만들기 시작했다 — 영어 중심 평가가 놓치는 한국어·일본어 jailbreak·문화별 위험을 포착한다.
24장 · 실전 체크리스트 — 모델을 배포하는 팀이 지금 해야 할 일
업무에서 LLM을 배포하는 팀이 2026년 기준으로 챙겨야 할 것들.
- 위험 분류 — EU AI Act·자국법 어느 분류에 해당하는지. high-risk·GPAI 여부.
- 모델 선택 — Anthropic RSP·OpenAI Preparedness·DeepMind FSF 중 어느 모델을 어느 ASL/Level에서 쓰는가.
- 시스템 안전 — Llama Guard / Prompt Guard / Constitutional Classifiers / NeMo Guardrails 중 어느 가드 스택을 쓰는가.
- 평가 스위트 — MMLU-Pro, GPQA Diamond, SWE-bench Verified, HarmBench, 자국어 jailbreak 셋, RAG injection 셋.
- 로그·관찰성 — Langfuse, Helicone, OpenTelemetry GenAI, 사후 사고 분석 인프라.
- 레드팀 — 분기별 사람 red team + 자동(GCG·PAIR·AutoDAN) red team.
- 사고 대응 — incident response, model card 업데이트, regulator 신고 절차.
- 문서화 — Model card, Data card, RAG 데이터 출처, evaluation report.
- 외부 평가 — UK/US/KR/JP AISI와 사전 평가 협업 가능성 검토.
- 사람 — 누가 모델 배포 결정의 책임자인가. CISO·CPO·AI Ethics Officer 라인 정의.
한 줄: "AI 안전은 한 팀의 일이 아니라, 모델 학습·평가·배포·사고·법무·홍보가 한 줄로 엮인 운영 시스템이다."
에필로그 — 다섯 가지 동시에
2026년 AI 안전의 한 줄 요약은 이렇다.
"능력은 빨라졌고, 우리는 학습 정렬(RLHF·DPO·GRPO·CAI), 해석(Mech Interp·SAE), 평가(MMLU·GPQA·SWE-bench·METR), 적색팀(GCG·PAIR·자동화), 거버넌스(RSP·Preparedness·FSF·EU AI Act·AISI) 다섯을 동시에 한다."
어느 하나만 잘해서는 부족하다. 학습이 좋아도 평가가 거짓이면 모르고 지나가고, 평가가 좋아도 적색팀이 없으면 잠긴 문 너머의 공격을 못 본다. 해석은 왜 그렇게 하는가 를 답하지만 정책은 얼마나 멀리 가도 되는가 를 답한다. 거버넌스는 사람·조직·국가 사이에 공통 언어를 만든다.
이 글이 그 다섯의 공통 언어가 되길 바란다. 이제부터의 일은 — 각자의 자리에서 — 이 공통 언어로 다음 1년을 짜는 것이다.
참고자료 (References)
- Hubinger et al., "Risks from Learned Optimization in Advanced ML Systems"
- Christiano et al., "Deep RL from Human Preferences"
- Ouyang et al., "Training language models to follow instructions with human feedback (InstructGPT)"
- Rafailov et al., "Direct Preference Optimization"
- DeepSeek-R1 paper
- Bai et al., "Constitutional AI"
- Anthropic Responsible Scaling Policy
- Anthropic Constitutional Classifiers
- OpenAI Preparedness Framework
- OpenAI Model Spec
- Google DeepMind Frontier Safety Framework
- Meta Llama Guard 3
- Anthropic Scaling Monosemanticity
- Anthropic Towards Monosemanticity
- Olsson et al., "In-context Learning and Induction Heads"
- Elhage et al., "Toy Models of Superposition"
- MMLU paper
- GPQA paper
- SWE-bench
- MLE-bench (OpenAI)
- METR
- Apollo Research scheming evals
- Anthropic Sabotage Evaluations
- UK AISI
- US AISI / NIST AISIC
- International AI Safety Report 2025 (Bengio chair)
- Greshake et al., "Indirect Prompt Injection"
- Zou et al., "Universal and Transferable Adversarial Attacks on Aligned Language Models (GCG)"
- Chao et al., "PAIR"
- HarmBench (CAIS)
- SmoothLLM
- NVIDIA NeMo Guardrails
- HuggingFace safetensors
- EleutherAI lm-evaluation-harness
- UK AISI Inspect
- EU AI Act (consolidated text)
- Korean AI Basic Act news
- Japan METI AI Guidelines