Mechanistic-interpretability

Published on
2026년 5월 16일
AI 안전 & 얼라인먼트 2026 완벽 가이드 - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 심층 분석
ai-safety ai-alignment constitutional-ai rlhf dpo grpo mechanistic-interpretability aisi red-team evaluation
2026년 AI 안전과 얼라인먼트의 전체 지형을 한 번에 정리한다. outer/inner alignment와 mesa-optimization 같은 개념적 토대부터 RLHF·DPO·GRPO·Constitutional AI로 이어지는 학습 정렬 기법, Anthropic RSP와 OpenAI Preparedness Framework, Google DeepMind Frontier Safety Framework 같은 프런티어 정책, Mechanistic Interpretability와 Sparse Autoencoder, MMLU·GPQA·SWE-bench·METR 같은 능력 평가와 Apollo Research scheming evals 같은 안전 평가, AISI(영·미·한·일)와 Bletchley·Seoul·Paris 정상회담, Red Teaming과 GCG·PAIR·AutoDAN 같은 jailbreak·Llama Guard·NeMo Guardrails·Constitutional Classifiers 같은 방어, EU AI Act·Korean AI Basic Act·METI 가이드라인까지 — 24개 챕터로 펼친다.

AI 안전 & 얼라인먼트 2026 완벽 가이드 - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 심층 분석