Chaos and Order

Chaos and Order https://www.youngju.dev/blog 천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering. ko fjvbn2003@gmail.com (Youngju Kim) fjvbn2003@gmail.com (Youngju Kim) Sat, 16 May 2026 00:00:00 GMT https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-alignment-2026-constitutional-ai-rlhf-dpo-grpo-mech-interp-aisi-evals-redteam-deep-dive.en AI Safety & Alignment 2026 Deep Dive - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-alignment-2026-constitutional-ai-rlhf-dpo-grpo-mech-interp-aisi-evals-redteam-deep-dive.en A single-shot map of AI safety and alignment as of 2026. Starts from conceptual roots like outer/inner alignment and mesa-optimization, walks through training-time alignment (RLHF, DPO, GRPO, Constitutional AI), frontier policies (Anthropic RSP, OpenAI Preparedness, DeepMind Frontier Safety Framework), mechanistic interpretability with sparse autoencoders, capability evals (MMLU, GPQA, SWE-bench, METR) and safety evals (Apollo scheming, Anthropic sabotage), the AISI network (UK, US, Korea, Japan, EU), red teaming and jailbreaks (GCG, PAIR, AutoDAN), defenses (Llama Guard, NeMo Guardrails, Constitutional Classifiers), and regulation (EU AI Act, Korean AI Basic Act, METI guidelines) — 24 chapters. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-safetyai-alignmentconstitutional-airlhfdpogrpomechanistic-interpretabilityaisired-teamevalsenglish https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-alignment-2026-constitutional-ai-rlhf-dpo-grpo-mech-interp-aisi-evals-redteam-deep-dive.ja AI 安全 & アライメント 2026 完全ガイド - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 徹底解説 https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-alignment-2026-constitutional-ai-rlhf-dpo-grpo-mech-interp-aisi-evals-redteam-deep-dive.ja 2026年のAI安全とアライメントの全体地形を一気に整理する。outer/inner アライメントや mesa-optimization といった概念的基盤から、RLHF・DPO・GRPO・Constitutional AI に至る学習時アライメント手法、Anthropic RSP や OpenAI Preparedness Framework、Google DeepMind Frontier Safety Framework といったフロンティア政策、Mechanistic Interpretability と Sparse Autoencoder、MMLU・GPQA・SWE-bench・METR などの能力評価と Apollo Research の scheming evals などの安全評価、英米韓日の AISI ネットワークと Bletchley・Seoul・Paris の首脳会議、レッドチーミングと GCG・PAIR・AutoDAN といった jailbreak、Llama Guard・NeMo Guardrails・Constitutional Classifiers といった防御、EU AI Act・韓国 AI 基本法・METI ガイドラインまで — 24章で展開する。 Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-safetyai-alignmentconstitutional-airlhfdpogrpomechanistic-interpretabilityaisired-teamevals日本語 https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-alignment-2026-constitutional-ai-rlhf-dpo-grpo-mech-interp-aisi-evals-redteam-deep-dive AI 안전 & 얼라인먼트 2026 완벽 가이드 - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 심층 분석 https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-alignment-2026-constitutional-ai-rlhf-dpo-grpo-mech-interp-aisi-evals-redteam-deep-dive 2026년 AI 안전과 얼라인먼트의 전체 지형을 한 번에 정리한다. outer/inner alignment와 mesa-optimization 같은 개념적 토대부터 RLHF·DPO·GRPO·Constitutional AI로 이어지는 학습 정렬 기법, Anthropic RSP와 OpenAI Preparedness Framework, Google DeepMind Frontier Safety Framework 같은 프런티어 정책, Mechanistic Interpretability와 Sparse Autoencoder, MMLU·GPQA·SWE-bench·METR 같은 능력 평가와 Apollo Research scheming evals 같은 안전 평가, AISI(영·미·한·일)와 Bletchley·Seoul·Paris 정상회담, Red Teaming과 GCG·PAIR·AutoDAN 같은 jailbreak·Llama Guard·NeMo Guardrails·Constitutional Classifiers 같은 방어, EU AI Act·Korean AI Basic Act·METI 가이드라인까지 — 24개 챕터로 펼친다. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-safetyai-alignmentconstitutional-airlhfdpogrpomechanistic-interpretabilityaisired-teamevals https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-evals-red-teaming-2026-inspect-ai-garak-pyrit-promptfoo-openai-evals-deep-dive.en AI Safety, Evals and Red-Teaming in 2026 — Deep Dive into Inspect AI, Garak, PyRIT, Promptfoo, OpenAI Evals, lm-eval-harness https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-evals-red-teaming-2026-inspect-ai-garak-pyrit-promptfoo-openai-evals-deep-dive.en A single-page map of the 2026 AI safety, evaluation, and red-teaming ecosystem. Inspect AI (Anthropic, adopted by UK AISI), Garak (NVIDIA then independent), PyRIT (Microsoft), Promptfoo (YC), OpenAI Evals, lm-evaluation-harness (EleutherAI), plus MLflow Evals, Arize Phoenix, DeepEval (Confident AI), Giskard, Atla. Benchmark batteries (HumanEval, MMLU, GPQA, SWE-Bench, BigCodeBench), policy-side OpenAI Preparedness Framework and Anthropic RSP, standards-side MITRE ATLAS and OWASP LLM Top 10, AI Safety Institutes (UK, US, Japan, Korea, Singapore, France). Korean KAIST/KISTI and Japanese AISI/RIKEN AIP. Who should pick what, broken down into model release, app integration, governance, and academic personas. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-safetyred-teamingevalsinspect-aigarakpyritpromptfooopenai-evalslm-evaluation-harnessdeepevalphoenixgiskardai-safety-instituteaisirspmitre-atlasowasp-llm-top-102026deep-diveenglish https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-evals-red-teaming-2026-inspect-ai-garak-pyrit-promptfoo-openai-evals-deep-dive.ja AI 安全 / 評価 / レッドチーミング 2026 — Inspect AI / Garak / PyRIT / Promptfoo / OpenAI Evals / lm-eval-harness 深掘りガイド https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-evals-red-teaming-2026-inspect-ai-garak-pyrit-promptfoo-openai-evals-deep-dive.ja 2026年のAI安全・評価・レッドチーミングエコシステムを1枚にまとめる。Inspect AI(Anthropic、UK AISI採用)、Garak(NVIDIA→独立)、PyRIT(Microsoft)、Promptfoo(YC)、OpenAI Evals、lm-evaluation-harness(EleutherAI)、そして MLflow Evals・Arize Phoenix・DeepEval(Confident AI)・Giskard・Atla。ベンチマーク群(HumanEval / MMLU / GPQA / SWE-Bench / BigCodeBench)、ポリシー側の OpenAI Preparedness Framework と Anthropic RSP、標準側の MITRE ATLAS と OWASP LLM Top 10、AI Safety Institute(英・米・日・韓・シンガポール・仏)。韓国の KAIST / KISTI、日本の AISI / RIKEN AIP まで。誰が何を選ぶべきかをモデルリリース・アプリ統合・ガバナンス・学術の4軸で整理する。 Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-safetyred-teamingevalsinspect-aigarakpyritpromptfooopenai-evalslm-evaluation-harnessdeepevalphoenixgiskardai-safety-instituteaisirspmitre-atlasowasp-llm-top-102026deep-dive日本語 https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-evals-red-teaming-2026-inspect-ai-garak-pyrit-promptfoo-openai-evals-deep-dive AI 안전 / 평가 / 레드티밍 2026 — Inspect AI / Garak / PyRIT / Promptfoo / OpenAI Evals / lm-eval-harness 심층 가이드 https://www.youngju.dev/blog/culture/2026-05-16-ai-safety-evals-red-teaming-2026-inspect-ai-garak-pyrit-promptfoo-openai-evals-deep-dive 2026년의 AI 안전·평가·레드티밍 생태계를 한 장에 모은다. Inspect AI(Anthropic, UK AISI 채택)·Garak(NVIDIA→독립)·PyRIT(Microsoft)·Promptfoo(YC)·OpenAI Evals·lm-evaluation-harness(EleutherAI), 그리고 MLflow Evals·Arize Phoenix·DeepEval(Confident AI)·Giskard·Atla. 벤치마크 배터리(HumanEval·MMLU·GPQA·SWE-Bench·BigCodeBench), 정책 측의 OpenAI Preparedness Framework와 Anthropic RSP, 표준 측의 MITRE ATLAS와 OWASP LLM Top 10, 그리고 AI Safety Institute(UK·US·일본·한국·싱가포르·프랑스). 한국 KAIST·KISTI, 일본 AISI·RIKEN AIP까지. 누가 무엇을 골라야 하는지를 모델 출시·앱 통합·거버넌스·학술 네 갈래로 정리. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-safetyred-teamingevalsinspect-aigarakpyritpromptfooopenai-evalslm-evaluation-harnessdeepevalphoenixgiskardai-safety-instituteaisirspmitre-atlasowasp-llm-top-102026deep-dive https://www.youngju.dev/blog/culture/2026-05-16-privacy-ai-regulations-2026-gdpr-eu-ai-act-dsa-dma-pipa-appi-nist-ai-rmf-iso-42001-deep-dive.en Privacy & AI Regulation 2026 — GDPR / EU AI Act (Full Enforcement Aug 2026) / DSA / DMA / PIPA / APPI / NIST AI RMF / ISO 42001 Deep Dive https://www.youngju.dev/blog/culture/2026-05-16-privacy-ai-regulations-2026-gdpr-eu-ai-act-dsa-dma-pipa-appi-nist-ai-rmf-iso-42001-deep-dive.en In May 2026, privacy and AI regulation has split into five camps. The EU has stacked the EU AI Act (effective Aug 2024, prohibitions Feb 2025, full enforcement Aug 2026), DSA, DMA, Data Act, and Cyber Resilience Act on top of GDPR (2018). The US still has no federal omnibus law, while 8 states actively enforce comprehensive privacy laws and IL BIPA forms a separate biometric front. Koreas PIPA was amended in 2024 to formalize pseudonymized data, MyData, and medical MyData; Japans APPI continues to refine foreign transfer and anonymized processing rules. Layered on top: China PIPL, Brazil LGPD, OECD AI Principles, NIST AI RMF, ISO 42001, and the multilateral AISI agreements. This article maps all of it in one place and turns "what should we do?" into a phased compliance plan. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) privacyai-regulationgdpreu-ai-actdsadmadata-actcyber-resilience-actccpacpravcdpacpactdpatdpsaoapapipa-koreaappi-japanpipl-chinalgpd-brazilnist-ai-rmfiso-42001oecd-aiaisi2026deep-diveenglish https://www.youngju.dev/blog/culture/2026-05-16-privacy-ai-regulations-2026-gdpr-eu-ai-act-dsa-dma-pipa-appi-nist-ai-rmf-iso-42001-deep-dive.ja プライバシー & AI 規制 2026 — GDPR / EU AI Act(2026.8 全面施行)/ DSA / DMA / PIPA / APPI / NIST AI RMF / ISO 42001 ディープダイブ https://www.youngju.dev/blog/culture/2026-05-16-privacy-ai-regulations-2026-gdpr-eu-ai-act-dsa-dma-pipa-appi-nist-ai-rmf-iso-42001-deep-dive.ja 2026年5月、プライバシー・AI 規制は5陣営に分かれた。EU は GDPR(2018)の上に EU AI Act(2024.8 発効、2025.2 禁止、2026.8 全面施行)、DSA・DMA・Data Act・Cyber Resilience Act を積み上げた。米国は連邦の包括法がないまま、8つの州が包括プライバシー法を運用し、IL BIPA が生体情報の別戦線を形成する。韓国 PIPA は 2024 改正で仮名情報・MyData・医療マイデータを整備し、日本 APPI は外国移転・匿名加工情報の運用を磨いている。その上に中国 PIPL、ブラジル LGPD、OECD AI 原則、NIST AI RMF、ISO 42001、AISI 多国間協定が乗る。この記事ではその全体図を一度に整理し、「自社で何をすべきか」を段階で示す。 Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) privacyai-regulationgdpreu-ai-actdsadmadata-actcyber-resilience-actccpacpravcdpacpactdpatdpsaoapapipa-koreaappi-japanpipl-chinalgpd-brazilnist-ai-rmfiso-42001oecd-aiaisi2026deep-dive日本語 https://www.youngju.dev/blog/culture/2026-05-16-privacy-ai-regulations-2026-gdpr-eu-ai-act-dsa-dma-pipa-appi-nist-ai-rmf-iso-42001-deep-dive 프라이버시 & AI 규제 2026 — GDPR / EU AI Act (2026.8 전면 시행) / DSA / DMA / PIPA / APPI / NIST AI RMF / ISO 42001 심층 가이드 https://www.youngju.dev/blog/culture/2026-05-16-privacy-ai-regulations-2026-gdpr-eu-ai-act-dsa-dma-pipa-appi-nist-ai-rmf-iso-42001-deep-dive 2026년 5월, 프라이버시·AI 규제는 다섯 진영으로 갈라졌다. EU는 GDPR(2018) 위에 EU AI Act(2024.8 발효, 2025.2 금지, 2026.8 전면 시행)와 DSA·DMA·Data Act·Cyber Resilience Act를 차곡차곡 쌓았다. 미국은 연방법이 없는 채로 8개 주가 활성 프라이버시법을 시행 중이고, IL BIPA는 별도의 생체정보 전선을 형성한다. 한국 PIPA는 2024 개정으로 가명정보·MyData·의료데이터를 정비했고, 일본 APPI는 외국 이전·익명가공정보의 운영을 가다듬는다. 그 위에 중국 PIPL, 브라질 LGPD, OECD AI 원칙, NIST AI RMF, ISO 42001, AISI 다자 협정이 얹힌다. 이 글은 그 모든 지도를 한 번에 정리하고, "우리 회사는 무엇을 해야 하나"를 단계로 풀어준다. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) privacyai-regulationgdpreu-ai-actdsadmadata-actcyber-resilience-actccpacpravcdpacpactdpatdpsaoapapipa-koreaappi-japanpipl-chinalgpd-brazilnist-ai-rmfiso-42001oecd-aiaisi2026deep-dive