AI Safety의 모든 것! Alignment 문제(목표 정렬), RLHF/DPO/Constitutional AI, 편향(Bias) 감지/완화, 환각(Hallucination) 방지, 레드팀 테스팅, AI Guardrails, 해석 가능성(SHAP/LIME), EU AI Act, 기업의 Responsible AI 프레임워크.
LLM 정렬 기술의 핵심 논문들을 심층 분석합니다. InstructGPT의 RLHF 파이프라인, Anthropic의 Constitutional AI, DPO의 수학적 기반, PPO 학습 안정성, 그리고 KTO/IPO/ORPO 등 최신 연구까지 체계적으로 비교하고 실무 적용 방안을 정리합니다.