Published on2026년 3월 9일DPO(Direct Preference Optimization) 논문 심층 분석 — RLHF 없이 LLM 정렬하기ai-papersdporlhfllm-alignmentpreference-optimization2026-032026-03-09DPO의 수학적 원리부터 구현, RLHF와의 비교, IPO/KTO/ORPO 변형까지 — LLM 선호도 최적화의 핵심을 실무 관점에서 심층 분석합니다.