Language Learning Quiz
Based on: DPO(Direct Preference Optimization) 논문 심층 분석 — RLHF 없이 LLM 정렬하기
Do you know this expression?
Direct Preference Optimization
직접 선호 최적화 (DPO)
보상 모델과 강화학습 없이 인간 선호 데이터로부터 직접 정책을 최적화하는 기법으로, Bradley-Terry 모델의 closed-form 해를 활용하여 RLHF 파이프라인을 단순 분류 손실로 대체합니다.
Tap to flip