Skip to content

Language Learning Quiz

Based on: DPO(Direct Preference Optimization) 논문 심층 분석 — RLHF 없이 LLM 정렬하기

Do you know this expression?

Direct Preference Optimization
직접 선호 최적화 (DPO)

보상 모델과 강화학습 없이 인간 선호 데이터로부터 직접 정책을 최적화하는 기법으로, Bradley-Terry 모델의 closed-form 해를 활용하여 RLHF 파이프라인을 단순 분류 손실로 대체합니다.

Tap to flip