Skip to content
ChaosAndOrder
Blog
Tags
Projects
Tools
Explore
About
Language Learning Quiz
Based on: DPO(Direct Preference Optimization) 논문 심층 분석 — RLHF 없이 LLM 정렬하기
What does
"Direct Preference Optimization"
mean?
1.
보상 재매개변수화
2.
KL 발산 제약
3.
선호 쌍 데이터
4.
직접 선호 최적화 (DPO)