Skip to content
ChaosAndOrder
Blog
Tags
Projects
Tools
Explore
About
Language Learning Quiz
Based on: DPO에서 KTO까지: 인간 피드백 정렬 기법 최신 논문 리뷰와 실전 구현
What does
"Reward Model"
mean?
1.
직접 선호 최적화 (DPO)
2.
보상 모델
3.
KTO (카너먼-트버스키 최적화)
4.
인간 피드백 정렬