Skip to content

Language Learning Quiz

Based on: DPO에서 KTO까지: 인간 피드백 정렬 기법 최신 논문 리뷰와 실전 구현

What does "Reward Model" mean?