Published on2026년 3월 17일강화학습 완전 정복: DQN, PPO부터 RLHF, DPO까지 LLM 정렬까지강화학습PPODQNRLHFDPOLLM정렬2026-032026-03-17MDP 기초부터 DQN, PPO, SAC, RLHF, DPO까지. LLM 정렬에 사용되는 강화학습 기법을 PyTorch Stable-Baselines3 코드와 함께 완전 정복합니다.