Ppo

Published on
2026년 3월 17일
강화학습 완전 정복: DQN, PPO부터 RLHF, DPO까지 LLM 정렬까지
강화학습 PPO DQN RLHF DPO LLM정렬 2026-03 2026-03-17
MDP 기초부터 DQN, PPO, SAC, RLHF, DPO까지. LLM 정렬에 사용되는 강화학습 기법을 PyTorch Stable-Baselines3 코드와 함께 완전 정복합니다.
Published on
2026년 3월 13일
RLHF에서 DPO까지: LLM 정렬(Alignment) 기술 논문 심층 분석
ai-papers rlhf dpo alignment ppo constitutional-ai llm
LLM 정렬 기술의 핵심 논문들을 심층 분석합니다. InstructGPT의 RLHF 파이프라인, Anthropic의 Constitutional AI, DPO의 수학적 기반, PPO 학습 안정성, 그리고 KTO/IPO/ORPO 등 최신 연구까지 체계적으로 비교하고 실무 적용 방안을 정리합니다.
Published on
2026년 3월 1일
강화학습(Reinforcement Learning) 완벽 가이드: 이론부터 최신 알고리즘, 실전 구현까지
reinforcement-learning deep-learning dqn ppo rlhf a3c q-learning policy-gradient ai-papers alphago
강화학습의 핵심 이론인 MDP, Bellman 방정식부터 Q-Learning, DQN, Policy Gradient, A3C, PPO, SAC까지 주요 알고리즘을 수식으로 유도하고, RLHF, AlphaGo, 로보틱스 응용 사례와 PyTorch 구현 예제를 총정리한다.

강화학습 완전 정복: DQN, PPO부터 RLHF, DPO까지 LLM 정렬까지