Published on2026년 3월 19일[심층 강화학습] 09. Policy Gradient: 정책 기반 강화학습reinforcement-learningdeep-learningaipolicy-gradient가치 기반 방법과 정책 기반 방법의 차이를 이해하고, Policy Gradient의 수학적 유도 과정과 REINFORCE 알고리즘을 CartPole과 Pong에 적용합니다.
Published on2026년 3월 1일강화학습(Reinforcement Learning) 완벽 가이드: 이론부터 최신 알고리즘, 실전 구현까지reinforcement-learningdeep-learningdqnpporlhfa3cq-learningpolicy-gradientai-papersalphago강화학습의 핵심 이론인 MDP, Bellman 방정식부터 Q-Learning, DQN, Policy Gradient, A3C, PPO, SAC까지 주요 알고리즘을 수식으로 유도하고, RLHF, AlphaGo, 로보틱스 응용 사례와 PyTorch 구현 예제를 총정리한다.