Published on2026년 3월 19일[심층 강화학습] 06. Deep Q-Network: DQN의 원리와 구현reinforcement-learningdeep-learningaidqn테이블 기반 Q-러닝의 한계를 극복하는 DQN의 핵심 아이디어(경험 리플레이, 타겟 네트워크)를 이해하고, Pong 환경에서 구현합니다.
Published on2026년 3월 19일[심층 강화학습] 07. DQN 확장: Double DQN, Dueling DQN, Rainbowreinforcement-learningdeep-learningaidqnDQN의 성능을 향상시키는 6가지 핵심 확장 기법(N-step, Double DQN, Noisy Networks, Prioritized Replay, Dueling DQN, Categorical DQN)과 이들을 결합한 Rainbow를 구현합니다.
Published on2026년 3월 19일[심층 강화학습] 08. 강화학습으로 주식 트레이딩 만들기reinforcement-learningdeep-learningaifinance주식 트레이딩을 강화학습 문제로 정의하고, 커스텀 거래 환경을 설계한 뒤 피드포워드 및 CNN 모델로 트레이딩 에이전트를 학습시킵니다.
Published on2026년 3월 19일[심층 강화학습] 09. Policy Gradient: 정책 기반 강화학습reinforcement-learningdeep-learningaipolicy-gradient가치 기반 방법과 정책 기반 방법의 차이를 이해하고, Policy Gradient의 수학적 유도 과정과 REINFORCE 알고리즘을 CartPole과 Pong에 적용합니다.
Published on2026년 3월 19일[심층 강화학습] 10. Actor-Critic 방법: A2C와 하이퍼파라미터 튜닝reinforcement-learningdeep-learningaiactor-criticREINFORCE의 분산 문제를 해결하는 Actor-Critic 구조를 이해하고, A2C 알고리즘을 Pong에 적용하며, 학습률, 엔트로피 계수 등 주요 하이퍼파라미터의 영향을 분석합니다.
Published on2026년 3월 19일[심층 강화학습] 11. A3C: 비동기 Advantage Actor-Criticreinforcement-learningdeep-learningaiA2C의 상관관계 문제를 비동기 병렬 학습으로 해결하는 A3C 알고리즘의 원리와 데이터/그래디언트 병렬화 구현
Published on2026년 3월 19일[심층 강화학습] 12. 강화학습으로 챗봇 훈련하기reinforcement-learningdeep-learningainlpSeq2Seq 모델과 강화학습을 결합한 챗봇 훈련: RNN 기초부터 Self-Critical Sequence Training(SCST)까지
Published on2026년 3월 19일[심층 강화학습] 13. 웹 내비게이션과 강화학습reinforcement-learningdeep-learningai브라우저 자동화와 강화학습의 결합: Mini World of Bits 벤치마크와 OpenAI Universe를 활용한 웹 에이전트 구현
Published on2026년 3월 19일[심층 강화학습] 14. 연속 행동 공간: DDPG와 분포 정책reinforcement-learningdeep-learningai연속 행동 공간을 다루는 방법: A2C 확장, DDPG의 결정적 정책 그래디언트, 분포 정책 그래디언트
Published on2026년 3월 19일[심층 강화학습] 15. Trust Region 방법: TRPO, PPO, ACKTRreinforcement-learningdeep-learningai정책 업데이트의 안정성을 보장하는 Trust Region 기법: PPO의 클리핑 목적함수, TRPO의 제약 최적화, ACKTR