- Published on
2026년 5월 기준 강화학습(RL) 생태계를 처음부터 끝까지 본다. 범용 RL 라이브러리(RLlib, Stable-Baselines3, Tianshou, CleanRL, TorchRL, PFRL, TF-Agents), DeepMind 스택(OpenSpiel, Acme, Haiku/RLax/Distrax), Meta Pearl, 환경 표준(Gymnasium, PettingZoo, ALE, MuJoCo, Brax, Isaac Lab), LLM-RL의 PPO/GRPO/TRL, 그리고 알고리즘 지형(PPO, GRPO, SAC, Decision Transformer, MuZero, Diffusion Policy)까지 한 글에서 정리한다. KAIST/SNU/NCSOFT/Krafton과 Preferred Networks/Sony AI 같은 한국·일본 연구도 함께 본다.