Skip to content
Published on

モダン強化学習エコシステム 2026 完全ガイド - RLlib (Anyscale) · Stable-Baselines3 · Tianshou · CleanRL · OpenSpiel (DeepMind) · Gymnasium (Farama) · Acme · PufferLib · Pearl (Meta) · TorchRL 徹底解説

Authors

はじめに — 2026年5月、強化学習は「第二の黄金期」に入った

2018-2020年のAlphaStar、OpenAI Five、AlphaFold 1時代がRLの第一の黄金期だとすれば、2024-2026年は第二の黄金期である。トリガーは3つだ。第一に、DeepSeek-R1のGRPOとOpenAI o1/o3系のTest-Time Computeによって、LLM推論にRLが再び中心ツールとして戻ってきた。第二に、NVIDIA GR00T・Isaac Lab・Cosmos(iter69で取り上げた)によってロボティクスのシミュレーションとsim-to-realが商用段階に入った。第三に、Wayve GAIA-2(iter97)やTesla FSD v13のように、自動運転がRLベースの評価・方策学習へと再び統合されつつある。

本稿はマーケティングカタログではない。2026年5月時点でRLの本番運用と研究で実際に使われているライブラリ・環境・アルゴリズム・評価ベンチを整理する。コード例はすべて現在のAPIに準拠する。RLlib、Stable-Baselines3、Tianshou、CleanRL、TorchRL、OpenSpiel、Acme、Pearl、PufferLib、Gymnasium、PettingZoo、MuJoCo、Brax、Isaac Labを1本で比較する。

RL 2026の地形図 — 4つの軸に分解する

まず大きな絵から。2026年のRLエコシステムは次の4軸に分解できる。

  1. アルゴリズムライブラリ(library): 方策・価値関数、トレーナ、リプレイバッファの実装。
  2. 環境標準(environment API): 状態・行動・報酬をライブラリに公開する抽象。
  3. シミュレータ(simulator): 物理、ゲーム、ロボット、都市、自動運転のドメインシミュレーション。
  4. 分散ランタイム(distributed runtime): アクター・ラーナのトポロジ、アクタープール、リプレイのシャーディング。

2018年には1ライブラリが4軸すべてを抱え込んだ(自前のベースライン+Gym環境+自前のAtariラッパ+自前の分散)。2026年には4軸が明確に分離した。Gymnasium(環境API)+ PufferLib(環境互換シム)+ RLlib/SB3/Tianshou(アルゴリズム)+ Ray/Slurm(分散)という組み合わせが標準だ。

汎用RLライブラリ市場 — 二強+新興4社

アルゴリズムライブラリ市場は2026年5月時点で二強である。

  • RLlib(Anyscale, Ray上): 分散学習と本番採用で1位。PPO、IMPALA、APPO、DQN、SACに加えてMARLまで。Ray Tuneと統合したHPO。
  • Stable-Baselines3(SB3): 研究ベースラインの事実上の標準。PyTorchベース、可読性最優先、単一マシン学習に最適。

新興勢も地位を固めた。

  • TorchRL(Meta PyTorchチーム): 2023年以降のモジュラーPyTorchネイティブRL。TensorDict抽象でマルチエージェント・オフライン・オンラインを単一APIで統一。
  • Tianshou(清華大学): 高速性能+モジュラー設計。中国語・英語ドキュメント、学習安定性で頻繁に引用。
  • CleanRL: アルゴリズム1つあたり1ファイル。研究再現性と教育で圧倒的。W&B実験追跡がデフォルト。
  • JAX系: JAXRLRejaxRL、DeepMind Acme + Haiku/RLax。コンパイル済み環境(Braxなど)と組み合わせるとスループットが他を圧倒する。

それぞれ役割が違う。本番 → RLlib、論文ベースライン → SB3、高速実験/論文再現 → CleanRL、PyTorchネイティブのマルチエージェント → TorchRL、学習安定性+性能 → Tianshou、TPU・JAX → Acme。

RLlib — Ray上で回す産業用RL

RLlibはAnyscaleがメンテするRayのサブモジュールだ。2026年5月時点で最大の強みは分散学習がきちんと動くことである。軽量な単一マシン学習から1000以上のアクター分散まで、同じAPIで処理できる。

典型的なRLlibコード例:

import gymnasium as gym
import ray
from ray.rllib.algorithms.ppo import PPOConfig

ray.init()

config = (
    PPOConfig()
    .environment(env="CartPole-v1")
    .framework("torch")
    .training(gamma=0.99, lr=3e-4, train_batch_size=4000)
    .rollouts(num_rollout_workers=8)
    .resources(num_gpus=1)
)

algo = config.build()
for i in range(100):
    result = algo.train()
    print(f"iter={i} reward={result['episode_reward_mean']:.2f}")

algo.save(checkpoint_dir="/tmp/ppo_cartpole")
ray.shutdown()

RLlibはアルゴリズムの引き出しが最も豊富だ。PPO、IMPALA、APPO、DQN、Rainbow、SAC、DDPG、TD3、MARWIL、BC、CQL、MARL向けPettingZooラッパ、さらにRLHF向けRLlib Offlineまで。難点は抽象が深いこと — 最初の学習曲線は急である。

Stable-Baselines3 — 研究ベースラインの事実上の標準

SB3はDLR-RMチーム(ドイツ航空宇宙センター出身)がメンテするPyTorchベースのRLライブラリだ。使いやすさと可読性で頭一つ抜けている。新しいRL論文のベースライン数値の50%超はSB3で書かれている。

SB3のPPO学習は4行で完結する。

import gymnasium as gym
from stable_baselines3 import PPO

env = gym.make("LunarLander-v2")
model = PPO("MlpPolicy", env, verbose=1, learning_rate=3e-4, n_steps=2048)
model.learn(total_timesteps=1_000_000)
model.save("ppo_lunar")

SB3に公式で含まれるアルゴリズム:

  • オンポリシー: PPO、A2C、TRPO(Contrib)。
  • オフポリシー: DQN、DDPG、TD3、SAC、HER(ゴール条件付け)。
  • 模倣/オフライン: BC、GAIL、AIRLは別パッケージImitationにある。

SB3は単一マシン・中規模学習で最も推奨される。分散学習はRLlibかTorchRLの方が向いている。

Tianshou — 高速・モジュラー、学習安定性で頻繁に引用

Tianshouは清華大学RLグループ発のPyTorchベースRLライブラリだ。2020年から急成長し、2024-2026年にかけてNeurIPS/ICLR論文のベースライン引用が大幅に増えた。強みは収束の速さと安定したハイパーパラメータである。

Tianshouの核となる抽象はCollector、Policy、Trainerに分かれる。

import gymnasium as gym
import tianshou as ts
import torch
from tianshou.utils.net.common import Net
from tianshou.utils.net.discrete import Actor, Critic

env = gym.make("CartPole-v1")
state_shape = env.observation_space.shape or env.observation_space.n
action_shape = env.action_space.n

net = Net(state_shape, hidden_sizes=[64, 64])
actor = Actor(net, action_shape)
critic = Critic(net)
optim = torch.optim.Adam(set(actor.parameters()) | set(critic.parameters()), lr=3e-4)

policy = ts.policy.PPOPolicy(actor, critic, optim, dist_fn=torch.distributions.Categorical)
train_envs = ts.env.DummyVectorEnv([lambda: gym.make("CartPole-v1") for _ in range(8)])
buf = ts.data.VectorReplayBuffer(20000, 8)
collector = ts.data.Collector(policy, train_envs, buf)
collector.collect(n_step=4000)

Tianshouはアルゴリズム実装の正確さで真っ先に名前が挙がる。難点はSB3と比べてドキュメントが短いこと。

CleanRL — アルゴリズム1個=1ファイル、研究再現性の決定版

CleanRLはCosta Huang(Vector Institute、現Hugging Face)が始めたプロジェクトで、アルゴリズム1つを1ファイルで完結させる。PPOの実装はppo.py1ファイルに全部が入り、抽象層がほぼない。可読性と再現性で圧倒的だ。

2026年5月時点でCleanRLが単一ファイルとして提供するアルゴリズム:

  • オンライン: PPO(Atari、MuJoCo、Procgen、マルチエージェント、LSTM、連続/離散の11バリアント)、DQN、C51、SAC、TD3、DDPG、A2C。
  • オフライン: CQL、IQL、AWAC、DT(Decision Transformer)。
  • 研究用: PPG、PPL、RLHFバリアント、単一ファイルのGRPO。

W&B連携が標準で組み込まれているので、実行すれば自動でメトリクスがクラウドに記録される。研究者が論文再現やベースライン作成のときに最初にクローンするレポの1つだ。

TorchRL — PyTorchを1級市民にしたモダンRL

TorchRLはMetaのPyTorchチームが直接作ったRLライブラリだ。2023年に安定化、2024-2026年で加速。PyTorchテンソルとTensorDict抽象が1級市民なので、PyTorch開発者には馴染みやすい。

TorchRLの核となる抽象:

  • TensorDict: 観測・行動・報酬・マスク・隠れ状態などあらゆるデータを1つのコンテナに。
  • Environment Transforms: torchvision Transform風の環境変換。
  • Replay Buffer: 単一・優先付き・系列・オフラインまで単一APIで。
  • Loss Modules: PPO、DQN、SAC、DDPG、IQL、CQLなど損失関数だけを単体で使える。

短いTorchRL例:

import torch
from torchrl.envs import GymEnv, TransformedEnv, ObservationNorm
from torchrl.modules import MLP, ProbabilisticActor
from torchrl.objectives import ClipPPOLoss

env = TransformedEnv(GymEnv("CartPole-v1"), ObservationNorm(in_keys=["observation"]))
actor_net = MLP(in_features=env.observation_spec["observation"].shape[-1], out_features=env.action_spec.shape[-1], num_cells=[64, 64])
actor = ProbabilisticActor(module=actor_net, in_keys=["observation"], out_keys=["action"])

loss_module = ClipPPOLoss(actor, critic_network=None, entropy_bonus=True)
optim = torch.optim.Adam(loss_module.parameters(), lr=3e-4)

TorchRLの強みはマルチエージェント・オフライン・メタRLを単一APIで扱えることだ。難点は抽象が深く、APIがよく変わる点である。

PFRL — Preferred Networks発の日本生まれPyTorch RL

PFRLはPreferred Networks(PFN、東京)が作ったPyTorch RLライブラリだ。前身はChainerベースのChainerRLだった。2026年5月時点でICML/NeurIPSにおける日本チームのベースライン実行の多くを支えている。

PFRLの強みはアルゴリズムの広さと検証済みの再現性だ。Rainbow、IQN、R2D2、NoisyNetなどDQN系の派生が充実しており、Atari 50M学習までエンドツーエンドで検証されている。トレードオフはSB3より英語ドキュメントが浅いこと。

TF-Agents — GoogleのTensorFlow RLライブラリ

TF-AgentsはGoogleが作ったTFベースのRLライブラリだ。2026年5月でも活性ではあるがPyTorch優勢の中でシェアを減らした。一方、Google内部+TPU学習では今でも第1選択である。AlphaGo・AlphaStarのフォローアップ研究の一部と、Vertex AI PipelinesのRLコンポーネントはTF-Agentsの上に乗っている。

OpenSpiel — DeepMindのゲーム理論・マルチエージェント環境とアルゴリズム集

OpenSpielはDeepMindが公開したゲーム理論とマルチエージェントRLの標準ツールだ。60超のゲーム(チェス、囲碁、ポーカー、ヘックス、Liar's Dice、Goofspiel、Hanabi、Catch the Catなど)と、PSRO、CFR、NFSP、MMDなどの均衡学習アルゴリズムが1パッケージにまとまっている。

import pyspiel

game = pyspiel.load_game("tic_tac_toe")
state = game.new_initial_state()
while not state.is_terminal():
    legal_actions = state.legal_actions()
    action = legal_actions[0]
    state.apply_action(action)
print(state.returns())

OpenSpielはマルチエージェントRL研究の標準環境の1つだ。カードゲーム(Hanabi)・戦略ゲーム(Catan)・オークション(Sealed-Bid Auction)・Liar's Diceまで単一APIで扱える。

Acme — DeepMindの研究者向けモジュラRLフレームワーク

AcmeはDeepMind研究チームが社内で使っていたRLフレームワークを公開したものだ。核となる抽象はActor + Learner + Replayの明確な分離である。JAXとTFの双方をサポートする。

Acmeの強みは分散学習トポロジ(R2D2、IMPALA、Ape-Xなど)をきれいに表現できることだ。DeepMindのReverbリプレイサービスと組み合わせると、数千アクター分散学習が標準API呼び出しで可能になる。

同じDeepMindスタックの兄弟ライブラリ:

  • DM-Haiku: JAX上のニューラルネットモジュール(現在はFlaxが優勢に移行中)。
  • RLax: JAXベースのRL損失関数/ビルディングブロック。
  • Distrax: JAXベースの分布ライブラリ(TFP代替)。
  • Reverb: 分散リプレイバッファサービス。

Pearl — Metaの本番意思決定システム向けRLライブラリ

PearlはMeta(Applied Research, Production RL)が2023年末に公開したRLライブラリだ。正式名称はPEarl(Production-Ready Reinforcement Learning AI Library)。2026年5月時点で広告入札、コンテンツ推薦、通知タイミングといったオンライン意思決定システムに焦点を絞っている。

Pearlが強調するポイント:

  • コンテキスト付きバンディット(contextual bandit)とRLの単一API: 報酬の一部しか観測できないケースに強い。
  • オフライン方策評価(OPE): 本番方策を実験せずに比較可能。
  • 安全な探索(safe exploration): 探索中もビジネスKPIを保護。
  • 大規模な学習と配信の分離: 学習はPyTorch、配信は別ランタイム。

Meta内部では広告・推薦・通知システムの一部がPearl上で動いている。OSS公開版は同じ抽象を外部ユーザにも提供する。

Gymnasium — Farama Foundationが引き継いだ環境API標準

OpenAI Gymは2021年以降メンテが止まり、Farama FoundationがGymnasiumとしてフォークし、事実上の標準になった。2026年5月時点で主要RLライブラリ(SB3、RLlib、Tianshou、CleanRL、TorchRL)はすべてGymnasium APIを第一に対応する。

GymとGymnasiumの差は小さいが本質的だ。

  • env.reset()(obs, info)タプルを返す。
  • env.step(action)(obs, reward, terminated, truncated, info)の5要素タプル。terminated(エピソード終了)とtruncated(タイムアウト)を分離。
  • 標準シード処理(env.reset(seed=42))。
  • gym.vectorベクトル化環境が標準化。
import gymnasium as gym

env = gym.make("CartPole-v1", render_mode="rgb_array")
obs, info = env.reset(seed=42)
for _ in range(1000):
    action = env.action_space.sample()
    obs, reward, terminated, truncated, info = env.step(action)
    if terminated or truncated:
        obs, info = env.reset()
env.close()

同じFarama傘下にPettingZoo(マルチエージェント)、MiniGrid(グリッドワールド)、MiniWorld(3Dミニ)、Procgen(手続き生成)、Highway-env(ミニ自動運転)が並ぶ。

PettingZoo + MARL — マルチエージェントRLの標準API

PettingZooはGymnasiumのマルチエージェント兄弟だ。AEC(Agent Environment Cycle)APIとParallel APIの両方をサポートする。RLlib、Tianshou、TorchRLのいずれもPettingZoo環境を1級で受け入れる。

PettingZooに含まれる環境カテゴリ:

  • Atari Multiplayer: Pong、Boxingなど2P Atari。
  • Classic: チェス、囲碁、カードゲーム。
  • Butterfly: 追跡・回避ゲーム。
  • MPE(Multi-Particle Environments): 協調・競合の粒子シミュレーション(原典OpenAI)。
  • SISL: マルチ追跡、多通信。
  • MAgent2: 大規模(1000以上のエージェント)戦闘・協力環境。

サンプルコード:

from pettingzoo.classic import chess_v6

env = chess_v6.env(render_mode="human")
env.reset(seed=42)
for agent in env.agent_iter():
    obs, reward, term, trunc, info = env.last()
    action = None if term or trunc else env.action_space(agent).sample()
    env.step(action)
env.close()

マルチエージェントRLアルゴリズムはMAPPO、IPPO、QMIX、MADDPG、COMAなどがあり、RLlib MARLMARLlibEPyMARLといったライブラリがPettingZoo環境の上で動く。

Atari・MuJoCo・DeepMind Control Suite — クラシックベンチマークの現在

RLの標準ベンチマークは今も健在だ。

  • Atari Learning Environment(ALE): 50超のAtariゲーム。DQN時代からの標準。2024年ALE 0.10でGymnasium統合。
  • MuJoCo: DeepMindが2022年に買収後オープンソース化。MuJoCo 3.xでGPU加速(MJX)が追加。
  • DeepMind Control Suite(dm_control): MuJoCoベースの連続制御ベンチ。Walker、Cheetah、Humanoid、Quadrupedなど。

MuJoCo 3は2024年以降MJXというJAXバックエンドを提供する。同じモデルをGPUで数千並列に回せるので、sim-to-real研究で頻繁に引用される。

import gymnasium as gym

env = gym.make("HalfCheetah-v5")
obs, info = env.reset(seed=0)
for _ in range(200):
    obs, r, term, trunc, info = env.step(env.action_space.sample())

同カテゴリにPyBullet(オープンソース物理エンジン、MuJoCo代替)、Gazebo(ROSと統合されたロボティクスシミュレータ)もある。

Brax — JAXベースの微分可能物理シミュレータ

BraxはGoogleが作ったJAXベースの物理シミュレータだ。微分可能物理+GPU並列+JITコンパイルなので、RLスループットがMuJoCo CPUベースの100-1000倍になるケースがある。

Braxの環境はMuJoCo環境互換で書かれており、Ant、HalfCheetah、Humanoid、Walker2d、Hopper、Pusher、Reacherなどが同じ名前で提供される。

import jax
import brax.envs
from brax.training.agents.ppo import train as ppo

env = brax.envs.create(env_name="ant", backend="positional")
make_inference_fn, params, _ = ppo.train(
    environment=env,
    num_timesteps=50_000_000,
    num_evals=10,
    reward_scaling=10,
    episode_length=1000,
    normalize_observations=True,
    action_repeat=1,
    unroll_length=5,
    num_minibatches=32,
    num_updates_per_batch=4,
    discounting=0.97,
    learning_rate=3e-4,
    entropy_cost=1e-2,
    num_envs=4096,
    batch_size=2048,
    seed=0,
)

num_envs=4096のように一度に数千環境をGPUで回すのが要点だ。Brax + Acme + RLaxの組み合わせは単一GPUで1Bステップ以上の学習を1日以内に終えられる。

NVIDIA Isaac Lab + Cosmos — ロボティクスsim-to-realの産業標準

NVIDIAは2023-2024年にIsaacGymからIsaac Labへ移行した。2026年5月時点でIsaac Lab(旧OmniIsaac/IsaacGymEnvsを吸収)がロボティクスRLシミュレーションの産業標準だ。Cosmos(iter69)はsim-to-real向けの生成的世界モデルを別途提供する。

Isaac Labの特徴:

  • すべての段階がGPU上で処理: 物理シミュ、観測合成、報酬計算までGPU。
  • 数千〜数万の並列環境: 単一のA100/H100で4096のロボット方策を同時学習。
  • NVIDIA Omniverse + USD標準: アセットを標準USDで共有。
  • ドメインランダム化を標準搭載: sim-to-real向けのノイズ・物性変動を自動化。

Boston Dynamics、Agility Robotics、Figure AI、1Xといったヒューマノイド企業の多くが、RL方策学習の標準としてIsaac Labを採用していると公表している。Isaac Lab + RL標準アルゴリズムにはRSL-RL(ETHチューリッヒ)とStable-Baselines3、あるいは自社PPO実装の組み合わせが多い。

VizDoom・MineRL・MineDojo・Crafter・NetHack — 手続き的環境の復活

2024-2026年に手続き的・オープンワールドのRLベンチが再注目された。

  • VizDoom: Doom 1上のFPS環境。2024 NeurIPS Open-Ended Learningで再登場。
  • MineRL + MineDojo: Minecraftベース。MineDojo(NVIDIA)はインターネット動画データセット+タスク仕様+環境をまとめて提供。
  • Crafter: 22の業績を持つミニMinecraft。単一GPUで素早く評価可能。
  • NetHack Learning Environment(NLE): MetaのNetHackローグライク。手続き的ダンジョン+巨大な行動空間で、LLMエージェントのベンチによく登場する。
import minerl

env = minerl.make("MineRLObtainDiamond-v0")
obs = env.reset()
done = False
while not done:
    action = env.action_space.sample()
    obs, r, done, info = env.step(action)

これらの環境はLLMベースエージェントの評価にも頻繁に使われる。Voyager(NVIDIA、GPT-4のMinecraftエージェント)、DEPS、JARVIS-1はすべてMineDojo上にある。

MetaWorld・RoboCasa・LIBERO — ロボティクスのタスク集

ロボティクスRLは単一シミュレータではなく、タスク集+シミュレータの組み合わせで評価される。

  • MetaWorld: 50のロボット操作タスク標準ベンチ。単一方策で50タスクをメタ学習する評価がカノニカル。
  • RoboCasa: 100以上のキッチンタスク、写実的レンダリング。NVIDIA + Stanford。
  • LIBERO: 生涯学習(lifelong)操作ベンチ。時間に応じてタスク分布が変動する評価。
  • Habitat 3.0(Meta): 人とロボットの協調評価。ヒューマノイドシミュ統合。

MetaWorldの使い方:

import metaworld
import random

mt10 = metaworld.MT10()
training_envs = []
for name, env_cls in mt10.train_classes.items():
    env = env_cls()
    task = random.choice([t for t in mt10.train_tasks if t.env_name == name])
    env.set_task(task)
    training_envs.append(env)

PufferLib — 環境互換レイヤとスループットブースト

PufferLibは環境APIの統一とGPUベクトル化を一度に解決するライブラリだ。2024年以降急成長中。核となる主張はCPU環境をそのままに、単一GPUホストから100〜1000の環境を最大スループットで回すこと。

PufferLibは次を1ヶ所で処理する。

  • 環境アダプタ: Gym/Gymnasium/PettingZoo/NetHack/MineRL/Crafter/Atari/Procgen/NLEなどを単一インターフェイスに。
  • ベクトル化: 共有メモリ+マルチプロセスベースの高速ベクトル環境。
  • ネイティブPufferLib環境: NMMO、Pong、その他高速なC環境。
import pufferlib
import pufferlib.emulation
import pufferlib.vectorization

env_creator = lambda: pufferlib.emulation.GymnasiumPufferEnv("CartPole-v1")
vecenv = pufferlib.vectorization.Multiprocessing(env_creator, num_envs=64)
obs = vecenv.reset()

PufferLib + CleanRL、あるいはPufferLib + RLlibの組み合わせで学習速度が2-10倍になる事例は珍しくない。

LLM + RL — PPOからGRPOへ、TRLと学習インフラ

2024年末、DeepSeek-R1がPPOの派生**GRPO(Group Relative Policy Optimization)**で学習されて公開され、以後LLM推論モデルの学習はGRPO派生が標準になった。

PPOとGRPOの違いを短く整理する。

  • PPO: 方策+価値関数(critic)の2ネットワーク。criticがbaselineを推定する。
  • GRPO: criticなし。同じpromptに対してグループ単位(複数応答)で報酬を正規化してアドバンテージを推定。メモリ/計算を節約。
比較項目PPOGRPO
critic必要不要
アドバンテージGAE + 価値関数ベースライングループ内報酬の正規化
メモリactor + criticactorのみ
安定性既知の安定領域グループサイズgが鍵
LLM適合標準だがcriticが重い推論用LLM RLの事実上の標準

**TRL(Hugging Face Transformers Reinforcement Learning)**はLLM学習用RLライブラリだ(iter62のLLMファインチューニングで取り上げた)。2026年5月時点でPPO、DPO、GRPO、KTO、ORPO、報酬モデル学習をすべてサポートする。

from trl import GRPOTrainer, GRPOConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "meta-llama/Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

config = GRPOConfig(
    learning_rate=1e-6,
    num_generations=8,
    max_prompt_length=512,
    max_completion_length=1024,
    beta=0.04,
)

trainer = GRPOTrainer(
    model=model,
    args=config,
    reward_funcs=[lambda completions, **kw: [len(c) for c in completions]],
    train_dataset=...,
    processing_class=tokenizer,
)
trainer.train()

LLM RLは古典RLとインフラの形が違う。vLLMもしくはSGLangでロールアウト生成、DeepSpeed/FSDPで学習、TRL/OpenRLHF/verlといったフレームワークでアルゴリズム実装、というスタックだ。学習クラスタは16-128 GPU規模が普通である。

アルゴリズム地形 2026 — PPOは依然として王、隣に新顔

2026年5月時点のアルゴリズム別の地位は次の通り。

  • PPO: 依然としてRLアルゴリズム1位。単純さ、安定性、広い環境互換性。新規実験の最初のベースライン。
  • GRPO: LLM推論学習の事実上の標準。PPO代替として一般RLにも徐々に拡散。
  • SAC: 連続制御(MuJoCo、ロボット)の標準。エントロピー正則化+ダブルcritic。
  • TD3: SACの代替。ツインcritic+遅延方策更新。
  • DQN系: Rainbow(C51 + Double + Dueling + Noisy + Prioritized + Multi-step + Distributional)が今も強力。IQN、QR-DQNが分布型RLの標準。
  • Decision Transformer(DT): RLを系列モデリングとして再構成。オフラインRLとLLMとの整合が良く、2023-2025年の研究多数。
  • Diffusion Policy: ロボット操作でのBC+拡散。Toyota Research、Stanford、NVIDIAが牽引。
  • MuZero / EfficientZero / Stochastic MuZero: モデルベースRLの最強格。AlphaGo・AlphaZeroの後継。
  • AlphaTensor / AlphaCode / AlphaProof: DeepMindのドメイン特化RL応用。
  • Q-Transformer: DeepMind RT-X。トランスフォーマ+Q-learningをロボット学習に結合。

ベンチマーク地形 — MuJoCo / Atari / DM Control / NetHack / Crafter

アルゴリズム比較の標準ベンチマーク:

  • Atari 100k: 100k環境ステップ以内のAtari 26ゲーム平均スコア。データ効率的RLの標準。
  • MuJoCo Locomotion: HalfCheetah、Walker、Ant、Humanoidなど連続制御スコア。
  • DeepMind Control Suite: 28以上のタスク平均スコア。ピクセル入力と状態入力を分けて報告。
  • MineRL Diamond: ダイヤモンド採掘成功率。非常に長期のタスク。
  • NetHack Challenge: NetHackスコア。巨大な行動空間と手続き的ダンジョン。
  • BabyAI: 自然言語命令ベースのグリッドワールド。言語+RLの評価。
  • Crafter: 22業績評価。単一GPUで素早く。
  • Procgen: 16の手続き的ゲーム。汎化(generalization)評価の標準。

韓国のRL研究 — KAIST、SNU、NCSOFT、Krafton、NAVER

韓国のRL研究は2020年代に入って急増した。主要グループ:

  • KAIST AI大学院: Yang Eunho、Lee Juho、Hwang Sungju教授グループなどがメタRL、オフラインRL、モデルベースRLでNeurIPS・ICLR・ICMLに多数発表。
  • ソウル大AI研究院: Kim Gunhee、Zhang Byoung-Tak教授グループがマルチエージェント、言語-RL結合の研究。
  • POSTECH AI: Ahn Sungsoo、Lee Seunghyunグループが安定性/理論的RL。
  • NCSOFT AI Center: Lineage、Blade & SoulのRLボスAI。ゲームRLの産業適用事例。
  • Krafton AI: PUBGのボット、NPC AI。2024-2025年のICLR/NeurIPSワークショップで発表。
  • NAVER Search Engineering: 検索ランキングRL、広告入札RL。
  • Kakao Enterprise AI: 推薦RL。

韓国のRLはゲームRLと意思決定システムRLで産業適用が強く、理論・メタRLで学界発表が活発だ。

日本のRL研究 — Preferred Networks、DeepMind Tokyo、Sony AI、NTT

日本のRL研究はゲーム・ロボティクス・産業応用に強みがある。

  • Preferred Networks(PFN): Chainer時代からRLに貢献。PFRL OSSをメンテ。トヨタ・ファナックとロボティクス協業。
  • DeepMind Tokyo: DeepMindの東京オフィス。日本の学界との協業が多い。
  • Sony AI: Gran Turismo Sophy — Gran Turismo 7のRLレーシングエージェント。2022年Nature表紙。2026年にシリーズ統合段階。
  • NTT CS研究所: 通信・ネットワークRL。SDNルーティング・電力グリッド。
  • 理研AIP: メタ学習・連続学習。
  • OMRON SINIC X: ロボット操作。

Gran Turismo Sophyのような事例はシミュレータの精度+比較可能な人間ベースラインが揃った稀な例だ。産業RLの可能性を示した最も視認性の高いケースの1つである。

実世界の本番事例 — AlphaGoからAlphaChip、Boston Dynamicsまで

RLが実際に本番投入された事例を整理する。

  • AlphaGo → AlphaZero → MuZero(DeepMind): 囲碁・チェス・将棋・Atari。モデルベースRLの出発点。
  • AlphaStar(DeepMind): StarCraft IIグランドマスター級。人間ゲーマと同等。
  • OpenAI Five: Dota 2世界チャンピオンとの対戦。分散RLインフラの最初の巨大事例。
  • AlphaFold 2(DeepMind、RL比重は低めだがpost-processingで使用)。
  • AlphaTensor(DeepMind、2022): 行列乗算アルゴリズム発見にRL使用。
  • AlphaChip(DeepMind、2024、旧Chip Placement): TPUフロアプランRL。iter96で取り上げ。
  • Gran Turismo Sophy(Sony AI、2022 Nature): RLレーシング。
  • Boston Dynamics + RLファインチューニング: Atlas / SpotのモーションRL最適化。
  • NVIDIA Eureka(2023): GPT-4がRL報酬関数を書き、Isaac Gymで学習。
  • DeepMind Loon balloon control(高度制御): 成層圏バルーンのRL自動航法。
  • Amazon SageMaker RL、Microsoft Bonsai、Vertex AI Vizier: 産業応用のマネージドRL。

OpenAI Spinning Upと教育リソース

これから学び始める人向けの中核リソース:

  • OpenAI Spinning Up: 教育向けRLライブラリ。PPO、SAC、TD3、DDPG、VPGの素直な実装+理論ノート。2018年公開で今でも学生のスタート地点。
  • CleanRL単一ファイル: 前述。
  • Hugging Face Deep RL Course: 8ユニット、無料。SB3 + Unity ML-Agents + Gymnasium。
  • DeepMind x UCL RL Course(David Silver): 古典。理論基礎。
  • Sergey Levine CS 285(UC Berkeley): 最近最も影響力のあるRL講義。
  • Pieter Abbeel CS 287(Berkeley): ロボティクスRL。

学習順序は通常、Spinning Upのコードを読む → CleanRLのppo.pyを一行ずつ → SB3 / Tianshouでアルゴリズム実験 → RLlib / TorchRLで分散・マルチエージェントへ拡張が自然だ。

ツール選択ガイド — シナリオ別の推奨

最後にシナリオ別の推奨をまとめる。

  • 一人で素早くベースライン → SB3(LunarLander、MuJoCo単一マシン)。
  • 再現性/論文執筆 → CleanRL(単一ファイル+W&B)。
  • 学習安定性+モジュール拡張 → TianshouまたはTorchRL
  • 数千アクター分散 → RLlib(Ray)。
  • TPU/JAX/Brax → Acme + RLax + Haiku(またはFlax)。
  • ロボティクスsim-to-real → Isaac Lab + RSL-RL/SB3または自社PPO。
  • マルチエージェント → PettingZoo + RLlib MARLまたはMARLlibEPyMARL
  • ゲーム理論 → OpenSpiel
  • 広告/推薦の意思決定 → Pearlまたは自社のコンテキスト付きバンディット。
  • LLM RL → TRL + vLLM / SGLang、アルゴリズムはGRPOまたはDPO。

ツールを決めるとき最も重要な問いは**「環境スループットがどこで詰まるか」**だ。CPU環境ならSB3 / Tianshouで十分。GPUシミュレーションならIsaac Lab / Brax。分散が必要ならRLlib / Acme。LLMはTRL。

おわりに — 2026年5月、RLは単一ツールではなく「スタック」だ

本稿の結論は単純だ。RLは単一ツールの時代ではない。環境+ライブラリ+シミュレータ+分散ランタイムのスタックをドメインに合わせて組み立てる必要がある。

最も大きな流れを2つに整理する。第一に、LLM-RLとクラシックRLの分岐。LLM-RLはTRL + vLLM + GRPO/DPOで独自領域になった。クラシックRLはSB3/RLlib/Tianshou + Gymnasium + シミュレータで続く。第二に、ロボティクスRLが本当に商用段階に入った。Isaac Lab + Cosmos + Diffusion Policy + Q-Transformerの組み合わせが、複数のヒューマノイド・マニピュレータ企業の標準スタックになっている。

ツール選択に時間をかけすぎないこと。どの組み合わせでも**「環境インターフェイスの一貫性+分散ランタイムの安定性+実験追跡」**の3つさえ押さえれば90%は解決する。残りはドメイン特化のチューニングだ。

References