필사 모드: モダン強化学習エコシステム 2026 完全ガイド - RLlib (Anyscale) · Stable-Baselines3 · Tianshou · CleanRL · OpenSpiel (DeepMind) · Gymnasium (Farama) · Acme · PufferLib · Pearl (Meta) · TorchRL 徹底解説
日本語はじめに — 2026年5月、強化学習は「第二の黄金期」に入った
2018-2020年のAlphaStar、OpenAI Five、AlphaFold 1時代がRLの第一の黄金期だとすれば、2024-2026年は第二の黄金期である。トリガーは3つだ。第一に、**DeepSeek-R1のGRPOとOpenAI o1/o3系のTest-Time Compute**によって、LLM推論にRLが再び中心ツールとして戻ってきた。第二に、**NVIDIA GR00T・Isaac Lab・Cosmos**(iter69で取り上げた)によってロボティクスのシミュレーションとsim-to-realが商用段階に入った。第三に、**Wayve GAIA-2**(iter97)や**Tesla FSD v13**のように、自動運転がRLベースの評価・方策学習へと再び統合されつつある。
本稿はマーケティングカタログではない。2026年5月時点でRLの本番運用と研究で実際に使われているライブラリ・環境・アルゴリズム・評価ベンチを整理する。コード例はすべて現在のAPIに準拠する。RLlib、Stable-Baselines3、Tianshou、CleanRL、TorchRL、OpenSpiel、Acme、Pearl、PufferLib、Gymnasium、PettingZoo、MuJoCo、Brax、Isaac Labを1本で比較する。
RL 2026の地形図 — 4つの軸に分解する
まず大きな絵から。2026年のRLエコシステムは次の4軸に分解できる。
1. **アルゴリズムライブラリ(library)**: 方策・価値関数、トレーナ、リプレイバッファの実装。
2. **環境標準(environment API)**: 状態・行動・報酬をライブラリに公開する抽象。
3. **シミュレータ(simulator)**: 物理、ゲーム、ロボット、都市、自動運転のドメインシミュレーション。
4. **分散ランタイム(distributed runtime)**: アクター・ラーナのトポロジ、アクタープール、リプレイのシャーディング。
2018年には1ライブラリが4軸すべてを抱え込んだ(自前のベースライン+Gym環境+自前のAtariラッパ+自前の分散)。2026年には4軸が明確に分離した。**Gymnasium**(環境API)+ **PufferLib**(環境互換シム)+ **RLlib/SB3/Tianshou**(アルゴリズム)+ **Ray/Slurm**(分散)という組み合わせが標準だ。
汎用RLライブラリ市場 — 二強+新興4社
アルゴリズムライブラリ市場は2026年5月時点で二強である。
- **RLlib(Anyscale, Ray上)**: 分散学習と本番採用で1位。PPO、IMPALA、APPO、DQN、SACに加えてMARLまで。Ray Tuneと統合したHPO。
- **Stable-Baselines3(SB3)**: 研究ベースラインの事実上の標準。PyTorchベース、可読性最優先、単一マシン学習に最適。
新興勢も地位を固めた。
- **TorchRL**(Meta PyTorchチーム): 2023年以降のモジュラーPyTorchネイティブRL。TensorDict抽象でマルチエージェント・オフライン・オンラインを単一APIで統一。
- **Tianshou**(清華大学): 高速性能+モジュラー設計。中国語・英語ドキュメント、学習安定性で頻繁に引用。
- **CleanRL**: アルゴリズム1つあたり1ファイル。研究再現性と教育で圧倒的。W&B実験追跡がデフォルト。
- **JAX系**: **JAXRL**、**RejaxRL**、DeepMind **Acme + Haiku/RLax**。コンパイル済み環境(Braxなど)と組み合わせるとスループットが他を圧倒する。
それぞれ役割が違う。本番 → RLlib、論文ベースライン → SB3、高速実験/論文再現 → CleanRL、PyTorchネイティブのマルチエージェント → TorchRL、学習安定性+性能 → Tianshou、TPU・JAX → Acme。
RLlib — Ray上で回す産業用RL
RLlibはAnyscaleがメンテするRayのサブモジュールだ。2026年5月時点で最大の強みは**分散学習がきちんと動くこと**である。軽量な単一マシン学習から1000以上のアクター分散まで、同じAPIで処理できる。
典型的なRLlibコード例:
from ray.rllib.algorithms.ppo import PPOConfig
ray.init()
config = (
PPOConfig()
.environment(env="CartPole-v1")
.framework("torch")
.training(gamma=0.99, lr=3e-4, train_batch_size=4000)
.rollouts(num_rollout_workers=8)
.resources(num_gpus=1)
)
algo = config.build()
for i in range(100):
result = algo.train()
print(f"iter={i} reward={result['episode_reward_mean']:.2f}")
algo.save(checkpoint_dir="/tmp/ppo_cartpole")
ray.shutdown()
RLlibはアルゴリズムの引き出しが最も豊富だ。PPO、IMPALA、APPO、DQN、Rainbow、SAC、DDPG、TD3、MARWIL、BC、CQL、MARL向けPettingZooラッパ、さらにRLHF向けRLlib Offlineまで。難点は**抽象が深い**こと — 最初の学習曲線は急である。
Stable-Baselines3 — 研究ベースラインの事実上の標準
SB3はDLR-RMチーム(ドイツ航空宇宙センター出身)がメンテするPyTorchベースのRLライブラリだ。使いやすさと可読性で頭一つ抜けている。新しいRL論文のベースライン数値の50%超はSB3で書かれている。
SB3のPPO学習は4行で完結する。
from stable_baselines3 import PPO
env = gym.make("LunarLander-v2")
model = PPO("MlpPolicy", env, verbose=1, learning_rate=3e-4, n_steps=2048)
model.learn(total_timesteps=1_000_000)
model.save("ppo_lunar")
SB3に公式で含まれるアルゴリズム:
- **オンポリシー**: PPO、A2C、TRPO(Contrib)。
- **オフポリシー**: DQN、DDPG、TD3、SAC、HER(ゴール条件付け)。
- **模倣/オフライン**: BC、GAIL、AIRLは別パッケージ**Imitation**にある。
SB3は単一マシン・中規模学習で最も推奨される。分散学習はRLlibかTorchRLの方が向いている。
Tianshou — 高速・モジュラー、学習安定性で頻繁に引用
Tianshouは清華大学RLグループ発のPyTorchベースRLライブラリだ。2020年から急成長し、2024-2026年にかけてNeurIPS/ICLR論文のベースライン引用が大幅に増えた。強みは**収束の速さと安定したハイパーパラメータ**である。
Tianshouの核となる抽象はCollector、Policy、Trainerに分かれる。
from tianshou.utils.net.common import Net
from tianshou.utils.net.discrete import Actor, Critic
env = gym.make("CartPole-v1")
state_shape = env.observation_space.shape or env.observation_space.n
action_shape = env.action_space.n
net = Net(state_shape, hidden_sizes=[64, 64])
actor = Actor(net, action_shape)
critic = Critic(net)
optim = torch.optim.Adam(set(actor.parameters()) | set(critic.parameters()), lr=3e-4)
policy = ts.policy.PPOPolicy(actor, critic, optim, dist_fn=torch.distributions.Categorical)
train_envs = ts.env.DummyVectorEnv([lambda: gym.make("CartPole-v1") for _ in range(8)])
buf = ts.data.VectorReplayBuffer(20000, 8)
collector = ts.data.Collector(policy, train_envs, buf)
collector.collect(n_step=4000)
Tianshouはアルゴリズム実装の正確さで真っ先に名前が挙がる。難点はSB3と比べてドキュメントが短いこと。
CleanRL — アルゴリズム1個=1ファイル、研究再現性の決定版
CleanRLはCosta Huang(Vector Institute、現Hugging Face)が始めたプロジェクトで、**アルゴリズム1つを1ファイルで完結**させる。PPOの実装は`ppo.py`1ファイルに全部が入り、抽象層がほぼない。可読性と再現性で圧倒的だ。
2026年5月時点でCleanRLが単一ファイルとして提供するアルゴリズム:
- **オンライン**: PPO(Atari、MuJoCo、Procgen、マルチエージェント、LSTM、連続/離散の11バリアント)、DQN、C51、SAC、TD3、DDPG、A2C。
- **オフライン**: CQL、IQL、AWAC、DT(Decision Transformer)。
- **研究用**: PPG、PPL、RLHFバリアント、単一ファイルのGRPO。
W&B連携が標準で組み込まれているので、実行すれば自動でメトリクスがクラウドに記録される。研究者が論文再現やベースライン作成のときに最初にクローンするレポの1つだ。
TorchRL — PyTorchを1級市民にしたモダンRL
TorchRLはMetaのPyTorchチームが直接作ったRLライブラリだ。2023年に安定化、2024-2026年で加速。PyTorchテンソルとTensorDict抽象が1級市民なので、PyTorch開発者には馴染みやすい。
TorchRLの核となる抽象:
- **TensorDict**: 観測・行動・報酬・マスク・隠れ状態などあらゆるデータを1つのコンテナに。
- **Environment Transforms**: torchvision Transform風の環境変換。
- **Replay Buffer**: 単一・優先付き・系列・オフラインまで単一APIで。
- **Loss Modules**: PPO、DQN、SAC、DDPG、IQL、CQLなど損失関数だけを単体で使える。
短いTorchRL例:
from torchrl.envs import GymEnv, TransformedEnv, ObservationNorm
from torchrl.modules import MLP, ProbabilisticActor
from torchrl.objectives import ClipPPOLoss
env = TransformedEnv(GymEnv("CartPole-v1"), ObservationNorm(in_keys=["observation"]))
actor_net = MLP(in_features=env.observation_spec["observation"].shape[-1], out_features=env.action_spec.shape[-1], num_cells=[64, 64])
actor = ProbabilisticActor(module=actor_net, in_keys=["observation"], out_keys=["action"])
loss_module = ClipPPOLoss(actor, critic_network=None, entropy_bonus=True)
optim = torch.optim.Adam(loss_module.parameters(), lr=3e-4)
TorchRLの強みは**マルチエージェント・オフライン・メタRLを単一APIで扱える**ことだ。難点は抽象が深く、APIがよく変わる点である。
PFRL — Preferred Networks発の日本生まれPyTorch RL
PFRLはPreferred Networks(PFN、東京)が作ったPyTorch RLライブラリだ。前身はChainerベースのChainerRLだった。2026年5月時点でICML/NeurIPSにおける日本チームのベースライン実行の多くを支えている。
PFRLの強みは**アルゴリズムの広さと検証済みの再現性**だ。Rainbow、IQN、R2D2、NoisyNetなどDQN系の派生が充実しており、Atari 50M学習までエンドツーエンドで検証されている。トレードオフはSB3より英語ドキュメントが浅いこと。
TF-Agents — GoogleのTensorFlow RLライブラリ
TF-AgentsはGoogleが作ったTFベースのRLライブラリだ。2026年5月でも活性ではあるがPyTorch優勢の中でシェアを減らした。一方、**Google内部+TPU学習**では今でも第1選択である。AlphaGo・AlphaStarのフォローアップ研究の一部と、Vertex AI PipelinesのRLコンポーネントはTF-Agentsの上に乗っている。
OpenSpiel — DeepMindのゲーム理論・マルチエージェント環境とアルゴリズム集
OpenSpielはDeepMindが公開した**ゲーム理論とマルチエージェントRLの標準ツール**だ。60超のゲーム(チェス、囲碁、ポーカー、ヘックス、Liar's Dice、Goofspiel、Hanabi、Catch the Catなど)と、PSRO、CFR、NFSP、MMDなどの均衡学習アルゴリズムが1パッケージにまとまっている。
game = pyspiel.load_game("tic_tac_toe")
state = game.new_initial_state()
while not state.is_terminal():
legal_actions = state.legal_actions()
action = legal_actions[0]
state.apply_action(action)
print(state.returns())
OpenSpielはマルチエージェントRL研究の標準環境の1つだ。カードゲーム(Hanabi)・戦略ゲーム(Catan)・オークション(Sealed-Bid Auction)・Liar's Diceまで単一APIで扱える。
Acme — DeepMindの研究者向けモジュラRLフレームワーク
AcmeはDeepMind研究チームが社内で使っていたRLフレームワークを公開したものだ。核となる抽象は**Actor + Learner + Replay**の明確な分離である。JAXとTFの双方をサポートする。
Acmeの強みは**分散学習トポロジ(R2D2、IMPALA、Ape-Xなど)をきれいに表現できる**ことだ。DeepMindのReverbリプレイサービスと組み合わせると、数千アクター分散学習が標準API呼び出しで可能になる。
同じDeepMindスタックの兄弟ライブラリ:
- **DM-Haiku**: JAX上のニューラルネットモジュール(現在はFlaxが優勢に移行中)。
- **RLax**: JAXベースのRL損失関数/ビルディングブロック。
- **Distrax**: JAXベースの分布ライブラリ(TFP代替)。
- **Reverb**: 分散リプレイバッファサービス。
Pearl — Metaの本番意思決定システム向けRLライブラリ
PearlはMeta(Applied Research, Production RL)が2023年末に公開したRLライブラリだ。正式名称はPEarl(Production-Ready Reinforcement Learning AI Library)。2026年5月時点で広告入札、コンテンツ推薦、通知タイミングといった**オンライン意思決定システム**に焦点を絞っている。
Pearlが強調するポイント:
- **コンテキスト付きバンディット(contextual bandit)とRLの単一API**: 報酬の一部しか観測できないケースに強い。
- **オフライン方策評価(OPE)**: 本番方策を実験せずに比較可能。
- **安全な探索(safe exploration)**: 探索中もビジネスKPIを保護。
- **大規模な学習と配信の分離**: 学習はPyTorch、配信は別ランタイム。
Meta内部では広告・推薦・通知システムの一部がPearl上で動いている。OSS公開版は同じ抽象を外部ユーザにも提供する。
Gymnasium — Farama Foundationが引き継いだ環境API標準
OpenAI Gymは2021年以降メンテが止まり、Farama Foundationが**Gymnasium**としてフォークし、事実上の標準になった。2026年5月時点で主要RLライブラリ(SB3、RLlib、Tianshou、CleanRL、TorchRL)はすべてGymnasium APIを第一に対応する。
GymとGymnasiumの差は小さいが本質的だ。
- `env.reset()` → `(obs, info)`タプルを返す。
- `env.step(action)` → `(obs, reward, terminated, truncated, info)`の5要素タプル。**terminated**(エピソード終了)と**truncated**(タイムアウト)を分離。
- 標準シード処理(`env.reset(seed=42)`)。
- `gym.vector`ベクトル化環境が標準化。
env = gym.make("CartPole-v1", render_mode="rgb_array")
obs, info = env.reset(seed=42)
for _ in range(1000):
action = env.action_space.sample()
obs, reward, terminated, truncated, info = env.step(action)
if terminated or truncated:
obs, info = env.reset()
env.close()
同じFarama傘下に**PettingZoo**(マルチエージェント)、**MiniGrid**(グリッドワールド)、**MiniWorld**(3Dミニ)、**Procgen**(手続き生成)、**Highway-env**(ミニ自動運転)が並ぶ。
PettingZoo + MARL — マルチエージェントRLの標準API
PettingZooはGymnasiumのマルチエージェント兄弟だ。AEC(Agent Environment Cycle)APIとParallel APIの両方をサポートする。RLlib、Tianshou、TorchRLのいずれもPettingZoo環境を1級で受け入れる。
PettingZooに含まれる環境カテゴリ:
- **Atari Multiplayer**: Pong、Boxingなど2P Atari。
- **Classic**: チェス、囲碁、カードゲーム。
- **Butterfly**: 追跡・回避ゲーム。
- **MPE(Multi-Particle Environments)**: 協調・競合の粒子シミュレーション(原典OpenAI)。
- **SISL**: マルチ追跡、多通信。
- **MAgent2**: 大規模(1000以上のエージェント)戦闘・協力環境。
サンプルコード:
from pettingzoo.classic import chess_v6
env = chess_v6.env(render_mode="human")
env.reset(seed=42)
for agent in env.agent_iter():
obs, reward, term, trunc, info = env.last()
action = None if term or trunc else env.action_space(agent).sample()
env.step(action)
env.close()
マルチエージェントRLアルゴリズムはMAPPO、IPPO、QMIX、MADDPG、COMAなどがあり、**RLlib MARL**、**MARLlib**、**EPyMARL**といったライブラリがPettingZoo環境の上で動く。
Atari・MuJoCo・DeepMind Control Suite — クラシックベンチマークの現在
RLの標準ベンチマークは今も健在だ。
- **Atari Learning Environment(ALE)**: 50超のAtariゲーム。DQN時代からの標準。2024年ALE 0.10でGymnasium統合。
- **MuJoCo**: DeepMindが2022年に買収後オープンソース化。**MuJoCo 3.x**でGPU加速(MJX)が追加。
- **DeepMind Control Suite(dm_control)**: MuJoCoベースの連続制御ベンチ。Walker、Cheetah、Humanoid、Quadrupedなど。
MuJoCo 3は2024年以降**MJX**というJAXバックエンドを提供する。同じモデルをGPUで数千並列に回せるので、sim-to-real研究で頻繁に引用される。
env = gym.make("HalfCheetah-v5")
obs, info = env.reset(seed=0)
for _ in range(200):
obs, r, term, trunc, info = env.step(env.action_space.sample())
同カテゴリに**PyBullet**(オープンソース物理エンジン、MuJoCo代替)、**Gazebo**(ROSと統合されたロボティクスシミュレータ)もある。
Brax — JAXベースの微分可能物理シミュレータ
BraxはGoogleが作ったJAXベースの物理シミュレータだ。微分可能物理+GPU並列+JITコンパイルなので、RLスループットがMuJoCo CPUベースの100-1000倍になるケースがある。
Braxの環境はMuJoCo環境互換で書かれており、Ant、HalfCheetah、Humanoid、Walker2d、Hopper、Pusher、Reacherなどが同じ名前で提供される。
from brax.training.agents.ppo import train as ppo
env = brax.envs.create(env_name="ant", backend="positional")
make_inference_fn, params, _ = ppo.train(
environment=env,
num_timesteps=50_000_000,
num_evals=10,
reward_scaling=10,
episode_length=1000,
normalize_observations=True,
action_repeat=1,
unroll_length=5,
num_minibatches=32,
num_updates_per_batch=4,
discounting=0.97,
learning_rate=3e-4,
entropy_cost=1e-2,
num_envs=4096,
batch_size=2048,
seed=0,
)
`num_envs=4096`のように一度に数千環境をGPUで回すのが要点だ。Brax + Acme + RLaxの組み合わせは単一GPUで1Bステップ以上の学習を1日以内に終えられる。
NVIDIA Isaac Lab + Cosmos — ロボティクスsim-to-realの産業標準
NVIDIAは2023-2024年にIsaacGymから**Isaac Lab**へ移行した。2026年5月時点でIsaac Lab(旧OmniIsaac/IsaacGymEnvsを吸収)がロボティクスRLシミュレーションの産業標準だ。**Cosmos**(iter69)はsim-to-real向けの生成的世界モデルを別途提供する。
Isaac Labの特徴:
- **すべての段階がGPU上で処理**: 物理シミュ、観測合成、報酬計算までGPU。
- **数千〜数万の並列環境**: 単一のA100/H100で4096のロボット方策を同時学習。
- **NVIDIA Omniverse + USD標準**: アセットを標準USDで共有。
- **ドメインランダム化を標準搭載**: sim-to-real向けのノイズ・物性変動を自動化。
Boston Dynamics、Agility Robotics、Figure AI、1Xといったヒューマノイド企業の多くが、RL方策学習の標準としてIsaac Labを採用していると公表している。Isaac Lab + RL標準アルゴリズムにはRSL-RL(ETHチューリッヒ)とStable-Baselines3、あるいは自社PPO実装の組み合わせが多い。
VizDoom・MineRL・MineDojo・Crafter・NetHack — 手続き的環境の復活
2024-2026年に手続き的・オープンワールドのRLベンチが再注目された。
- **VizDoom**: Doom 1上のFPS環境。2024 NeurIPS Open-Ended Learningで再登場。
- **MineRL + MineDojo**: Minecraftベース。MineDojo(NVIDIA)はインターネット動画データセット+タスク仕様+環境をまとめて提供。
- **Crafter**: 22の業績を持つミニMinecraft。単一GPUで素早く評価可能。
- **NetHack Learning Environment(NLE)**: MetaのNetHackローグライク。手続き的ダンジョン+巨大な行動空間で、LLMエージェントのベンチによく登場する。
env = minerl.make("MineRLObtainDiamond-v0")
obs = env.reset()
done = False
while not done:
action = env.action_space.sample()
obs, r, done, info = env.step(action)
これらの環境は**LLMベースエージェントの評価**にも頻繁に使われる。Voyager(NVIDIA、GPT-4のMinecraftエージェント)、DEPS、JARVIS-1はすべてMineDojo上にある。
MetaWorld・RoboCasa・LIBERO — ロボティクスのタスク集
ロボティクスRLは単一シミュレータではなく、**タスク集+シミュレータ**の組み合わせで評価される。
- **MetaWorld**: 50のロボット操作タスク標準ベンチ。単一方策で50タスクをメタ学習する評価がカノニカル。
- **RoboCasa**: 100以上のキッチンタスク、写実的レンダリング。NVIDIA + Stanford。
- **LIBERO**: 生涯学習(lifelong)操作ベンチ。時間に応じてタスク分布が変動する評価。
- **Habitat 3.0(Meta)**: 人とロボットの協調評価。ヒューマノイドシミュ統合。
MetaWorldの使い方:
mt10 = metaworld.MT10()
training_envs = []
for name, env_cls in mt10.train_classes.items():
env = env_cls()
task = random.choice([t for t in mt10.train_tasks if t.env_name == name])
env.set_task(task)
training_envs.append(env)
PufferLib — 環境互換レイヤとスループットブースト
PufferLibは環境APIの統一とGPUベクトル化を一度に解決するライブラリだ。2024年以降急成長中。核となる主張は**CPU環境をそのままに、単一GPUホストから100〜1000の環境を最大スループットで回す**こと。
PufferLibは次を1ヶ所で処理する。
- **環境アダプタ**: Gym/Gymnasium/PettingZoo/NetHack/MineRL/Crafter/Atari/Procgen/NLEなどを単一インターフェイスに。
- **ベクトル化**: 共有メモリ+マルチプロセスベースの高速ベクトル環境。
- **ネイティブPufferLib環境**: NMMO、Pong、その他高速なC環境。
env_creator = lambda: pufferlib.emulation.GymnasiumPufferEnv("CartPole-v1")
vecenv = pufferlib.vectorization.Multiprocessing(env_creator, num_envs=64)
obs = vecenv.reset()
PufferLib + CleanRL、あるいはPufferLib + RLlibの組み合わせで学習速度が2-10倍になる事例は珍しくない。
LLM + RL — PPOからGRPOへ、TRLと学習インフラ
2024年末、DeepSeek-R1がPPOの派生**GRPO(Group Relative Policy Optimization)**で学習されて公開され、以後LLM推論モデルの学習はGRPO派生が標準になった。
PPOとGRPOの違いを短く整理する。
- **PPO**: 方策+価値関数(critic)の2ネットワーク。criticがbaselineを推定する。
- **GRPO**: criticなし。同じpromptに対してグループ単位(複数応答)で報酬を正規化してアドバンテージを推定。メモリ/計算を節約。
| 比較項目 | PPO | GRPO |
| ---------------- | ------------------------ | ----------------------------- |
| critic | 必要 | 不要 |
| アドバンテージ | GAE + 価値関数ベースライン | グループ内報酬の正規化 |
| メモリ | actor + critic | actorのみ |
| 安定性 | 既知の安定領域 | グループサイズgが鍵 |
| LLM適合 | 標準だがcriticが重い | 推論用LLM RLの事実上の標準 |
**TRL(Hugging Face Transformers Reinforcement Learning)**はLLM学習用RLライブラリだ(iter62のLLMファインチューニングで取り上げた)。2026年5月時点でPPO、DPO、GRPO、KTO、ORPO、報酬モデル学習をすべてサポートする。
from trl import GRPOTrainer, GRPOConfig
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "meta-llama/Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
config = GRPOConfig(
learning_rate=1e-6,
num_generations=8,
max_prompt_length=512,
max_completion_length=1024,
beta=0.04,
)
trainer = GRPOTrainer(
model=model,
args=config,
reward_funcs=[lambda completions, **kw: [len(c) for c in completions]],
train_dataset=...,
processing_class=tokenizer,
)
trainer.train()
LLM RLは古典RLとインフラの形が違う。**vLLMもしくはSGLang**でロールアウト生成、**DeepSpeed/FSDP**で学習、**TRL/OpenRLHF/verl**といったフレームワークでアルゴリズム実装、というスタックだ。学習クラスタは16-128 GPU規模が普通である。
アルゴリズム地形 2026 — PPOは依然として王、隣に新顔
2026年5月時点のアルゴリズム別の地位は次の通り。
- **PPO**: 依然としてRLアルゴリズム1位。単純さ、安定性、広い環境互換性。新規実験の最初のベースライン。
- **GRPO**: LLM推論学習の事実上の標準。PPO代替として一般RLにも徐々に拡散。
- **SAC**: 連続制御(MuJoCo、ロボット)の標準。エントロピー正則化+ダブルcritic。
- **TD3**: SACの代替。ツインcritic+遅延方策更新。
- **DQN系**: Rainbow(C51 + Double + Dueling + Noisy + Prioritized + Multi-step + Distributional)が今も強力。**IQN、QR-DQN**が分布型RLの標準。
- **Decision Transformer(DT)**: RLを系列モデリングとして再構成。オフラインRLとLLMとの整合が良く、2023-2025年の研究多数。
- **Diffusion Policy**: ロボット操作でのBC+拡散。Toyota Research、Stanford、NVIDIAが牽引。
- **MuZero / EfficientZero / Stochastic MuZero**: モデルベースRLの最強格。AlphaGo・AlphaZeroの後継。
- **AlphaTensor / AlphaCode / AlphaProof**: DeepMindのドメイン特化RL応用。
- **Q-Transformer**: DeepMind RT-X。トランスフォーマ+Q-learningをロボット学習に結合。
ベンチマーク地形 — MuJoCo / Atari / DM Control / NetHack / Crafter
アルゴリズム比較の標準ベンチマーク:
- **Atari 100k**: 100k環境ステップ以内のAtari 26ゲーム平均スコア。データ効率的RLの標準。
- **MuJoCo Locomotion**: HalfCheetah、Walker、Ant、Humanoidなど連続制御スコア。
- **DeepMind Control Suite**: 28以上のタスク平均スコア。ピクセル入力と状態入力を分けて報告。
- **MineRL Diamond**: ダイヤモンド採掘成功率。非常に長期のタスク。
- **NetHack Challenge**: NetHackスコア。巨大な行動空間と手続き的ダンジョン。
- **BabyAI**: 自然言語命令ベースのグリッドワールド。言語+RLの評価。
- **Crafter**: 22業績評価。単一GPUで素早く。
- **Procgen**: 16の手続き的ゲーム。汎化(generalization)評価の標準。
韓国のRL研究 — KAIST、SNU、NCSOFT、Krafton、NAVER
韓国のRL研究は2020年代に入って急増した。主要グループ:
- **KAIST AI大学院**: Yang Eunho、Lee Juho、Hwang Sungju教授グループなどがメタRL、オフラインRL、モデルベースRLでNeurIPS・ICLR・ICMLに多数発表。
- **ソウル大AI研究院**: Kim Gunhee、Zhang Byoung-Tak教授グループがマルチエージェント、言語-RL結合の研究。
- **POSTECH AI**: Ahn Sungsoo、Lee Seunghyunグループが安定性/理論的RL。
- **NCSOFT AI Center**: Lineage、Blade & SoulのRLボスAI。ゲームRLの産業適用事例。
- **Krafton AI**: PUBGのボット、NPC AI。2024-2025年のICLR/NeurIPSワークショップで発表。
- **NAVER Search Engineering**: 検索ランキングRL、広告入札RL。
- **Kakao Enterprise AI**: 推薦RL。
韓国のRLは**ゲームRLと意思決定システムRL**で産業適用が強く、**理論・メタRL**で学界発表が活発だ。
日本のRL研究 — Preferred Networks、DeepMind Tokyo、Sony AI、NTT
日本のRL研究はゲーム・ロボティクス・産業応用に強みがある。
- **Preferred Networks(PFN)**: Chainer時代からRLに貢献。PFRL OSSをメンテ。トヨタ・ファナックとロボティクス協業。
- **DeepMind Tokyo**: DeepMindの東京オフィス。日本の学界との協業が多い。
- **Sony AI**: **Gran Turismo Sophy** — Gran Turismo 7のRLレーシングエージェント。2022年Nature表紙。2026年にシリーズ統合段階。
- **NTT CS研究所**: 通信・ネットワークRL。SDNルーティング・電力グリッド。
- **理研AIP**: メタ学習・連続学習。
- **OMRON SINIC X**: ロボット操作。
Gran Turismo Sophyのような事例は**シミュレータの精度+比較可能な人間ベースライン**が揃った稀な例だ。産業RLの可能性を示した最も視認性の高いケースの1つである。
実世界の本番事例 — AlphaGoからAlphaChip、Boston Dynamicsまで
RLが実際に本番投入された事例を整理する。
- **AlphaGo → AlphaZero → MuZero**(DeepMind): 囲碁・チェス・将棋・Atari。モデルベースRLの出発点。
- **AlphaStar**(DeepMind): StarCraft IIグランドマスター級。人間ゲーマと同等。
- **OpenAI Five**: Dota 2世界チャンピオンとの対戦。分散RLインフラの最初の巨大事例。
- **AlphaFold 2**(DeepMind、RL比重は低めだがpost-processingで使用)。
- **AlphaTensor**(DeepMind、2022): 行列乗算アルゴリズム発見にRL使用。
- **AlphaChip**(DeepMind、2024、旧Chip Placement): TPUフロアプランRL。**iter96**で取り上げ。
- **Gran Turismo Sophy**(Sony AI、2022 Nature): RLレーシング。
- **Boston Dynamics + RLファインチューニング**: Atlas / SpotのモーションRL最適化。
- **NVIDIA Eureka**(2023): GPT-4がRL報酬関数を書き、Isaac Gymで学習。
- **DeepMind Loon balloon control(高度制御)**: 成層圏バルーンのRL自動航法。
- **Amazon SageMaker RL、Microsoft Bonsai、Vertex AI Vizier**: 産業応用のマネージドRL。
OpenAI Spinning Upと教育リソース
これから学び始める人向けの中核リソース:
- **OpenAI Spinning Up**: 教育向けRLライブラリ。PPO、SAC、TD3、DDPG、VPGの素直な実装+理論ノート。2018年公開で今でも学生のスタート地点。
- **CleanRL単一ファイル**: 前述。
- **Hugging Face Deep RL Course**: 8ユニット、無料。SB3 + Unity ML-Agents + Gymnasium。
- **DeepMind x UCL RL Course(David Silver)**: 古典。理論基礎。
- **Sergey Levine CS 285(UC Berkeley)**: 最近最も影響力のあるRL講義。
- **Pieter Abbeel CS 287(Berkeley)**: ロボティクスRL。
学習順序は通常、**Spinning Upのコードを読む → CleanRLのppo.pyを一行ずつ → SB3 / Tianshouでアルゴリズム実験 → RLlib / TorchRLで分散・マルチエージェントへ拡張**が自然だ。
ツール選択ガイド — シナリオ別の推奨
最後にシナリオ別の推奨をまとめる。
- **一人で素早くベースライン → SB3**(LunarLander、MuJoCo単一マシン)。
- **再現性/論文執筆 → CleanRL**(単一ファイル+W&B)。
- **学習安定性+モジュール拡張 → Tianshou**または**TorchRL**。
- **数千アクター分散 → RLlib**(Ray)。
- **TPU/JAX/Brax → Acme + RLax + Haiku**(またはFlax)。
- **ロボティクスsim-to-real → Isaac Lab + RSL-RL/SB3**または自社PPO。
- **マルチエージェント → PettingZoo + RLlib MARL**または**MARLlib**、**EPyMARL**。
- **ゲーム理論 → OpenSpiel**。
- **広告/推薦の意思決定 → Pearl**または自社のコンテキスト付きバンディット。
- **LLM RL → TRL + vLLM / SGLang**、アルゴリズムはGRPOまたはDPO。
ツールを決めるとき最も重要な問いは**「環境スループットがどこで詰まるか」**だ。CPU環境ならSB3 / Tianshouで十分。GPUシミュレーションならIsaac Lab / Brax。分散が必要ならRLlib / Acme。LLMはTRL。
おわりに — 2026年5月、RLは単一ツールではなく「スタック」だ
本稿の結論は単純だ。RLは単一ツールの時代ではない。**環境+ライブラリ+シミュレータ+分散ランタイム**のスタックをドメインに合わせて組み立てる必要がある。
最も大きな流れを2つに整理する。第一に、**LLM-RLとクラシックRLの分岐**。LLM-RLはTRL + vLLM + GRPO/DPOで独自領域になった。クラシックRLはSB3/RLlib/Tianshou + Gymnasium + シミュレータで続く。第二に、**ロボティクスRLが本当に商用段階に入った**。Isaac Lab + Cosmos + Diffusion Policy + Q-Transformerの組み合わせが、複数のヒューマノイド・マニピュレータ企業の標準スタックになっている。
ツール選択に時間をかけすぎないこと。どの組み合わせでも**「環境インターフェイスの一貫性+分散ランタイムの安定性+実験追跡」**の3つさえ押さえれば90%は解決する。残りはドメイン特化のチューニングだ。
References
- Stable-Baselines3 公式ドキュメント: https://stable-baselines3.readthedocs.io/
- RLlib 公式ドキュメント(Ray): https://docs.ray.io/en/latest/rllib/index.html
- Tianshou 公式ドキュメント: https://tianshou.readthedocs.io/
- CleanRL 公式ドキュメント: https://docs.cleanrl.dev/
- TorchRL 公式ドキュメント: https://pytorch.org/rl/
- PFRL GitHub: https://github.com/pfnet/pfrl
- TF-Agents 公式ドキュメント: https://www.tensorflow.org/agents
- DeepMind Acme GitHub: https://github.com/google-deepmind/acme
- DeepMind OpenSpiel GitHub: https://github.com/google-deepmind/open_spiel
- DeepMind Haiku GitHub: https://github.com/google-deepmind/dm-haiku
- DeepMind RLax GitHub: https://github.com/google-deepmind/rlax
- DeepMind Distrax GitHub: https://github.com/google-deepmind/distrax
- DeepMind Reverb GitHub: https://github.com/google-deepmind/reverb
- Meta Pearl GitHub: https://github.com/facebookresearch/Pearl
- Gymnasium(Farama)公式ドキュメント: https://gymnasium.farama.org/
- PettingZoo(Farama)公式ドキュメント: https://pettingzoo.farama.org/
- MuJoCo 公式ドキュメント: https://mujoco.readthedocs.io/
- DeepMind Control Suite GitHub: https://github.com/google-deepmind/dm_control
- Brax GitHub: https://github.com/google/brax
- NVIDIA Isaac Lab 公式ドキュメント: https://isaac-sim.github.io/IsaacLab/
- MineDojo GitHub: https://github.com/MineDojo/MineDojo
- NetHack Learning Environment GitHub: https://github.com/facebookresearch/nle
- MetaWorld GitHub: https://github.com/Farama-Foundation/Metaworld
- PufferLib 公式ドキュメント: https://puffer.ai/docs.html
- Hugging Face TRL 公式ドキュメント: https://huggingface.co/docs/trl/
- OpenAI Spinning Up: https://spinningup.openai.com/
- DeepSeek-R1 論文(GRPO): https://arxiv.org/abs/2501.12948
- Sony AI Gran Turismo Sophy: https://www.gran-turismo.com/world/news/00_3552770.html
- Preferred Networks Research: https://tech.preferred.jp/en/research/
현재 단락 (1/354)
2018-2020年のAlphaStar、OpenAI Five、AlphaFold 1時代がRLの第一の黄金期だとすれば、2024-2026年は第二の黄金期である。トリガーは3つだ。第一に、**De...