Skip to content

필사 모드: モダン強化学習エコシステム 2026 完全ガイド - RLlib (Anyscale) · Stable-Baselines3 · Tianshou · CleanRL · OpenSpiel (DeepMind) · Gymnasium (Farama) · Acme · PufferLib · Pearl (Meta) · TorchRL 徹底解説

日本語
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

はじめに — 2026年5月、強化学習は「第二の黄金期」に入った

2018-2020年のAlphaStar、OpenAI Five、AlphaFold 1時代がRLの第一の黄金期だとすれば、2024-2026年は第二の黄金期である。トリガーは3つだ。第一に、**DeepSeek-R1のGRPOとOpenAI o1/o3系のTest-Time Compute**によって、LLM推論にRLが再び中心ツールとして戻ってきた。第二に、**NVIDIA GR00T・Isaac Lab・Cosmos**(iter69で取り上げた)によってロボティクスのシミュレーションとsim-to-realが商用段階に入った。第三に、**Wayve GAIA-2**(iter97)や**Tesla FSD v13**のように、自動運転がRLベースの評価・方策学習へと再び統合されつつある。

本稿はマーケティングカタログではない。2026年5月時点でRLの本番運用と研究で実際に使われているライブラリ・環境・アルゴリズム・評価ベンチを整理する。コード例はすべて現在のAPIに準拠する。RLlib、Stable-Baselines3、Tianshou、CleanRL、TorchRL、OpenSpiel、Acme、Pearl、PufferLib、Gymnasium、PettingZoo、MuJoCo、Brax、Isaac Labを1本で比較する。

RL 2026の地形図 — 4つの軸に分解する

まず大きな絵から。2026年のRLエコシステムは次の4軸に分解できる。

1. **アルゴリズムライブラリ(library)**: 方策・価値関数、トレーナ、リプレイバッファの実装。

2. **環境標準(environment API)**: 状態・行動・報酬をライブラリに公開する抽象。

3. **シミュレータ(simulator)**: 物理、ゲーム、ロボット、都市、自動運転のドメインシミュレーション。

4. **分散ランタイム(distributed runtime)**: アクター・ラーナのトポロジ、アクタープール、リプレイのシャーディング。

2018年には1ライブラリが4軸すべてを抱え込んだ(自前のベースライン+Gym環境+自前のAtariラッパ+自前の分散)。2026年には4軸が明確に分離した。**Gymnasium**(環境API)+ **PufferLib**(環境互換シム)+ **RLlib/SB3/Tianshou**(アルゴリズム)+ **Ray/Slurm**(分散)という組み合わせが標準だ。

汎用RLライブラリ市場 — 二強+新興4社

アルゴリズムライブラリ市場は2026年5月時点で二強である。

- **RLlib(Anyscale, Ray上)**: 分散学習と本番採用で1位。PPO、IMPALA、APPO、DQN、SACに加えてMARLまで。Ray Tuneと統合したHPO。

- **Stable-Baselines3(SB3)**: 研究ベースラインの事実上の標準。PyTorchベース、可読性最優先、単一マシン学習に最適。

新興勢も地位を固めた。

- **TorchRL**(Meta PyTorchチーム): 2023年以降のモジュラーPyTorchネイティブRL。TensorDict抽象でマルチエージェント・オフライン・オンラインを単一APIで統一。

- **Tianshou**(清華大学): 高速性能+モジュラー設計。中国語・英語ドキュメント、学習安定性で頻繁に引用。

- **CleanRL**: アルゴリズム1つあたり1ファイル。研究再現性と教育で圧倒的。W&B実験追跡がデフォルト。

- **JAX系**: **JAXRL**、**RejaxRL**、DeepMind **Acme + Haiku/RLax**。コンパイル済み環境(Braxなど)と組み合わせるとスループットが他を圧倒する。

それぞれ役割が違う。本番 → RLlib、論文ベースライン → SB3、高速実験/論文再現 → CleanRL、PyTorchネイティブのマルチエージェント → TorchRL、学習安定性+性能 → Tianshou、TPU・JAX → Acme。

RLlib — Ray上で回す産業用RL

RLlibはAnyscaleがメンテするRayのサブモジュールだ。2026年5月時点で最大の強みは**分散学習がきちんと動くこと**である。軽量な単一マシン学習から1000以上のアクター分散まで、同じAPIで処理できる。

典型的なRLlibコード例:

from ray.rllib.algorithms.ppo import PPOConfig

ray.init()

config = (

PPOConfig()

.environment(env="CartPole-v1")

.framework("torch")

.training(gamma=0.99, lr=3e-4, train_batch_size=4000)

.rollouts(num_rollout_workers=8)

.resources(num_gpus=1)

)

algo = config.build()

for i in range(100):

result = algo.train()

print(f"iter={i} reward={result['episode_reward_mean']:.2f}")

algo.save(checkpoint_dir="/tmp/ppo_cartpole")

ray.shutdown()

RLlibはアルゴリズムの引き出しが最も豊富だ。PPO、IMPALA、APPO、DQN、Rainbow、SAC、DDPG、TD3、MARWIL、BC、CQL、MARL向けPettingZooラッパ、さらにRLHF向けRLlib Offlineまで。難点は**抽象が深い**こと — 最初の学習曲線は急である。

Stable-Baselines3 — 研究ベースラインの事実上の標準

SB3はDLR-RMチーム(ドイツ航空宇宙センター出身)がメンテするPyTorchベースのRLライブラリだ。使いやすさと可読性で頭一つ抜けている。新しいRL論文のベースライン数値の50%超はSB3で書かれている。

SB3のPPO学習は4行で完結する。

from stable_baselines3 import PPO

env = gym.make("LunarLander-v2")

model = PPO("MlpPolicy", env, verbose=1, learning_rate=3e-4, n_steps=2048)

model.learn(total_timesteps=1_000_000)

model.save("ppo_lunar")

SB3に公式で含まれるアルゴリズム:

- **オンポリシー**: PPO、A2C、TRPO(Contrib)。

- **オフポリシー**: DQN、DDPG、TD3、SAC、HER(ゴール条件付け)。

- **模倣/オフライン**: BC、GAIL、AIRLは別パッケージ**Imitation**にある。

SB3は単一マシン・中規模学習で最も推奨される。分散学習はRLlibかTorchRLの方が向いている。

Tianshou — 高速・モジュラー、学習安定性で頻繁に引用

Tianshouは清華大学RLグループ発のPyTorchベースRLライブラリだ。2020年から急成長し、2024-2026年にかけてNeurIPS/ICLR論文のベースライン引用が大幅に増えた。強みは**収束の速さと安定したハイパーパラメータ**である。

Tianshouの核となる抽象はCollector、Policy、Trainerに分かれる。

from tianshou.utils.net.common import Net

from tianshou.utils.net.discrete import Actor, Critic

env = gym.make("CartPole-v1")

state_shape = env.observation_space.shape or env.observation_space.n

action_shape = env.action_space.n

net = Net(state_shape, hidden_sizes=[64, 64])

actor = Actor(net, action_shape)

critic = Critic(net)

optim = torch.optim.Adam(set(actor.parameters()) | set(critic.parameters()), lr=3e-4)

policy = ts.policy.PPOPolicy(actor, critic, optim, dist_fn=torch.distributions.Categorical)

train_envs = ts.env.DummyVectorEnv([lambda: gym.make("CartPole-v1") for _ in range(8)])

buf = ts.data.VectorReplayBuffer(20000, 8)

collector = ts.data.Collector(policy, train_envs, buf)

collector.collect(n_step=4000)

Tianshouはアルゴリズム実装の正確さで真っ先に名前が挙がる。難点はSB3と比べてドキュメントが短いこと。

CleanRL — アルゴリズム1個=1ファイル、研究再現性の決定版

CleanRLはCosta Huang(Vector Institute、現Hugging Face)が始めたプロジェクトで、**アルゴリズム1つを1ファイルで完結**させる。PPOの実装は`ppo.py`1ファイルに全部が入り、抽象層がほぼない。可読性と再現性で圧倒的だ。

2026年5月時点でCleanRLが単一ファイルとして提供するアルゴリズム:

- **オンライン**: PPO(Atari、MuJoCo、Procgen、マルチエージェント、LSTM、連続/離散の11バリアント)、DQN、C51、SAC、TD3、DDPG、A2C。

- **オフライン**: CQL、IQL、AWAC、DT(Decision Transformer)。

- **研究用**: PPG、PPL、RLHFバリアント、単一ファイルのGRPO。

W&B連携が標準で組み込まれているので、実行すれば自動でメトリクスがクラウドに記録される。研究者が論文再現やベースライン作成のときに最初にクローンするレポの1つだ。

TorchRL — PyTorchを1級市民にしたモダンRL

TorchRLはMetaのPyTorchチームが直接作ったRLライブラリだ。2023年に安定化、2024-2026年で加速。PyTorchテンソルとTensorDict抽象が1級市民なので、PyTorch開発者には馴染みやすい。

TorchRLの核となる抽象:

- **TensorDict**: 観測・行動・報酬・マスク・隠れ状態などあらゆるデータを1つのコンテナに。

- **Environment Transforms**: torchvision Transform風の環境変換。

- **Replay Buffer**: 単一・優先付き・系列・オフラインまで単一APIで。

- **Loss Modules**: PPO、DQN、SAC、DDPG、IQL、CQLなど損失関数だけを単体で使える。

短いTorchRL例:

from torchrl.envs import GymEnv, TransformedEnv, ObservationNorm

from torchrl.modules import MLP, ProbabilisticActor

from torchrl.objectives import ClipPPOLoss

env = TransformedEnv(GymEnv("CartPole-v1"), ObservationNorm(in_keys=["observation"]))

actor_net = MLP(in_features=env.observation_spec["observation"].shape[-1], out_features=env.action_spec.shape[-1], num_cells=[64, 64])

actor = ProbabilisticActor(module=actor_net, in_keys=["observation"], out_keys=["action"])

loss_module = ClipPPOLoss(actor, critic_network=None, entropy_bonus=True)

optim = torch.optim.Adam(loss_module.parameters(), lr=3e-4)

TorchRLの強みは**マルチエージェント・オフライン・メタRLを単一APIで扱える**ことだ。難点は抽象が深く、APIがよく変わる点である。

PFRL — Preferred Networks発の日本生まれPyTorch RL

PFRLはPreferred Networks(PFN、東京)が作ったPyTorch RLライブラリだ。前身はChainerベースのChainerRLだった。2026年5月時点でICML/NeurIPSにおける日本チームのベースライン実行の多くを支えている。

PFRLの強みは**アルゴリズムの広さと検証済みの再現性**だ。Rainbow、IQN、R2D2、NoisyNetなどDQN系の派生が充実しており、Atari 50M学習までエンドツーエンドで検証されている。トレードオフはSB3より英語ドキュメントが浅いこと。

TF-Agents — GoogleのTensorFlow RLライブラリ

TF-AgentsはGoogleが作ったTFベースのRLライブラリだ。2026年5月でも活性ではあるがPyTorch優勢の中でシェアを減らした。一方、**Google内部+TPU学習**では今でも第1選択である。AlphaGo・AlphaStarのフォローアップ研究の一部と、Vertex AI PipelinesのRLコンポーネントはTF-Agentsの上に乗っている。

OpenSpiel — DeepMindのゲーム理論・マルチエージェント環境とアルゴリズム集

OpenSpielはDeepMindが公開した**ゲーム理論とマルチエージェントRLの標準ツール**だ。60超のゲーム(チェス、囲碁、ポーカー、ヘックス、Liar's Dice、Goofspiel、Hanabi、Catch the Catなど)と、PSRO、CFR、NFSP、MMDなどの均衡学習アルゴリズムが1パッケージにまとまっている。

game = pyspiel.load_game("tic_tac_toe")

state = game.new_initial_state()

while not state.is_terminal():

legal_actions = state.legal_actions()

action = legal_actions[0]

state.apply_action(action)

print(state.returns())

OpenSpielはマルチエージェントRL研究の標準環境の1つだ。カードゲーム(Hanabi)・戦略ゲーム(Catan)・オークション(Sealed-Bid Auction)・Liar's Diceまで単一APIで扱える。

Acme — DeepMindの研究者向けモジュラRLフレームワーク

AcmeはDeepMind研究チームが社内で使っていたRLフレームワークを公開したものだ。核となる抽象は**Actor + Learner + Replay**の明確な分離である。JAXとTFの双方をサポートする。

Acmeの強みは**分散学習トポロジ(R2D2、IMPALA、Ape-Xなど)をきれいに表現できる**ことだ。DeepMindのReverbリプレイサービスと組み合わせると、数千アクター分散学習が標準API呼び出しで可能になる。

同じDeepMindスタックの兄弟ライブラリ:

- **DM-Haiku**: JAX上のニューラルネットモジュール(現在はFlaxが優勢に移行中)。

- **RLax**: JAXベースのRL損失関数/ビルディングブロック。

- **Distrax**: JAXベースの分布ライブラリ(TFP代替)。

- **Reverb**: 分散リプレイバッファサービス。

Pearl — Metaの本番意思決定システム向けRLライブラリ

PearlはMeta(Applied Research, Production RL)が2023年末に公開したRLライブラリだ。正式名称はPEarl(Production-Ready Reinforcement Learning AI Library)。2026年5月時点で広告入札、コンテンツ推薦、通知タイミングといった**オンライン意思決定システム**に焦点を絞っている。

Pearlが強調するポイント:

- **コンテキスト付きバンディット(contextual bandit)とRLの単一API**: 報酬の一部しか観測できないケースに強い。

- **オフライン方策評価(OPE)**: 本番方策を実験せずに比較可能。

- **安全な探索(safe exploration)**: 探索中もビジネスKPIを保護。

- **大規模な学習と配信の分離**: 学習はPyTorch、配信は別ランタイム。

Meta内部では広告・推薦・通知システムの一部がPearl上で動いている。OSS公開版は同じ抽象を外部ユーザにも提供する。

Gymnasium — Farama Foundationが引き継いだ環境API標準

OpenAI Gymは2021年以降メンテが止まり、Farama Foundationが**Gymnasium**としてフォークし、事実上の標準になった。2026年5月時点で主要RLライブラリ(SB3、RLlib、Tianshou、CleanRL、TorchRL)はすべてGymnasium APIを第一に対応する。

GymとGymnasiumの差は小さいが本質的だ。

- `env.reset()` → `(obs, info)`タプルを返す。

- `env.step(action)` → `(obs, reward, terminated, truncated, info)`の5要素タプル。**terminated**(エピソード終了)と**truncated**(タイムアウト)を分離。

- 標準シード処理(`env.reset(seed=42)`)。

- `gym.vector`ベクトル化環境が標準化。

env = gym.make("CartPole-v1", render_mode="rgb_array")

obs, info = env.reset(seed=42)

for _ in range(1000):

action = env.action_space.sample()

obs, reward, terminated, truncated, info = env.step(action)

if terminated or truncated:

obs, info = env.reset()

env.close()

同じFarama傘下に**PettingZoo**(マルチエージェント)、**MiniGrid**(グリッドワールド)、**MiniWorld**(3Dミニ)、**Procgen**(手続き生成)、**Highway-env**(ミニ自動運転)が並ぶ。

PettingZoo + MARL — マルチエージェントRLの標準API

PettingZooはGymnasiumのマルチエージェント兄弟だ。AEC(Agent Environment Cycle)APIとParallel APIの両方をサポートする。RLlib、Tianshou、TorchRLのいずれもPettingZoo環境を1級で受け入れる。

PettingZooに含まれる環境カテゴリ:

- **Atari Multiplayer**: Pong、Boxingなど2P Atari。

- **Classic**: チェス、囲碁、カードゲーム。

- **Butterfly**: 追跡・回避ゲーム。

- **MPE(Multi-Particle Environments)**: 協調・競合の粒子シミュレーション(原典OpenAI)。

- **SISL**: マルチ追跡、多通信。

- **MAgent2**: 大規模(1000以上のエージェント)戦闘・協力環境。

サンプルコード:

from pettingzoo.classic import chess_v6

env = chess_v6.env(render_mode="human")

env.reset(seed=42)

for agent in env.agent_iter():

obs, reward, term, trunc, info = env.last()

action = None if term or trunc else env.action_space(agent).sample()

env.step(action)

env.close()

マルチエージェントRLアルゴリズムはMAPPO、IPPO、QMIX、MADDPG、COMAなどがあり、**RLlib MARL**、**MARLlib**、**EPyMARL**といったライブラリがPettingZoo環境の上で動く。

Atari・MuJoCo・DeepMind Control Suite — クラシックベンチマークの現在

RLの標準ベンチマークは今も健在だ。

- **Atari Learning Environment(ALE)**: 50超のAtariゲーム。DQN時代からの標準。2024年ALE 0.10でGymnasium統合。

- **MuJoCo**: DeepMindが2022年に買収後オープンソース化。**MuJoCo 3.x**でGPU加速(MJX)が追加。

- **DeepMind Control Suite(dm_control)**: MuJoCoベースの連続制御ベンチ。Walker、Cheetah、Humanoid、Quadrupedなど。

MuJoCo 3は2024年以降**MJX**というJAXバックエンドを提供する。同じモデルをGPUで数千並列に回せるので、sim-to-real研究で頻繁に引用される。

env = gym.make("HalfCheetah-v5")

obs, info = env.reset(seed=0)

for _ in range(200):

obs, r, term, trunc, info = env.step(env.action_space.sample())

同カテゴリに**PyBullet**(オープンソース物理エンジン、MuJoCo代替)、**Gazebo**(ROSと統合されたロボティクスシミュレータ)もある。

Brax — JAXベースの微分可能物理シミュレータ

BraxはGoogleが作ったJAXベースの物理シミュレータだ。微分可能物理+GPU並列+JITコンパイルなので、RLスループットがMuJoCo CPUベースの100-1000倍になるケースがある。

Braxの環境はMuJoCo環境互換で書かれており、Ant、HalfCheetah、Humanoid、Walker2d、Hopper、Pusher、Reacherなどが同じ名前で提供される。

from brax.training.agents.ppo import train as ppo

env = brax.envs.create(env_name="ant", backend="positional")

make_inference_fn, params, _ = ppo.train(

environment=env,

num_timesteps=50_000_000,

num_evals=10,

reward_scaling=10,

episode_length=1000,

normalize_observations=True,

action_repeat=1,

unroll_length=5,

num_minibatches=32,

num_updates_per_batch=4,

discounting=0.97,

learning_rate=3e-4,

entropy_cost=1e-2,

num_envs=4096,

batch_size=2048,

seed=0,

)

`num_envs=4096`のように一度に数千環境をGPUで回すのが要点だ。Brax + Acme + RLaxの組み合わせは単一GPUで1Bステップ以上の学習を1日以内に終えられる。

NVIDIA Isaac Lab + Cosmos — ロボティクスsim-to-realの産業標準

NVIDIAは2023-2024年にIsaacGymから**Isaac Lab**へ移行した。2026年5月時点でIsaac Lab(旧OmniIsaac/IsaacGymEnvsを吸収)がロボティクスRLシミュレーションの産業標準だ。**Cosmos**(iter69)はsim-to-real向けの生成的世界モデルを別途提供する。

Isaac Labの特徴:

- **すべての段階がGPU上で処理**: 物理シミュ、観測合成、報酬計算までGPU。

- **数千〜数万の並列環境**: 単一のA100/H100で4096のロボット方策を同時学習。

- **NVIDIA Omniverse + USD標準**: アセットを標準USDで共有。

- **ドメインランダム化を標準搭載**: sim-to-real向けのノイズ・物性変動を自動化。

Boston Dynamics、Agility Robotics、Figure AI、1Xといったヒューマノイド企業の多くが、RL方策学習の標準としてIsaac Labを採用していると公表している。Isaac Lab + RL標準アルゴリズムにはRSL-RL(ETHチューリッヒ)とStable-Baselines3、あるいは自社PPO実装の組み合わせが多い。

VizDoom・MineRL・MineDojo・Crafter・NetHack — 手続き的環境の復活

2024-2026年に手続き的・オープンワールドのRLベンチが再注目された。

- **VizDoom**: Doom 1上のFPS環境。2024 NeurIPS Open-Ended Learningで再登場。

- **MineRL + MineDojo**: Minecraftベース。MineDojo(NVIDIA)はインターネット動画データセット+タスク仕様+環境をまとめて提供。

- **Crafter**: 22の業績を持つミニMinecraft。単一GPUで素早く評価可能。

- **NetHack Learning Environment(NLE)**: MetaのNetHackローグライク。手続き的ダンジョン+巨大な行動空間で、LLMエージェントのベンチによく登場する。

env = minerl.make("MineRLObtainDiamond-v0")

obs = env.reset()

done = False

while not done:

action = env.action_space.sample()

obs, r, done, info = env.step(action)

これらの環境は**LLMベースエージェントの評価**にも頻繁に使われる。Voyager(NVIDIA、GPT-4のMinecraftエージェント)、DEPS、JARVIS-1はすべてMineDojo上にある。

MetaWorld・RoboCasa・LIBERO — ロボティクスのタスク集

ロボティクスRLは単一シミュレータではなく、**タスク集+シミュレータ**の組み合わせで評価される。

- **MetaWorld**: 50のロボット操作タスク標準ベンチ。単一方策で50タスクをメタ学習する評価がカノニカル。

- **RoboCasa**: 100以上のキッチンタスク、写実的レンダリング。NVIDIA + Stanford。

- **LIBERO**: 生涯学習(lifelong)操作ベンチ。時間に応じてタスク分布が変動する評価。

- **Habitat 3.0(Meta)**: 人とロボットの協調評価。ヒューマノイドシミュ統合。

MetaWorldの使い方:

mt10 = metaworld.MT10()

training_envs = []

for name, env_cls in mt10.train_classes.items():

env = env_cls()

task = random.choice([t for t in mt10.train_tasks if t.env_name == name])

env.set_task(task)

training_envs.append(env)

PufferLib — 環境互換レイヤとスループットブースト

PufferLibは環境APIの統一とGPUベクトル化を一度に解決するライブラリだ。2024年以降急成長中。核となる主張は**CPU環境をそのままに、単一GPUホストから100〜1000の環境を最大スループットで回す**こと。

PufferLibは次を1ヶ所で処理する。

- **環境アダプタ**: Gym/Gymnasium/PettingZoo/NetHack/MineRL/Crafter/Atari/Procgen/NLEなどを単一インターフェイスに。

- **ベクトル化**: 共有メモリ+マルチプロセスベースの高速ベクトル環境。

- **ネイティブPufferLib環境**: NMMO、Pong、その他高速なC環境。

env_creator = lambda: pufferlib.emulation.GymnasiumPufferEnv("CartPole-v1")

vecenv = pufferlib.vectorization.Multiprocessing(env_creator, num_envs=64)

obs = vecenv.reset()

PufferLib + CleanRL、あるいはPufferLib + RLlibの組み合わせで学習速度が2-10倍になる事例は珍しくない。

LLM + RL — PPOからGRPOへ、TRLと学習インフラ

2024年末、DeepSeek-R1がPPOの派生**GRPO(Group Relative Policy Optimization)**で学習されて公開され、以後LLM推論モデルの学習はGRPO派生が標準になった。

PPOとGRPOの違いを短く整理する。

- **PPO**: 方策+価値関数(critic)の2ネットワーク。criticがbaselineを推定する。

- **GRPO**: criticなし。同じpromptに対してグループ単位(複数応答)で報酬を正規化してアドバンテージを推定。メモリ/計算を節約。

| 比較項目 | PPO | GRPO |

| ---------------- | ------------------------ | ----------------------------- |

| critic | 必要 | 不要 |

| アドバンテージ | GAE + 価値関数ベースライン | グループ内報酬の正規化 |

| メモリ | actor + critic | actorのみ |

| 安定性 | 既知の安定領域 | グループサイズgが鍵 |

| LLM適合 | 標準だがcriticが重い | 推論用LLM RLの事実上の標準 |

**TRL(Hugging Face Transformers Reinforcement Learning)**はLLM学習用RLライブラリだ(iter62のLLMファインチューニングで取り上げた)。2026年5月時点でPPO、DPO、GRPO、KTO、ORPO、報酬モデル学習をすべてサポートする。

from trl import GRPOTrainer, GRPOConfig

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "meta-llama/Llama-3.1-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(model_id)

config = GRPOConfig(

learning_rate=1e-6,

num_generations=8,

max_prompt_length=512,

max_completion_length=1024,

beta=0.04,

)

trainer = GRPOTrainer(

model=model,

args=config,

reward_funcs=[lambda completions, **kw: [len(c) for c in completions]],

train_dataset=...,

processing_class=tokenizer,

)

trainer.train()

LLM RLは古典RLとインフラの形が違う。**vLLMもしくはSGLang**でロールアウト生成、**DeepSpeed/FSDP**で学習、**TRL/OpenRLHF/verl**といったフレームワークでアルゴリズム実装、というスタックだ。学習クラスタは16-128 GPU規模が普通である。

アルゴリズム地形 2026 — PPOは依然として王、隣に新顔

2026年5月時点のアルゴリズム別の地位は次の通り。

- **PPO**: 依然としてRLアルゴリズム1位。単純さ、安定性、広い環境互換性。新規実験の最初のベースライン。

- **GRPO**: LLM推論学習の事実上の標準。PPO代替として一般RLにも徐々に拡散。

- **SAC**: 連続制御(MuJoCo、ロボット)の標準。エントロピー正則化+ダブルcritic。

- **TD3**: SACの代替。ツインcritic+遅延方策更新。

- **DQN系**: Rainbow(C51 + Double + Dueling + Noisy + Prioritized + Multi-step + Distributional)が今も強力。**IQN、QR-DQN**が分布型RLの標準。

- **Decision Transformer(DT)**: RLを系列モデリングとして再構成。オフラインRLとLLMとの整合が良く、2023-2025年の研究多数。

- **Diffusion Policy**: ロボット操作でのBC+拡散。Toyota Research、Stanford、NVIDIAが牽引。

- **MuZero / EfficientZero / Stochastic MuZero**: モデルベースRLの最強格。AlphaGo・AlphaZeroの後継。

- **AlphaTensor / AlphaCode / AlphaProof**: DeepMindのドメイン特化RL応用。

- **Q-Transformer**: DeepMind RT-X。トランスフォーマ+Q-learningをロボット学習に結合。

ベンチマーク地形 — MuJoCo / Atari / DM Control / NetHack / Crafter

アルゴリズム比較の標準ベンチマーク:

- **Atari 100k**: 100k環境ステップ以内のAtari 26ゲーム平均スコア。データ効率的RLの標準。

- **MuJoCo Locomotion**: HalfCheetah、Walker、Ant、Humanoidなど連続制御スコア。

- **DeepMind Control Suite**: 28以上のタスク平均スコア。ピクセル入力と状態入力を分けて報告。

- **MineRL Diamond**: ダイヤモンド採掘成功率。非常に長期のタスク。

- **NetHack Challenge**: NetHackスコア。巨大な行動空間と手続き的ダンジョン。

- **BabyAI**: 自然言語命令ベースのグリッドワールド。言語+RLの評価。

- **Crafter**: 22業績評価。単一GPUで素早く。

- **Procgen**: 16の手続き的ゲーム。汎化(generalization)評価の標準。

韓国のRL研究 — KAIST、SNU、NCSOFT、Krafton、NAVER

韓国のRL研究は2020年代に入って急増した。主要グループ:

- **KAIST AI大学院**: Yang Eunho、Lee Juho、Hwang Sungju教授グループなどがメタRL、オフラインRL、モデルベースRLでNeurIPS・ICLR・ICMLに多数発表。

- **ソウル大AI研究院**: Kim Gunhee、Zhang Byoung-Tak教授グループがマルチエージェント、言語-RL結合の研究。

- **POSTECH AI**: Ahn Sungsoo、Lee Seunghyunグループが安定性/理論的RL。

- **NCSOFT AI Center**: Lineage、Blade & SoulのRLボスAI。ゲームRLの産業適用事例。

- **Krafton AI**: PUBGのボット、NPC AI。2024-2025年のICLR/NeurIPSワークショップで発表。

- **NAVER Search Engineering**: 検索ランキングRL、広告入札RL。

- **Kakao Enterprise AI**: 推薦RL。

韓国のRLは**ゲームRLと意思決定システムRL**で産業適用が強く、**理論・メタRL**で学界発表が活発だ。

日本のRL研究 — Preferred Networks、DeepMind Tokyo、Sony AI、NTT

日本のRL研究はゲーム・ロボティクス・産業応用に強みがある。

- **Preferred Networks(PFN)**: Chainer時代からRLに貢献。PFRL OSSをメンテ。トヨタ・ファナックとロボティクス協業。

- **DeepMind Tokyo**: DeepMindの東京オフィス。日本の学界との協業が多い。

- **Sony AI**: **Gran Turismo Sophy** — Gran Turismo 7のRLレーシングエージェント。2022年Nature表紙。2026年にシリーズ統合段階。

- **NTT CS研究所**: 通信・ネットワークRL。SDNルーティング・電力グリッド。

- **理研AIP**: メタ学習・連続学習。

- **OMRON SINIC X**: ロボット操作。

Gran Turismo Sophyのような事例は**シミュレータの精度+比較可能な人間ベースライン**が揃った稀な例だ。産業RLの可能性を示した最も視認性の高いケースの1つである。

実世界の本番事例 — AlphaGoからAlphaChip、Boston Dynamicsまで

RLが実際に本番投入された事例を整理する。

- **AlphaGo → AlphaZero → MuZero**(DeepMind): 囲碁・チェス・将棋・Atari。モデルベースRLの出発点。

- **AlphaStar**(DeepMind): StarCraft IIグランドマスター級。人間ゲーマと同等。

- **OpenAI Five**: Dota 2世界チャンピオンとの対戦。分散RLインフラの最初の巨大事例。

- **AlphaFold 2**(DeepMind、RL比重は低めだがpost-processingで使用)。

- **AlphaTensor**(DeepMind、2022): 行列乗算アルゴリズム発見にRL使用。

- **AlphaChip**(DeepMind、2024、旧Chip Placement): TPUフロアプランRL。**iter96**で取り上げ。

- **Gran Turismo Sophy**(Sony AI、2022 Nature): RLレーシング。

- **Boston Dynamics + RLファインチューニング**: Atlas / SpotのモーションRL最適化。

- **NVIDIA Eureka**(2023): GPT-4がRL報酬関数を書き、Isaac Gymで学習。

- **DeepMind Loon balloon control(高度制御)**: 成層圏バルーンのRL自動航法。

- **Amazon SageMaker RL、Microsoft Bonsai、Vertex AI Vizier**: 産業応用のマネージドRL。

OpenAI Spinning Upと教育リソース

これから学び始める人向けの中核リソース:

- **OpenAI Spinning Up**: 教育向けRLライブラリ。PPO、SAC、TD3、DDPG、VPGの素直な実装+理論ノート。2018年公開で今でも学生のスタート地点。

- **CleanRL単一ファイル**: 前述。

- **Hugging Face Deep RL Course**: 8ユニット、無料。SB3 + Unity ML-Agents + Gymnasium。

- **DeepMind x UCL RL Course(David Silver)**: 古典。理論基礎。

- **Sergey Levine CS 285(UC Berkeley)**: 最近最も影響力のあるRL講義。

- **Pieter Abbeel CS 287(Berkeley)**: ロボティクスRL。

学習順序は通常、**Spinning Upのコードを読む → CleanRLのppo.pyを一行ずつ → SB3 / Tianshouでアルゴリズム実験 → RLlib / TorchRLで分散・マルチエージェントへ拡張**が自然だ。

ツール選択ガイド — シナリオ別の推奨

最後にシナリオ別の推奨をまとめる。

- **一人で素早くベースライン → SB3**(LunarLander、MuJoCo単一マシン)。

- **再現性/論文執筆 → CleanRL**(単一ファイル+W&B)。

- **学習安定性+モジュール拡張 → Tianshou**または**TorchRL**。

- **数千アクター分散 → RLlib**(Ray)。

- **TPU/JAX/Brax → Acme + RLax + Haiku**(またはFlax)。

- **ロボティクスsim-to-real → Isaac Lab + RSL-RL/SB3**または自社PPO。

- **マルチエージェント → PettingZoo + RLlib MARL**または**MARLlib**、**EPyMARL**。

- **ゲーム理論 → OpenSpiel**。

- **広告/推薦の意思決定 → Pearl**または自社のコンテキスト付きバンディット。

- **LLM RL → TRL + vLLM / SGLang**、アルゴリズムはGRPOまたはDPO。

ツールを決めるとき最も重要な問いは**「環境スループットがどこで詰まるか」**だ。CPU環境ならSB3 / Tianshouで十分。GPUシミュレーションならIsaac Lab / Brax。分散が必要ならRLlib / Acme。LLMはTRL。

おわりに — 2026年5月、RLは単一ツールではなく「スタック」だ

本稿の結論は単純だ。RLは単一ツールの時代ではない。**環境+ライブラリ+シミュレータ+分散ランタイム**のスタックをドメインに合わせて組み立てる必要がある。

最も大きな流れを2つに整理する。第一に、**LLM-RLとクラシックRLの分岐**。LLM-RLはTRL + vLLM + GRPO/DPOで独自領域になった。クラシックRLはSB3/RLlib/Tianshou + Gymnasium + シミュレータで続く。第二に、**ロボティクスRLが本当に商用段階に入った**。Isaac Lab + Cosmos + Diffusion Policy + Q-Transformerの組み合わせが、複数のヒューマノイド・マニピュレータ企業の標準スタックになっている。

ツール選択に時間をかけすぎないこと。どの組み合わせでも**「環境インターフェイスの一貫性+分散ランタイムの安定性+実験追跡」**の3つさえ押さえれば90%は解決する。残りはドメイン特化のチューニングだ。

References

- Stable-Baselines3 公式ドキュメント: https://stable-baselines3.readthedocs.io/

- RLlib 公式ドキュメント(Ray): https://docs.ray.io/en/latest/rllib/index.html

- Tianshou 公式ドキュメント: https://tianshou.readthedocs.io/

- CleanRL 公式ドキュメント: https://docs.cleanrl.dev/

- TorchRL 公式ドキュメント: https://pytorch.org/rl/

- PFRL GitHub: https://github.com/pfnet/pfrl

- TF-Agents 公式ドキュメント: https://www.tensorflow.org/agents

- DeepMind Acme GitHub: https://github.com/google-deepmind/acme

- DeepMind OpenSpiel GitHub: https://github.com/google-deepmind/open_spiel

- DeepMind Haiku GitHub: https://github.com/google-deepmind/dm-haiku

- DeepMind RLax GitHub: https://github.com/google-deepmind/rlax

- DeepMind Distrax GitHub: https://github.com/google-deepmind/distrax

- DeepMind Reverb GitHub: https://github.com/google-deepmind/reverb

- Meta Pearl GitHub: https://github.com/facebookresearch/Pearl

- Gymnasium(Farama)公式ドキュメント: https://gymnasium.farama.org/

- PettingZoo(Farama)公式ドキュメント: https://pettingzoo.farama.org/

- MuJoCo 公式ドキュメント: https://mujoco.readthedocs.io/

- DeepMind Control Suite GitHub: https://github.com/google-deepmind/dm_control

- Brax GitHub: https://github.com/google/brax

- NVIDIA Isaac Lab 公式ドキュメント: https://isaac-sim.github.io/IsaacLab/

- MineDojo GitHub: https://github.com/MineDojo/MineDojo

- NetHack Learning Environment GitHub: https://github.com/facebookresearch/nle

- MetaWorld GitHub: https://github.com/Farama-Foundation/Metaworld

- PufferLib 公式ドキュメント: https://puffer.ai/docs.html

- Hugging Face TRL 公式ドキュメント: https://huggingface.co/docs/trl/

- OpenAI Spinning Up: https://spinningup.openai.com/

- DeepSeek-R1 論文(GRPO): https://arxiv.org/abs/2501.12948

- Sony AI Gran Turismo Sophy: https://www.gran-turismo.com/world/news/00_3552770.html

- Preferred Networks Research: https://tech.preferred.jp/en/research/

현재 단락 (1/354)

2018-2020年のAlphaStar、OpenAI Five、AlphaFold 1時代がRLの第一の黄金期だとすれば、2024-2026年は第二の黄金期である。トリガーは3つだ。第一に、**De...

작성 글자: 0원문 글자: 19,966작성 단락: 0/354