Skip to content
Published on

モダン統計コンピューティング 2026 完全ガイド - R 4.5 · Posit RStudio · Stan · Pyro · NumPyro · Brms · JAX · Tidyverse · data.table · Polars · Marimo 徹底解剖

Authors

プロローグ — なぜ2026年に統計コンピューティングが再び熱いのか

2026年の統計コンピューティングは、衝突しながらも互いを育てる二つの潮流に形作られている。一方には R 4.5 と Posit の商用スタックがある。再現可能研究、臨床試験、政府統計、学術論文の既定のツールとなった。もう一方には JAX・NumPyro・Polars がある。GPU と TPU の上で NUTS サンプラーを回し、Rust バックエンドで数十 GB のデータフレームを一気にグループ化する。

この二つは競合しているというより、補完しあう。ベイズモデルは R で brms によって書かれ、cmdstanr を介して Stan に渡される。重いデータは Polars で前処理され、NumPyro に渡されて GPU 推論にかけられる。Marimo はリアクティブノートブックで Jupyter のセル実行順問題を断ち切り、Quarto は R・Python・Julia・Observable を一つの PDF やウェブサイトに束ねる。

一行で要約するとこうなる。

  • R 側 — R 4.5(2025年4月)、Posit(旧 RStudio)、Tidyverse、data.table、Quarto が再現可能研究の標準を固めた。
  • ベイズ側 — Stan が NUTS の標準を守り、brms と rstanarm が R 利用者にベイズを日常化した。PyMC 5 と NumPyro が Python 側を二分する。
  • JAX 側 — Google の JAX の上に Flax・Optax・Equinox・NumPyro が積まれ、科学計算加速スタックを形成する。
  • データ側 — Polars 1.x(Rust)と Pandas 2.x(Arrow)、DuckDB、Ibis が分析データフレームの標準を揺さぶる。

この記事ではその全景を一つの流れで歩く。


第1章 · R 4.5 — 2025年4月リリースとその意味

R 4.5.0 は 2025年4月11日に公開された。コードネーム "How About a Twenty-Six"。R Core Team が 1993年にニュージーランドのオークランド大学で開発を始めて以来、R は 30年以上にわたって学界と産業の事実上の統計言語の地位を保ってきた。

R 4.5 のユーザーが体感する改善はちょうど効くところに来た。新しい use 引数がデータセット読み込み時のパッケージ検索オーバーヘッドを削減し、tryInvokeRestart() がエラー処理性能を引き上げた。ALTREP フレームワークが磨かれて大きなベクトルのメモリ使用量が下がり、整数オーバーフロー警告がより親切になった。

2026年5月現在、CRAN には約 22,000 のパッケージが登録されている。Bioconductor には別に約 2,300 の生命科学パッケージが集まる。この二つのリポジトリが R 生態系の核である。

R は 2026年も統計分析・臨床試験・金融リスク・政府統計の標準言語である。Python が機械学習を圧倒しているが、"分散分析を綺麗にレポートに落としたい" のなら今でも R のほうが速い。


第2章 · Posit — RStudio が社名を変えた理由

Posit(posit.co)は、RStudio Inc. が 2022年10月に社名変更した結果である。JJ Allaire が 2009年に創業した RStudio は R 利用者の IDE を事実上の標準にしたが、会社が Python・Julia・VS Code 拡張へと領域を広げる中で "R 専用" のイメージを脱ぐべく改名した。

Posit の中核製品三つを整理するとこうなる。

  • Posit Workbench(旧 RStudio Server Pro) — 企業向け IDE サーバ。同一サーバ上で RStudio・VS Code・JupyterLab を立ち上げる。Kubernetes 統合。
  • Posit Connect(旧 RStudio Connect) — Shiny アプリ・Quarto 文書・Streamlit・FastAPI・Flask・Plumber API を一箇所にデプロイし、認証とスケジューリングを行う。
  • Posit Package Manager(旧 RStudio Package Manager) — 社内 CRAN と PyPI のミラー。セキュリティ監査、ライセンス追跡、検証されたパッケージキュー。

オープンソース側では RStudio DesktopPosit Cloud(旧 RStudio Cloud)が無料または低価格で維持されている。学生や個人ユーザーの入り口を狭めないことが目的だ。

Hadley Wickham(Tidyverse 創設者)、JJ Allaire(R Markdown と Quarto)、Yihui Xie(knitr と bookdown)、Joe Cheng(Shiny)など、R 生態系の中核開発者は Posit の社員である。


第3章 · Tidyverse — Hadley Wickham が作った R の第二の標準

Tidyverse(tidyverse.org)は、同じ "tidy data" 哲学を共有する R パッケージの集合である。2016年に Hadley Wickham が一つの旗の下にまとめる前から個別パッケージは存在しており、2026年時点での中核パッケージは以下である。

  • dplyr — データ操作(フィルタ・選択・変換・グループ・要約・結合)。パイプ演算子とともに R コードの可読性を変えた。
  • tidyr — データ整形(ピボット・欠損処理・ネスト処理)。
  • ggplot2 — Grammar of Graphics に基づく可視化。R の標準グラフィックスライブラリ。
  • purrr — 関数型プログラミング。map と reduce のパターンを一貫させる。
  • readr — CSV と TSV の高速入出力。
  • stringr — 文字列処理。
  • lubridate — 日付と時刻の処理。
  • forcats — ファクター(カテゴリ)処理。
  • tibble — モダンな data.frame。

install.packages("tidyverse") の一回で 9 個の中核パッケージがまとめて入る。学習曲線は dplyr のパイプ(|> または %>%)と ggplot2 のグラマーに両方慣れる点にある — 慣れれば R の表現力が大きく上がる。


第4章 · data.table — Tidyverse の外のもう一つの標準

data.table(r-datatable.com)は 2008年に Matt Dowle が作った R パッケージである。Tidyverse とは別の文法を使う。DT[i, j, by] の括弧形式でフィルタ・集計・グループを一度に表現する。

定義的な特徴は速度とメモリ効率である。h2oai の db-benchmark や DuckDB の grouped-aggregation ベンチマークでは、dplyr や pandas を上回る結果を頻繁に出す。単一ノードで数十 GB を処理するデータエンジニアが好む。

dtplyr(2019年〜)は橋渡しパッケージである。dplyr スタイルでコードを書けば内部で data.table 演算に翻訳される。"dplyr の可読性と data.table の速さ" の折衷案。

R 生態系では Tidyverse 派と data.table 派の対立がときに宗教論争めいてくる。両方とも活発に保守されており、利用者はどちらか一つに統一するか、dtplyr で折衷する。


第5章 · tidymodels — R 向けの統一モデリングインタフェース

tidymodels(tidymodels.org)は Max Kuhn(caret の元著者、現 Posit 所属)が主導する R のモデリング・メタパッケージである。caret(2007年〜)の後継であり、Tidyverse の哲学に合わせて再設計されている。

  • parsnip — 統一されたモデルインタフェース。glm、ranger、xgboost、lightgbm、keras、brms など多様なバックエンドを同じ関数で呼び出す。
  • recipes — 前処理パイプライン。正規化、ダミー化、欠損処理、多項変換をチェーン。
  • rsample — 交差検証、ブートストラップ、時系列分割。
  • yardstick — 評価指標(AUC、RMSE、LogLoss など)。
  • workflows — 前処理・モデル・後処理を一つのオブジェクトにまとめる。
  • tune — ハイパーパラメータチューニング(グリッド、ランダム、ベイズ)。
  • dials — ハイパーパラメータ空間定義。

Python の scikit-learn が R に来たような感触のインタフェースである。caret と比べてモダンで、Tidyverse と自然に馴染む。


第6章 · CRAN · Bioconductor · R-universe — 三つのパッケージリポジトリ

CRAN(Comprehensive R Archive Network)は 1997年から運営される R の公式パッケージリポジトリである。オーストリア・ウィーン経済大学がホスティングする。約 22,000 パッケージ。厳格なコードレビューと回帰テストを通らないと登録できず、更新時も同様だ。

Bioconductor(bioconductor.org)は 2001年に始まった生命科学専用の R リポジトリである。約 2,300 パッケージ。シーケンシング、RNA-seq、シングルセル、画像解析のツールが集まる。半年ごとのリリースサイクル。

R-universe(r-universe.dev)は rOpenSci が運営する次世代リポジトリである。GitHub リポジトリから直接パッケージをビルドして提供する。CRAN より速い更新と開発者寄りのポリシーが強みだ。2024-2026 年の間で利用者が急速に増えている。

企業環境では Posit Package Manager がこの三つ(CRAN・Bioconductor・R-universe)をミラーし、セキュリティレビューを重ねた社内リポジトリを提供する。


第7章 · renv · Quarto — 再現可能な R 環境

renv(rstudio.github.io/renv)は Posit が開発した R 用仮想環境ツールである。Python の venv や conda と同じ役割を果たす。プロジェクト単位でパッケージバージョンをロックし(renv.lock)、renv::restore() で同じ環境を再現する。

旧来の packrat を置き換え、2020年以降は R の再現性の事実上の標準となっている。臨床試験の統計コード、学術論文の再現バンドル、政府の統計報告書はすべて renv.lock を同梱して配布される。

Quarto(quarto.org)は Posit が 2022年に公開した次世代の出版システムである。R Markdown(rmarkdown)の後継である。主要な差別点は以下のとおり。

  • 多言語 — 一つの文書の中で R・Python・Julia・Observable JavaScript を混在させられる。
  • 多出力 — 一つのソースから HTML・PDF・Word・ePub・revealjs スライド・ウェブサイト・本を生成。
  • Jupyter 互換.ipynb.qmd を自由に変換。
  • 学術出版 — Nature や JAMA のようなジャーナル公式テンプレートが 2024-2026 年に提供開始。

Quarto は R Markdown よりすべての方向に広い。新規プロジェクトなら Quarto が既定の選択肢だ。


第8章 · Shiny · plumber — R で作るウェブアプリと API

Shiny(shiny.posit.co)は RStudio が 2012年に公開した R のウェブフレームワークである。R コードのみでインタラクティブなダッシュボードを作る。社内ダッシュボード、臨床試験ダッシュボード、政府統計の可視化に広く使われる。

  • Shinydashboard — ダッシュボードレイアウトテンプレート。
  • shinyWidgets, shinyjs, DT — UI 拡張パッケージ。
  • Shiny for Python(2022年〜) — 同じモデルを Python 側に拡張。Posit が主導。
  • Posit Connect — Shiny アプリを認証とスケジューリング付きでホスト。

plumber(www.rplumber.io)は、注釈つきの R 関数を REST API に変えるパッケージである。Python の FastAPI の R 版に近い。R で学習したモデルを plumber で API 化するのが標準パターン。


第9章 · Stan — 業界標準の NUTS サンプラー

Stan(mc-stan.org)は 2012年にコロンビア大学の Andrew Gelman 研究室で始まったベイズ確率プログラミング言語である。中核開発者には Bob Carpenter、Matt Hoffman、Daniel Lee などがいる。

Stan の二つの基礎的な貢献はこれだ。

  • NUTS(No-U-Turn Sampler) — ハミルトニアンモンテカルロ(HMC)の自動チューニング版。事実上ベイズ推論の標準になった。
  • Stan 言語 — モデルを記述するためのドメイン固有言語(DSL)。C++ にコンパイルされて実行される。CPU と GPU バックエンドに対応。

Stan 自体は C++ のインタプリタであり、利用者は通常以下のインタフェースのいずれかから使う。

  • CmdStan — コマンドラインインタフェース。
  • CmdStanR(R)と CmdStanPy(Python) — CmdStan をラップするモダンインタフェース。2026年の推奨。
  • RStan(R)と PyStan(Python) — 旧式のインタフェース。コンパイル依存関係の問題で利用者は CmdStan 系へ移行中。

Stan は学術論文で最も多く引用されるベイズツールである。臨床試験、疫学、物理、天体観測の標準。


第10章 · brms · rstanarm — R 利用者のための Stan ラッパー

brms(paul-buerkner.github.io/brms)は 2017年に Paul-Christian Bürkner(ドイツ・Aalto University)が作った R パッケージである。R の formula 文法でベイズモデルを書くと、brms が裏で Stan コードを生成して実行する。

例えば bf(y ~ x1 + x2 + (1|group)) と書けば、brms が裏で多階層回帰の Stan モデルを作る。線形・ロジスティック・ポアソン・多項・生存・時系列・GAM・多階層まで、ほぼすべてのモデルが含まれる。

rstanarm(mc-stan.org/rstanarm)は Stan チーム自身が作った R パッケージである。brms に似ているが、あらかじめコンパイル済みの Stan モデルを呼び出すので、利用者が自分でコンパイルする必要がない。すぐに動かせるが、モデルの種類は brms より狭い。

選択基準はこうなる。brms は表現力が広いがコンパイル時間を待つ必要があり、rstanarm は速いが事前定義のモデルに限られる。R 利用者がベイズに入門するなら brms が標準推奨。


第11章 · Pyro · NumPyro — Uber 発の Python ベイズ

Pyro(pyro.ai)は 2017年に Uber AI Labs(現 Linux Foundation 傘下)が公開した、Python と PyTorch ベースの確率プログラミングライブラリである。中核開発者は Eli Bingham と Noah Goodman(Stanford)。変分推論(SVI)、MCMC、ニューラルネットと組み合わせたベイズに強い。

NumPyro(num.pyro.ai)は同じ Pyro チームが作った JAX バックエンド版である。PyTorch の動的グラフを JAX の関数型変換(jit、vmap、pmap)で置き換えたことで NUTS サンプラーの速度を大きく引き上げた。2026年の NumPyro は GPU 上で Stan より速いことも多い。

PyMC 5 と並んで Python ベイズ陣営を二分する。一方が学界と産業全般に近いのに対し、Pyro と NumPyro は深層学習と組み合わせたベイズと GPU 加速で優位を保つ。


第12章 · PyMC 5 · TensorFlow Probability · Turing.jl — 他のベイズ選択肢

PyMC(www.pymc.io)は Christopher Fonnesbeck が 2003年に始めた Python のベイズライブラリである。PyMC3(Theano バックエンド)から 2022年に PyMC 4、2023年に PyMC 5 に移った。バックエンドを PyTensor(旧 Theano)として自分たちでフォークし、NumPyro、JAX、Numba のバックエンドも同時にサポートする。

TensorFlow Probability(TFP)(www.tensorflow.org/probability)は Google が 2018年に公開した確率モデリングライブラリである。TensorFlow の上に分布、MCMC、変分推論を重ねた。学界での採用は Stan、PyMC、Pyro と比べて狭いが、Google 社内では標準である。

Edward(2016〜2018)と Edward2(2018〜)は Dustin Tran(現 Google)らが作った初期の確率プログラミングである。TensorFlow Probability に吸収された。

Turing.jl(turinglang.org)は 2018年にケンブリッジ大学の Hong Ge が始めた Julia のベイズライブラリである。Julia の多重ディスパッチを活用して、ユーザー定義分布を自由に書ける。Julia 自体が学界で伸びており、Turing の採用も伸びている。

Soss.jlGen(MIT) — Julia 側の他の確率プログラミングツール。MIT の Vikash Mansinghka が主導する Gen はメタモデリング(モデルのモデル)に強い。


第13章 · JAX — Google が作った関数型数値計算の基盤

JAX(jax.readthedocs.io)は Google Research が 2018年に公開した Python 数値計算ライブラリである。NumPy API をそのまま踏襲しつつ、以下の四つの機能を自動的に提供する。

  • 自動微分(autograd の後継) — gradjacobianhessian 関数。
  • JIT コンパイル — XLA(Accelerated Linear Algebra)で GPU と TPU 加速。
  • ベクトル化vmap でバッチ次元を自動で追加。
  • 並列化pmap で複数 GPU と TPU に分散。

決定的な違いは JAX が関数型であることだ。JAX 関数は副作用を避け、PyTorch のような状態(.grad 属性のような)を持たない。制約は最初は不便だが、慣れるとコードがシンプルになる。

NumPyro、Flax、Optax、Equinox といったライブラリが JAX の上に積み上がり、2026年には JAX スタックが加速科学計算プラットフォームの標準になっている。Google DeepMind の Alpha シリーズは JAX で書かれる。


第14章 · Flax · Optax · Equinox — JAX のニューラルネットライブラリ

JAX 自体はニューラルネットのライブラリではない。その上に以下のライブラリが積まれる。

  • Flax(flax.readthedocs.io) — Google が作ったニューラルネットライブラリ。関数型スタイルに馴染むモジュール抽象。Google DeepMind が標準として採用。
  • Optax(optax.readthedocs.io) — Google DeepMind が作った最適化ライブラリ。Adam、AdamW、SGD、Lion、Adafactor などのオプティマイザを関数合成で表現。
  • Equinox(docs.kidger.site/equinox) — Patrick Kidger が作ったニューラルネットライブラリ。Flax よりシンプルな PyTree ベースのクラスモデル。
  • Haiku(2019〜2024) — Google DeepMind が作った別のニューラルネットライブラリ。2024年以降は Flax へ漸進的に統合中。
  • RLax — 強化学習の関数バンドル。
  • Distrax — 確率分布ライブラリ(TFP の関数型代替)。
  • Chex — テストと検証のユーティリティ。

2026年に新規 JAX プロジェクトを始めるなら、Flax(Google 正統)または Equinox(簡潔)が標準の選択肢。


第15章 · Polars 1.x — Rust バックエンドのデータフレームの台頭

Polars(pola.rs)は 2020年に Ritchie Vink(オランダ)が始めた、Rust ベースのデータフレームライブラリである。2024年に Polars 1.0 がリリースされ、2026年には 1.x ラインで安定化した。Polars Cloud という商用サービスも並走する。

三つの特徴が分析陣営を揺さぶる。

  • Rust バックエンド — pandas の NumPy と Python の組み合わせより速い。マルチスレッドが既定。
  • 遅延評価scan_csvscan_parquet で先にクエリを組み立てて一度に実行する。SQL オプティマイザのように動く。
  • Apache Arrow 形式 — データフレームが Arrow のカラムナーメモリ上にある。DuckDB や PyArrow とメモリコピーなしにデータを交換できる。

pandas から Polars に移るデータエンジニアが増えている。特に数 GB から数十 GB のデータを単一ノードで処理する場合、差が大きい。インタフェースは pandas と異なるので、学習曲線はある。


第16章 · Pandas 2.x · PyArrow · Modin · Dask · Ibis — Python データフレームの全景

Pandas(pandas.pydata.org)は Wes McKinney が 2008年に始めた Python の標準データフレームライブラリである。2023年の Pandas 2.0 で Arrow バックエンド対応が公式化し、性能差を縮めた。2026年では Pandas 2.2 から 2.3 が活発に保守されている。

PyArrow(arrow.apache.org/docs/python)は Apache Arrow の Python バインディングである。カラムナーメモリ形式、Parquet I/O、Flight RPC を提供する。Pandas、Polars、DuckDB は PyArrow メモリを介してデータをやり取りする。

Modin(modin.readthedocs.io)は pandas API と 100% 互換でありながら、内部で Ray または Dask で分散実行するライブラリである。一行のコード(import の変更)だけでマルチコアやマルチノードに拡張できる点が魅力。

Dask(www.dask.org)は Matthew Rocklin が 2014年に始めた Python 分散コンピューティングライブラリである。大規模データをチャンクに分けて NumPy、Pandas、Scikit-learn の演算を分散実行する。

Ibis(ibis-project.org)は SQL に似た抽象データフレームインタフェースを提供し、DuckDB、BigQuery、Snowflake、PostgreSQL、Pandas、Polars のどこでも同じコードで分析できるようにする。Wes McKinney が主導する。

DuckDB(duckdb.org)は組み込みの OLAP SQL エンジンである。"分析版の SQLite" と呼ばれる。Polars や Pandas とメモリコピーなしで共存できる。


第17章 · Marimo · Jupyter — リアクティブノートブックの挑戦

Jupyter(jupyter.org)は Fernando Perez らが 2014年に IPython から分岐させたノートブックツールである。2026年では JupyterLab 4 が安定版である。R、Python、Julia、Scala などのカーネルをサポート。

Jupyter の弱点はセル実行順に状態が依存することだ。同じノートブックでも上から下に実行する人と任意の順で実行する人で結果が異なり得る。再現性危機。

Marimo(marimo.io)は 2023年に Akshay Agrawal と Myles Scolnick(元 Stanford)が始めたリアクティブな Python ノートブックである。セル間のデータ依存関係を自動追跡し、あるセルを変更すると依存する全セルが再実行される。Excel の自動再計算と似たモデル。

しかも Marimo ノートブックは .py ファイルとして保存される。git diff が人間に読めるし、IDE で通常の Python のように扱える。2024-2026 年の間でデータサイエンスコミュニティでの採用が急速に増えた。

Observable Notebooks(observablehq.com)は D3.js の作者 Mike Bostock が作った JavaScript のリアクティブノートブックである。Marimo が Python で試みているモデルを Observable は JavaScript で先に示した。

Hex(hex.tech)と Deepnote(deepnote.com) — マネージド Jupyter ホスティング。強みは協業とデータコネクタ。


第18章 · ggplot2 · matplotlib · seaborn · Plotly — 可視化の中核ツール

ggplot2(ggplot2.tidyverse.org)は Leland Wilkinson の "Grammar of Graphics" を R に実装した Hadley Wickham のパッケージである(2005年〜)。R の標準可視化。学術出版物で最もよく見かける統計グラフィックスはこれだ。

ggplot2 の拡張生態系も豊富である。

  • gghighlight — グループ強調。
  • patchwork — 多パネル合成。
  • ggridges — 山並み(joyplot)。
  • gganimate — アニメーション。
  • ggrepel — ラベル衝突回避。
  • ggdist — 分布表現。
  • ggtext — マークダウンと HTML テキスト。

matplotlib(matplotlib.org)は John Hunter が 2003年に始めた Python の可視化標準である。学術出版物の Python 側の標準だ。

seaborn(seaborn.pydata.org)は Michael Waskom が作った、matplotlib の上の統計可視化ラッパーである。抽象度は ggplot2 に近い。

Plotly Express(plotly.com/python/plotly-express)はインタラクティブ可視化である。同じコードで静的、インタラクティブ、ウェブ埋め込みを生成する。

Bokeh(bokeh.org)、Altair(altair-viz.github.io)、Vega-Lite(vega.github.io/vega-lite)、Apache ECharts(echarts.apache.org)、D3.js(d3js.org) — インタラクティブなウェブ可視化の別の選択肢。Altair は Vega-Lite を Python から呼ぶライブラリだ。


第19章 · scikit-learn · statsmodels · mlr3 — 統計学習パッケージ

scikit-learn(scikit-learn.org)は 2007年にフランスの INRIA で始まった Python 機械学習の標準である。David Cournapeau の GSoC プロジェクトが出発点。2026年は 1.5 から 1.6 が活発に保守中。回帰、分類、クラスタリング、次元削減、前処理、評価まで一つのパッケージにまとまる。

statsmodels(www.statsmodels.org)は scikit-learn よりも統計検定と回帰診断に比重を置いた Python ライブラリである。OLS、GLM、時系列(ARIMA、VAR)、生存分析、混合効果モデルなど、R 風の統計モデルを扱う。

mlr3(mlr3.mlr-org.com)は LMU München の Bernd Bischl グループが作った R 機械学習メタフレームワークである。caret(2007年〜)と mlr(2013年〜)の後継。R6 オブジェクト指向ベースで、tidymodels とは異なる設計哲学に立つ。

caret(topepo.github.io/caret)は Max Kuhn が作った R 機械学習メタフレームワークの第一世代である。2026年も保守されているが、新規プロジェクトには tidymodels が推奨。

H2O.ai(h2o.ai)は同名の企業が作った AutoML プラットフォーム。R、Python、Java から呼び出せる。エンタープライズでの採用が多い。


第20章 · 因果推論 — 2024-2026 の急成長

DoWhy(www.pywhy.org/dowhy)は Microsoft Research が 2018年に公開した Python 因果推論ライブラリである。Pearl の do-calculus をコードに落とし込んだもの。2023年に PyWhy 財団に移管された。

EconML(www.microsoft.com/en-us/research/project/econml) — Microsoft が作った因果機械学習ライブラリ。処置効果の推定に特化。Double ML、Causal Forest、Meta-Learner を含む。

CausalML(causalml.readthedocs.io)は Uber が作った類似の因果 ML ライブラリ。Uplift モデリングとマーケティングキャンペーン評価に強み。

CausalImpact(google.github.io/CausalImpact)は Google が作った R パッケージ。ベイズ構造時系列でマーケティングや政策介入の因果効果を推定する。

DAGitty(www.dagitty.net)は因果ダイアグラムを描いて分析するウェブツールである。R パッケージもある。

lavaan(lavaan.ugent.be)、sem(R)、semopy(Python) — 構造方程式モデル(SEM)のためのパッケージ。心理学、社会学、教育学の標準。

2024-2026 年の間で統計コンピューティングで最も急成長している領域が因果推論である。学会、ワークショップ、書籍出版がすべて増えている。


第21章 · MCMC 診断と可視化 — 事後評価ツールキット

ベイズ推論ではサンプリングそのものと同じくらい事後検査(diagnostics)が重要である。以下のツールが核心。

  • bayesplot(R、mc-stan.org/bayesplot) — Stan チームが作った診断グラフィックスパッケージ。ggplot2 ベース。トレースプロット、R-hat、ESS、事後予測検証。
  • posterior(R) — 事後標本オブジェクトの標準。brms、rstan、cmdstanr はすべてこのオブジェクトで結果を返す。
  • tidybayes(R、mjskay.github.io/tidybayes) — Matthew Kay が作ったパッケージ。事後標本を tidy data に整え、ggplot2 と自然に連動。
  • shinystan(R) — Stan の結果をインタラクティブな Shiny ダッシュボードで見る。
  • ArviZ(Python、python.arviz.org) — Python のベイズ診断の標準。PyMC、NumPyro、Pyro、CmdStanPy の結果を扱える。

R-hat が 1.01 以下、ESS が十分、トレースプロットが fuzzy caterpillar 状になっていれば収束したと見る。この点検を抜かすと結果は信頼できない。


第22章 · 標本調査パッケージ

確率標本調査のデータ(重み、層化、クラスタ)は一般的な回帰とは別に扱う必要がある。以下のパッケージが標準。

  • survey(R、r-survey.r-forge.r-project.org) — Thomas Lumley(ニュージーランド)が作った R パッケージ。1990年代から重み、層化、クラスタを扱う。NHANES、PISA、KOSIS 分析の事実上の標準。
  • srvyr(R) — survey パッケージを dplyr 風にラップしたパッケージ。tidy スタイルで標本調査分析。
  • samplingbookPracTools — 書籍付随の他の R 標本調査パッケージ。
  • stratasamp — 層化標本設計。

公開データセット:

  • PISA(OECD 学習到達度国際比較調査)。
  • PSID(Panel Study of Income Dynamics、ミシガン大学)。
  • NHANES(米国 National Health and Nutrition Examination Survey)。
  • KOSIS(韓国統計庁の国家統計ポータル)。
  • e-Stat(日本政府の統計ポータル)。

標本調査統計は政府、国際機関、疫学研究の中核で、R の survey パッケージが事実上の独占的地位を占める。


第23章 · 韓国の統計コンピューティングコミュニティ

韓国の R と統計コミュニティは 2010年代半ば以降、急速に育った。

  • R-Korea — 韓国 R ユーザーグループ。Facebook と Discord で活動。
  • Seoul R Meetup — 定期オフラインミートアップ。発表、チュートリアル、ネットワーキング。
  • R Korea User Conference — 年 1 回の学術カンファレンス。
  • Pseudo Lab Korea(pseudo-lab.com) — 韓国の自主機械学習コミュニティ。Python 寄りだが R チャプターもある。
  • K-stat — 韓国統計学会。学術誌と学会。
  • KSA(韓国統計振興院) — 政府機関。統計教育と認定試験。
  • 韓国データ分析家協会(KDAA) — 産業側のデータ職団体。

大学ではソウル大学、延世大学、高麗大学、KAIST の統計学科が R と Python を併修で教える。臨床試験、疫学、金融統計では R が依然として標準。大企業のデータ職は Python を好むが、医療、製薬、政府統計領域では R が優位を保つ。


第24章 · 日本の統計コンピューティングコミュニティ

日本の R と統計コミュニティは韓国より長い歴史を持つ。

  • Tokyo.R — 東京 R ユーザーグループ。2010 年発足、毎月の定期発表会が累計 100 回以上。
  • R-jp — 日本 R ユーザーメーリングリスト。
  • Japan.R — 年 1 回の日本全国 R カンファレンス。
  • 統計数理研究所(ISM) — 1944 年設立の政府統計研究機関。ベイズと時系列研究の本拠地。
  • PythonとRの統計勉強会 — Python と R を両方扱う勉強会が複数。
  • DataScience.tokyo — データサイエンスコミュニティイベント。
  • JAGS-Japan と Stan 勉強会 — ベイズツール限定の勉強会。

日本は学界のベイズ研究が強く、統計数理研究所を中心に時系列、空間統計、構造方程式の研究が活発である。東京大学、京都大学、慶應義塾大学、早稲田大学、大阪大学の統計学科と経済学科で R と Stan が標準ツール。

産業側では NTT データ、リクルート、ZOZO、DeNA など大企業の R&D 部門が R と Stan を日常ツールとして使う。


第25章 · まとめ — 2026 年の統計コンピューティングの全景

まとめると、2026年の地図はこうなる。

  • R 4.5 と Posit が再現可能研究の標準。臨床試験、金融統計、政府統計、学術出版がすべて R に集まる。
  • Tidyverse と data.table が R のデータ操作を二分。dtplyr が両者をつなぐ。
  • Stan が NUTS サンプリングの業界標準であり、brms と rstanarm が R 利用者にベイズを日常化する。
  • Pyro、NumPyro、PyMC 5 が Python ベイズ陣営を二分。NumPyro は JAX 上の GPU 加速で魅力的。
  • JAX スタック(Flax、Optax、Equinox)が加速科学計算の新しい標準になった。
  • Polars 1.x が Rust バックエンドでデータフレーム市場を揺さぶる。Pandas 2.x は Arrow バックエンドで応える。
  • Marimo がリアクティブノートブックで Jupyter の弱点を解決。Quarto が R・Python・Julia 統合出版を標準化。
  • 因果推論(DoWhy、EconML、CausalML、CausalImpact)が 2024-2026 年に最も急成長する領域。
  • 韓国と日本の統計コミュニティ はいずれも R と Python を併修で教え、学界は R と Stan を、産業は Python を好む傾向が見える。

2027-2028 年には大規模言語モデルが統計コード生成と結果解釈に深く入る。しかしモデル検証、再現、因果推論の責任は今でも人間のアナリストにある。ツールは速くなるが、統計的思考はより重要になる。


References