Skip to content
Published on

모던 통계 컴퓨팅 2026 완벽 가이드 - R 4.5 · Posit RStudio · Stan · Pyro · NumPyro · Brms · JAX · Tidyverse · data.table · Polars · Marimo 심층 분석

Authors

프롤로그 — 왜 2026년 통계 컴퓨팅이 다시 뜨거운가

2026년 통계 컴퓨팅은 두 가지 흐름이 정면 충돌하면서도 서로를 키운다. 한쪽에는 R 4.5와 Posit의 상용 스택이 있다. 재현가능 연구, 임상시험, 정부 통계, 학술 논문의 기본 도구로 자리 잡았다. 다른 한쪽에는 JAX·NumPyro·Polars가 있다. GPU·TPU 위에서 NUTS 샘플러를 돌리고, Rust 백엔드로 수십 GB 데이터프레임을 단숨에 그룹화한다.

이 둘은 경쟁한다기보다 보완한다. 베이지안 모델은 brms로 R에서 작성되어 cmdstanr로 Stan에 넘어가고, 큰 데이터는 Polars로 전처리한 뒤 NumPyro로 GPU 추론을 돌린다. Marimo가 반응형 노트북으로 Jupyter의 상태 의존성을 끊고, Quarto가 R·Python·Julia·Observable을 한 PDF·웹사이트로 묶는다.

한 줄로 요약하면 이렇다.

  • R 측 — R 4.5(2025-04), Posit(구 RStudio), Tidyverse, data.table, Quarto가 재현가능 연구의 표준을 굳혔다.
  • Bayesian 측 — Stan이 NUTS의 표준이고, brms와 rstanarm이 R 사용자에게 일상화되었으며, PyMC 5와 NumPyro가 Python 진영을 양분한다.
  • JAX 측 — Google의 JAX 위에 Flax·Optax·Equinox·NumPyro가 쌓여 과학 컴퓨팅 가속 스택을 형성한다.
  • Data 측 — Polars 1.x(Rust)와 Pandas 2.x(Arrow), DuckDB, Ibis가 분석 데이터프레임 표준을 흔든다.

이 글은 그 전체 풍경을 한 흐름에 묶는다.


1장 · R 4.5 — 2025년 4월 릴리스와 그 의미

R 4.5.0은 2025년 4월 11일에 공개되었다. 코드명 "How About a Twenty-Six." R Core Team이 1993년 뉴질랜드 오클랜드 대학교에서 시작한 이후, 30년 넘게 학계와 산업의 통계 표준 언어로 자리를 지키고 있다.

R 4.5의 주요 개선은 사용자가 체감하는 곳에 있다. base R의 use 인자가 데이터셋 로딩 시 패키지 검색을 줄이고, tryInvokeRestart()가 오류 처리 성능을 끌어올렸다. ALTREP 프레임워크가 더 다듬어져 큰 벡터의 메모리 사용량이 줄었고, 정수 오버플로 경고가 더 친절해졌다.

CRAN에는 2026년 5월 기준 약 22,000개 패키지가 등록되어 있다. Bioconductor에는 약 2,300개의 생명과학 패키지가 별도로 모인다. 이 두 저장소가 R 생태계의 핵심이다.

R은 2026년에도 통계 분석·임상시험·금융 리스크·정부 통계의 표준 언어다. Python이 머신러닝 쪽에서 압도하지만, "분산분석을 깔끔하게 보고서로 쓰고 싶다"면 여전히 R이 빠르다.


2장 · Posit — RStudio가 사명을 바꾼 이유

Posit(posit.co)은 2022년 10월 RStudio Inc.가 사명을 변경한 결과다. JJ Allaire가 2009년 창립한 RStudio는 R 사용자의 IDE를 사실상 표준화했지만, 회사가 Python·Julia·VS Code 확장으로 영역을 넓히면서 "R-only" 이미지를 벗기 위해 이름을 바꿨다.

Posit의 핵심 제품 세 가지를 정리하면 이렇다.

  • Posit Workbench(구 RStudio Server Pro) — 기업용 IDE 서버. RStudio·VS Code·JupyterLab을 한 서버에서 띄운다. Kubernetes 통합.
  • Posit Connect(구 RStudio Connect) — Shiny 앱·Quarto 문서·Streamlit·FastAPI·Flask·Plumber API를 한 곳에 배포·인증·스케줄링.
  • Posit Package Manager(구 RStudio Package Manager) — 사내 CRAN·PyPI 미러. 보안 감사·라이선스 추적·검증된 패키지 큐레이션.

오픈소스 측에서는 RStudio DesktopPosit Cloud(구 RStudio Cloud)가 무료 또는 저가로 유지된다. 학생·개인 사용자 진입 장벽을 낮추는 것이 목적이다.

Hadley Wickham(Tidyverse 창립자), J.J. Allaire(R 마크다운·Quarto), Yihui Xie(knitr·bookdown), Joe Cheng(Shiny) 같은 R 생태계 핵심 개발자가 Posit 정직원이다.


3장 · Tidyverse — Hadley Wickham이 만든 R의 두 번째 표준

Tidyverse(tidyverse.org)는 동일한 철학("tidy data")을 공유하는 R 패키지 모음이다. 2016년 Hadley Wickham이 공식 명칭으로 묶기 전부터 개별 패키지가 존재했고, 2026년 기준 다음 패키지가 핵심이다.

  • dplyr — 데이터 조작(필터·선택·변환·그룹·요약·조인). 파이프 연산자와 함께 R 코드 가독성을 바꿨다.
  • tidyr — 데이터 정형(피벗·결측 처리·중첩 처리).
  • ggplot2 — Grammar of Graphics 기반 시각화. R의 표준 그래픽 라이브러리.
  • purrr — 함수형 프로그래밍. map·reduce 패턴을 일관되게.
  • readr — CSV·TSV 빠른 입출력.
  • stringr — 문자열 처리.
  • lubridate — 날짜·시간 처리.
  • forcats — 팩터(범주형) 처리.
  • tibble — 모던 data.frame.

install.packages("tidyverse") 한 번이면 9개 핵심 패키지가 같이 설치된다. 학습 곡선은 dplyr 파이프(|> 또는 %>%)와 ggplot2 그래머에 모두 익숙해지면 R의 표현력이 크게 늘어난다.


4장 · data.table — Tidyverse 밖의 또 다른 표준

data.table(r-datatable.com)은 2008년 Matt Dowle가 만든 R 패키지다. Tidyverse와는 다른 문법을 쓴다. 대괄호 안에 DT[i, j, by] 형태로 필터·집계·그룹을 한 번에 표현한다.

특징은 속도와 메모리 효율이다. h2oai의 db-benchmark, DuckDB의 grouped aggregation 벤치마크에서 dplyr·pandas보다 빠른 결과를 자주 낸다. 수십 GB 데이터를 단일 노드에서 처리하는 데이터 엔지니어가 선호한다.

dtplyr(2019~)은 dplyr 문법으로 코드를 쓰면 내부에서 data.table 연산으로 변환하는 브리지 패키지다. "dplyr 가독성과 data.table 속도"라는 두 마리 토끼를 잡는 옵션.

R 생태계에서 Tidyverse와 data.table은 종교 전쟁에 가깝다. 양쪽 모두 활발히 유지되며, 사용자는 한쪽으로 통일하거나 dtplyr로 절충한다.


5장 · tidymodels — R에서의 통일된 모델링 인터페이스

tidymodels(tidymodels.org)는 Max Kuhn(전 caret 저자, Posit 소속)이 주도하는 R 모델링 메타패키지다. caret(2007~)의 후속이며, Tidyverse 철학에 맞춰 다시 설계되었다.

  • parsnip — 통일된 모델 인터페이스. glm, ranger, xgboost, lightgbm, keras, brms 등 다양한 백엔드를 같은 함수로 호출.
  • recipes — 전처리 파이프라인. 정규화·더미·결측치·다항 변환을 체이닝.
  • rsample — 크로스밸리데이션·부트스트랩·시계열 분할.
  • yardstick — 평가지표(AUC·RMSE·LogLoss 등).
  • workflows — 전처리 + 모델 + 후처리를 하나의 객체로.
  • tune — 하이퍼파라미터 튜닝(그리드·랜덤·베이지안).
  • dials — 하이퍼파라미터 공간 정의.

Python의 scikit-learn이 R로 넘어온 것에 가까운 인터페이스. caret과 비교해 모더니즘적이고 Tidyverse와 자연스럽게 어울린다.


6장 · CRAN · Bioconductor · R-universe — 세 가지 패키지 저장소

CRAN(Comprehensive R Archive Network)은 1997년부터 운영된 R 공식 패키지 저장소다. 오스트리아 빈 경제대학교가 호스팅한다. 약 22,000개 패키지. 엄격한 코드 리뷰와 회귀 테스트가 통과해야 등록되며, 갱신도 마찬가지다.

Bioconductor(bioconductor.org)는 2001년 시작된 생명과학 전용 R 패키지 저장소. 약 2,300개 패키지. 시퀀싱·RNA-seq·single-cell·이미지 분석 등 생명정보학 도구가 모인다. 6개월 릴리스 주기.

R-universe(r-universe.dev)는 rOpenSci가 운영하는 차세대 저장소. GitHub 리포지토리를 직접 패키지로 빌드해 제공한다. CRAN보다 빠른 갱신, 개발자 친화적인 정책이 장점. 2024-2026년 기간 동안 빠르게 사용자를 늘리고 있다.

기업 환경에서는 Posit Package Manager가 이 셋(CRAN·Bioconductor·R-universe)을 미러하면서 보안 검증을 더한 사내 저장소를 제공한다.


7장 · renv · Quarto — 재현가능 R 환경

renv(rstudio.github.io/renv)는 Posit이 개발한 R용 가상환경 도구다. Python의 venv·conda와 비슷한 역할. 프로젝트별로 패키지 버전을 잠그고(renv.lock), renv::restore()로 동일 환경을 재현한다.

기존 packrat을 대체하며, 2020년 이후 R 재현성의 사실상 표준이 되었다. 임상시험 통계 코드, 학술 논문 재현 자료, 정부 통계 보고서가 모두 renv.lock을 함께 배포한다.

Quarto(quarto.org)는 Posit이 2022년 공개한 차세대 출판 시스템이다. R 마크다운(rmarkdown)을 잇는 후속. 핵심 차별점은 다음과 같다.

  • 다중 언어 — R·Python·Julia·Observable JavaScript를 한 문서에 섞을 수 있다.
  • 다중 출력 — HTML·PDF·Word·ePub·revealjs 슬라이드·웹사이트·책을 한 소스에서.
  • Jupyter 호환.ipynb.qmd를 자유롭게 변환.
  • 상용 출판 — Nature, JAMA 같은 학술지 템플릿 공식 지원 시작(2024-2026).

Quarto는 R 마크다운보다 모든 면에서 광범위하다. 신규 프로젝트라면 Quarto가 기본 선택이다.


8장 · Shiny · plumber — R로 만드는 웹 앱과 API

Shiny(shiny.posit.co)는 2012년 RStudio가 공개한 R 웹 프레임워크다. R 코드만으로 인터랙티브 대시보드를 만든다. 학계와 기업의 내부 대시보드, 임상시험 대시보드, 정부 통계 시각화에 폭넓게 쓰인다.

  • Shinydashboard — 대시보드 레이아웃 템플릿.
  • shinyWidgets, shinyjs, DT — UI 확장 패키지.
  • Shiny for Python(2022~) — Python에서도 같은 모델을 쓸 수 있게 확장. Posit이 주도.
  • Posit Connect — Shiny 앱 호스팅과 인증·스케줄링.

plumber(www.rplumber.io)는 R 함수에 주석을 달면 REST API가 되는 패키지. Python의 FastAPI에 가까운 역할. 머신러닝 모델을 R로 학습한 뒤 plumber로 API화하는 것이 표준 패턴.


9장 · Stan — NUTS 샘플러의 산업 표준

Stan(mc-stan.org)은 2012년 컬럼비아 대학교 Andrew Gelman 연구실에서 시작된 베이지안 확률 프로그래밍 언어다. 핵심 개발자로 Bob Carpenter, Matt Hoffman, Daniel Lee 등이 있다.

Stan의 두 가지 핵심 기여는 다음과 같다.

  • NUTS 샘플러(No-U-Turn Sampler) — 해밀턴 몬테카를로(HMC)를 자동 튜닝해 베이지안 추론의 사실상 표준이 됨.
  • Stan 언어 — 도메인 특화 언어(DSL)로 모델을 기술하면 C++로 컴파일해 실행. CPU·GPU 백엔드 지원.

Stan 자체는 C++ 인터프리터고, 사용자는 보통 다음 인터페이스 중 하나로 쓴다.

  • CmdStan — 명령줄 인터페이스.
  • CmdStanR(R), CmdStanPy(Python) — CmdStan을 래핑한 모던 인터페이스. 2026년 권장.
  • RStan(R), PyStan(Python) — 구버전. 컴파일 의존성 문제로 CmdStan 계열로 이동 중.

Stan은 학술 논문에서 가장 많이 인용되는 베이지안 도구다. 임상시험·역학·물리·천체관측에서 표준이다.


10장 · brms · rstanarm — R 사용자를 위한 Stan 래퍼

brms(paul-buerkner.github.io/brms)는 2017년 Paul-Christian Bürkner(독일 Aalto University)가 만든 R 패키지다. R formula 문법으로 베이지안 모델을 쓰면 Stan 코드로 변환해 실행한다.

예를 들어 bf(y ~ x1 + x2 + (1|group))이라고 쓰면 brms가 알아서 다중수준 회귀 Stan 모델을 만든다. 선형·로지스틱·포아송·다항·생존·시계열·GAM·다중수준까지 거의 모든 모델이 들어 있다.

rstanarm(mc-stan.org/rstanarm)은 Stan 팀이 직접 만든 R 패키지다. brms와 비슷하지만 미리 컴파일된 Stan 모델을 호출해 사용자가 직접 컴파일하지 않아도 된다. 즉시 실행이 가능하지만 모델 종류는 brms보다 좁다.

선택 기준은 이렇다. brms는 표현력이 넓지만 컴파일 시간을 감수해야 하고, rstanarm은 빠르지만 사전 정의된 모델만 쓴다. R 사용자가 베이지안에 입문할 때 brms가 표준이다.


11장 · Pyro · NumPyro — Uber에서 시작된 Python 베이지안

Pyro(pyro.ai)는 2017년 Uber AI Labs(현 Linux Foundation 산하)가 공개한 Python·PyTorch 기반 확률 프로그래밍 라이브러리다. 핵심 개발자 Eli Bingham, Noah Goodman(Stanford). 변분추론(SVI), MCMC, 신경망 결합 베이지안에 강하다.

NumPyro(num.pyro.ai)는 같은 Pyro 팀이 만든 JAX 백엔드 버전이다. PyTorch의 동적 그래프를 JAX의 함수형 변환(jit·vmap·pmap)으로 대체해 NUTS 샘플러 속도를 크게 끌어올렸다. 2026년 NumPyro의 NUTS는 GPU 위에서 Stan보다 빠를 때가 많다.

PyMC 5와 함께 Python 베이지안 진영을 양분한다. 한쪽이 학계·산업 전반에 친숙하다면 Pyro·NumPyro는 딥러닝 결합 베이지안과 GPU 가속에서 우위를 보인다.


12장 · PyMC 5 · TensorFlow Probability · Turing.jl — 다른 베이지안 선택지

PyMC(www.pymc.io)는 2003년 Christopher Fonnesbeck이 시작한 Python 베이지안 라이브러리다. PyMC3(Theano 백엔드)에서 2022년 PyMC 4로, 2023년 PyMC 5로 넘어왔다. 백엔드를 PyTensor(전 Theano)로 자체 포크하며 NumPyro·JAX·Numba 백엔드도 함께 지원한다.

TensorFlow Probability(TFP)(www.tensorflow.org/probability)는 Google이 2018년 공개한 확률 모델링 라이브러리. TensorFlow 위에 분포·MCMC·변분추론을 얹었다. 학술계 채택은 Stan·PyMC·Pyro에 비해 좁지만, Google 내부 시스템에서는 표준이다.

Edward(20162018)와 Edward2(2018)은 Dustin Tran(현 Google) 등이 만든 초기 확률 프로그래밍. TensorFlow Probability에 흡수되었다.

Turing.jl(turinglang.org)은 2018년 케임브리지 대학교 Hong Ge가 시작한 Julia 베이지안 라이브러리. Julia의 다중 디스패치를 활용해 사용자 정의 분포를 자유롭게 짤 수 있다. Julia 자체가 학계에서 빠르게 자라며 Turing의 채택도 함께 늘고 있다.

Soss.jl, Gen(MIT) — Julia 진영의 다른 확률 프로그래밍 도구. Gen은 MIT의 Vikash Mansinghka가 주도하며 메타 모델링(모델 위의 모델)에 강하다.


13장 · JAX — Google이 만든 함수형 수치 계산 기반

JAX(jax.readthedocs.io)는 2018년 Google Research가 공개한 Python 수치 계산 라이브러리다. NumPy API를 그대로 따르면서 다음 네 가지를 자동으로 한다.

  • 자동 미분(autograd 후속) — grad, jacobian, hessian 함수.
  • JIT 컴파일 — XLA(Accelerated Linear Algebra)로 GPU·TPU 가속.
  • 벡터화vmap으로 배치 차원 자동 추가.
  • 병렬화pmap으로 다중 GPU·TPU 분산.

핵심 차이는 함수형이라는 점이다. JAX 함수는 부수효과를 피하고, PyTorch처럼 상태(.grad 같은 속성)를 갖지 않는다. 이 제약이 처음에는 불편하지만 익숙해지면 코드가 단순해진다.

NumPyro·Flax·Optax·Equinox 같은 라이브러리가 JAX 위에 쌓이면서 2026년에는 과학 컴퓨팅 가속 스택의 표준이 되었다. Google DeepMind의 Alpha 시리즈도 JAX로 작성된다.


14장 · Flax · Optax · Equinox — JAX 신경망 라이브러리

JAX 자체는 신경망 라이브러리가 아니다. 그 위에 다음 라이브러리가 쌓인다.

  • Flax(flax.readthedocs.io) — Google이 만든 신경망 라이브러리. 함수형 스타일에 잘 어울리는 모듈 추상화. Google DeepMind가 표준으로 채택.
  • Optax(optax.readthedocs.io) — Google DeepMind가 만든 최적화 라이브러리. Adam·AdamW·SGD·Lion·Adafactor 같은 옵티마이저를 함수형 합성으로 표현.
  • Equinox(docs.kidger.site/equinox) — Patrick Kidger가 만든 신경망 라이브러리. Flax보다 간결한 PyTree 기반 클래스 모델.
  • Haiku(2019~2024) — Google DeepMind가 만든 또 다른 신경망 라이브러리. 2024년 이후 Flax로 점진 통합.
  • RLax — 강화학습용 함수 모음.
  • Distrax — 확률 분포 라이브러리(TFP의 함수형 대안).
  • Chex — 테스트·검증 유틸리티.

신규 JAX 프로젝트라면 Flax(Google 정통) 또는 Equinox(간결)가 2026년 표준 선택이다.


15장 · Polars 1.x — Rust 백엔드 데이터프레임의 부상

Polars(pola.rs)는 2020년 Ritchie Vink(네덜란드)가 시작한 Rust 기반 데이터프레임 라이브러리다. 2024년 1.0이 공개되었고, 2026년에는 1.x로 안정화되었다. Polars Cloud라는 상용 서비스도 함께 운영된다.

특징 세 가지가 분석 진영을 흔든다.

  • Rust 백엔드 — pandas의 NumPy/Python 콤보보다 빠르다. 멀티스레드 기본.
  • 레이지 평가scan_csv, scan_parquet로 쿼리를 미리 짜고 한 번에 실행. SQL 옵티마이저처럼 작동.
  • Apache Arrow 포맷 — 데이터프레임이 Arrow 컬럼 형식. DuckDB, PyArrow와 메모리 복사 없이 교환.

pandas에서 Polars로 옮기는 데이터 엔지니어가 늘고 있다. 특히 수 GB ~ 수십 GB 데이터를 단일 노드에서 처리할 때 차이가 크다. 사용 인터페이스는 pandas와 다르며, 학습 곡선이 있다.


16장 · Pandas 2.x · PyArrow · Modin · Dask · Ibis — Python 데이터프레임의 전체 풍경

Pandas(pandas.pydata.org)는 2008년 Wes McKinney가 시작한 Python 표준 데이터프레임. 2023년 Pandas 2.0이 Arrow 백엔드를 정식 지원하면서 성능 격차를 줄였다. 2026년 Pandas 2.2~2.3이 활발히 유지 중.

PyArrow(arrow.apache.org/docs/python)는 Apache Arrow의 Python 바인딩. 컬럼 메모리 포맷, Parquet I/O, Flight RPC를 제공한다. Pandas·Polars·DuckDB가 모두 PyArrow 메모리 위에서 서로 데이터를 주고받는다.

Modin(modin.readthedocs.io)은 pandas API와 100% 호환되면서 Ray 또는 Dask로 분산 실행하는 라이브러리. 코드 한 줄(import 변경)로 멀티코어·다중 노드 확장이 가능하다는 점이 매력.

Dask(www.dask.org)는 2014년 Matthew Rocklin이 시작한 Python 분산 컴퓨팅 라이브러리. 대용량 데이터를 청크로 나눠 NumPy·Pandas·Scikit-learn 연산을 분산 실행한다.

Ibis(ibis-project.org)는 SQL과 비슷한 추상 데이터프레임 인터페이스를 제공해 DuckDB·BigQuery·Snowflake·PostgreSQL·Pandas·Polars 어디서나 같은 코드로 분석할 수 있게 한다. Wes McKinney가 주도한다.

DuckDB(duckdb.org)는 임베디드 OLAP SQL 엔진. SQLite의 분석 버전이라 부른다. Polars·Pandas와 메모리 공유 없이 함께 쓸 수 있다.


17장 · Marimo · Jupyter — 반응형 노트북의 도전

Jupyter(jupyter.org)는 2014년 Fernando Perez 등이 IPython에서 분기해 만든 노트북 도구. 2026년 JupyterLab 4가 안정 버전이다. R·Python·Julia·Scala 등 여러 커널을 지원한다.

Jupyter의 약점은 셀 실행 순서에 따라 상태가 달라진다는 점이다. 같은 노트북을 위에서 아래로 실행한 사람과 임의 순서로 실행한 사람이 다른 결과를 얻을 수 있다. 재현성 위기.

Marimo(marimo.io)는 2023년 Akshay Agrawal과 Myles Scolnick(전 Stanford)이 시작한 반응형 Python 노트북. 셀 간 데이터 의존성을 자동 추적해 한 셀을 바꾸면 그것에 의존하는 모든 셀이 다시 실행된다. Excel의 자동 재계산과 비슷한 모델.

또한 Marimo 노트북은 .py 파일로 저장된다. git diff가 사람이 읽을 수 있고, IDE에서 일반 Python처럼 다룰 수 있다. 2024-2026년 사이 데이터 과학 커뮤니티에서 채택이 빠르게 늘었다.

Observable Notebooks(observablehq.com)는 D3.js 창시자 Mike Bostock이 만든 JavaScript 반응형 노트북. Marimo가 Python으로 시도하는 모델을 JavaScript로 먼저 보여줬다.

Hex(hex.tech), Deepnote(deepnote.com) — 관리형 Jupyter 호스팅. 협업과 데이터 연결에 강점.


18장 · ggplot2 · matplotlib · seaborn · Plotly — 시각화 핵심 도구

ggplot2(ggplot2.tidyverse.org)는 Leland Wilkinson의 "Grammar of Graphics"를 R에 구현한 Hadley Wickham의 패키지(2005~). R 표준 시각화. 학술 출판물에서 가장 자주 보는 통계 그래픽이다.

ggplot2 확장 생태계도 풍부하다.

  • gghighlight — 그룹 강조.
  • patchwork — 다중 패널 합성.
  • ggridges — 산봉우리(joyplot) 그래프.
  • gganimate — 애니메이션.
  • ggrepel — 라벨 충돌 회피.
  • ggdist — 분포 표현.
  • ggtext — 마크다운·HTML 텍스트.

matplotlib(matplotlib.org)는 2003년 John Hunter가 시작한 Python 시각화 표준. 학술 출판물의 Python 측 표준이다.

seaborn(seaborn.pydata.org)은 Michael Waskom이 만든 matplotlib 위 통계 시각화 래퍼. ggplot2와 비슷한 추상화.

Plotly Express(plotly.com/python/plotly-express)는 인터랙티브 시각화. 같은 코드로 정적·인터랙티브·웹 임베드를 한다.

Bokeh(bokeh.org), Altair(altair-viz.github.io), Vega-Lite(vega.github.io/vega-lite), Apache ECharts(echarts.apache.org), D3.js(d3js.org) — 인터랙티브 웹 시각화의 다른 옵션. Altair는 Vega-Lite를 Python에서 부르는 라이브러리.


19장 · scikit-learn · statsmodels · mlr3 — 통계학습 패키지

scikit-learn(scikit-learn.org)은 2007년 INRIA(프랑스)에서 시작된 Python 머신러닝 표준. David Cournapeau의 GSoC 프로젝트가 출발점. 2026년 1.5~1.6이 활발히 유지 중. 회귀·분류·클러스터링·차원축소·전처리·평가까지 한 패키지에 모인다.

statsmodels(www.statsmodels.org)는 scikit-learn보다 통계 검정·회귀 진단에 무게를 둔 Python 라이브러리. OLS·GLM·시계열(ARIMA·VAR)·생존분석·혼합효과 모델까지 R에 가까운 통계 모형을 다룬다.

mlr3(mlr3.mlr-org.com)은 독일 LMU München의 Bernd Bischl 그룹이 만든 R 머신러닝 메타 프레임워크. caret(2007~)·mlr(2013~)의 후속. R6 객체지향 기반으로 tidymodels와는 다른 설계 철학을 가진다.

caret(topepo.github.io/caret)은 Max Kuhn이 만든 R 머신러닝 메타 프레임워크의 1세대. 2026년에도 유지되지만 신규 프로젝트는 tidymodels 권장.

H2O.ai(h2o.ai)는 같은 이름의 회사가 만든 AutoML 플랫폼. R·Python·Java에서 모두 호출 가능. 기업 환경에서 채택이 많다.


20장 · 인과추론 — 2024-2026년의 부상

DoWhy(www.pywhy.org/dowhy)는 2018년 Microsoft Research가 공개한 Python 인과추론 라이브러리. Pearl의 do-calculus를 코드로 옮긴 것이 특징. 2023년 PyWhy 재단으로 옮겨졌다.

EconML(www.microsoft.com/en-us/research/project/econml) — Microsoft가 만든 인과적 머신러닝 라이브러리. 처치효과(treatment effect) 추정에 특화. Double ML, Causal Forest, Meta-Learner를 포함.

CausalML(causalml.readthedocs.io)은 Uber가 만든 비슷한 인과 ML 라이브러리. Uplift 모델링과 마케팅 캠페인 평가에 강점.

CausalImpact(google.github.io/CausalImpact)는 Google이 만든 R 패키지. 베이지안 구조 시계열로 마케팅·정책 개입의 인과 효과를 추정.

DAGitty(www.dagitty.net)는 인과 다이어그램을 그리고 분석하는 웹 도구. R 패키지도 있다.

lavaan(lavaan.ugent.be), sem(R), semopy(Python) — 구조방정식 모형(SEM)을 위한 패키지. 심리학·사회학·교육학에서 표준.

2024-2026년 사이 통계 컴퓨팅에서 가장 활발한 영역이 인과추론이다. 학회, 워크숍, 책 출판이 모두 늘었다.


21장 · MCMC 진단 · 시각화 — 사후 검토 도구

베이지안 추론에서 모델을 짜는 것만큼 중요한 것이 사후 검토(diagnostics)다. 다음 도구가 핵심이다.

  • bayesplot(R, mc-stan.org/bayesplot) — Stan 팀이 만든 진단 그래픽 패키지. ggplot2 기반. 트레이스 플롯, R-hat, ESS, posterior predictive check.
  • posterior(R) — 사후표본 객체 표준. brms·rstan·cmdstanr가 모두 이 객체로 결과를 반환.
  • tidybayes(R, mjskay.github.io/tidybayes) — Matthew Kay가 만든 패키지. 사후표본을 tidy data로 정리해 ggplot2와 자연스럽게 결합.
  • shinystan(R) — Stan 결과를 Shiny 대시보드로 인터랙티브하게 본다.
  • ArviZ(Python, python.arviz.org) — Python 베이지안 진단의 표준. PyMC, NumPyro, Pyro, CmdStanPy 결과를 모두 처리.

R-hat이 1.01 이하, ESS가 충분, 트레이스 플롯이 fuzzy caterpillar이면 수렴했다고 본다. 이 점검을 빠뜨리면 결과를 믿을 수 없다.


22장 · 서베이 · 표본조사 패키지

확률 표본조사 데이터(가중치·층화·집락)는 일반 회귀와 다르게 처리해야 한다. 다음 패키지가 표준이다.

  • survey(R, r-survey.r-forge.r-project.org) — Thomas Lumley(뉴질랜드)가 만든 R 패키지. 1990년대부터 표본 가중·층화·집락을 다룬다. NHANES·PISA·KOSIS 분석의 사실상 표준.
  • srvyr(R) — survey 패키지를 dplyr 문법으로 감싼 패키지. tidy 스타일로 표본조사 분석.
  • samplingbook, PracTools — R의 다른 표본조사 책 부속 패키지.
  • stratasamp — 층화 표본 설계.

공공 데이터셋:

  • PISA(OECD 학업성취도 국제비교 평가).
  • PSID(Panel Study of Income Dynamics, 미시간 대학).
  • NHANES(US National Health and Nutrition Examination Survey).
  • KOSIS(한국 통계청 국가통계포털).
  • e-Stat(일본 정부 통계 포털).

표본조사 통계는 정부·국제기구·역학 연구의 핵심이고, R의 survey 패키지가 사실상 독점적 위치다.


23장 · 한국 통계 컴퓨팅 커뮤니티

한국의 R·통계 커뮤니티는 2010년대 중반 이후 빠르게 자라났다.

  • R-Korea — 한국 R 사용자 모임. 페이스북·디스코드에서 활동.
  • Seoul R Meetup — 정기 오프라인 모임. 발표·튜토리얼·네트워킹.
  • R Korea User Conference — 연 1회 학술대회.
  • Pseudo Lab Korea(pseudo-lab.com) — 한국의 머신러닝 자율 학습 공동체. Python 측 활동이 활발하지만 R 모임도 있다.
  • K-stat — 한국통계학회. 학술지·학회.
  • KSA(한국통계진흥원) — 정부 기관, 통계 교육·인증 시험.
  • 데이터 분석가 협회(KDAA) — 산업 측 데이터 직군 단체.

대학에서는 서울대·연세대·고려대·KAIST 통계학과가 R과 Python을 함께 가르치며, 임상시험·역학·금융 통계에서 R이 여전히 표준이다. 대기업 데이터 직군은 Python을 선호하지만 의료·제약·정부 통계 영역에서는 R이 우위다.


24장 · 일본 통계 컴퓨팅 커뮤니티

일본의 R·통계 커뮤니티는 한국보다 더 오랜 역사를 가진다.

  • Tokyo.R — 도쿄 R 사용자 모임. 2010년 발족, 매월 정기 발표 100회 이상 누적.
  • R-jp — 일본 R 사용자 메일링리스트.
  • Japan.R — 연 1회 일본 전국 R 컨퍼런스.
  • 統計数理研究所(Institute of Statistical Mathematics, ISM) — 1944년 설립된 정부 통계 연구소. 베이지안·시계열 연구의 본거지.
  • PythonとRの統計勉強会 — Python·R 양쪽을 함께 다루는 스터디 모임 다수.
  • DataScience.tokyo — 데이터 과학 커뮤니티 이벤트.
  • JAGS-Japan, Stan勉強会 — 베이지안 도구 한정 스터디.

일본은 학계의 베이지안 연구가 강하고, 통계수리연구소를 중심으로 시계열·공간통계·구조방정식 연구가 활발하다. 동경대·교토대·게이오대·와세다대·오사카대 통계학과·경제학과에서 R과 Stan이 표준이다.

산업 측에서는 NTT 데이터, Recruit, ZOZO, DeNA 같은 대기업의 R&D 부문이 R·Stan을 일상 도구로 쓴다.


25장 · 마무리 — 2026년 통계 컴퓨터의 전체 그림

마무리하면, 2026년 통계 컴퓨팅은 다음 그림이다.

  • R 4.5와 Posit이 재현가능 연구의 표준. 임상시험·금융·정부 통계·학술 출판이 모두 R에 모인다.
  • Tidyverse와 data.table이 R 데이터 조작을 양분한다. dtplyr가 둘을 잇는다.
  • Stan이 NUTS 샘플러의 산업 표준이고, brms와 rstanarm이 R 사용자에게 베이지안을 일상화한다.
  • Pyro·NumPyro와 PyMC 5가 Python 베이지안을 양분한다. NumPyro는 JAX 위에서 GPU 가속이 매력.
  • JAX 스택(Flax·Optax·Equinox)이 과학 컴퓨팅 가속의 새로운 표준이 되었다.
  • Polars 1.x가 Rust 백엔드로 데이터프레임 시장을 흔든다. Pandas 2.x는 Arrow 백엔드로 대응한다.
  • Marimo가 반응형 노트북으로 Jupyter의 약점을 해결한다. Quarto가 R·Python·Julia 통합 출판을 표준화한다.
  • 인과추론(DoWhy, EconML, CausalML, CausalImpact)이 2024-2026년 가장 빠르게 자라는 영역이다.
  • 한국과 일본의 통계 커뮤니티는 모두 R과 Python을 함께 가르치며, 학계는 R·Stan을, 산업은 Python을 선호하는 경향이 보인다.

2027-2028년에는 LLM이 통계 코드 생성과 결과 해석에 깊이 들어올 것이다. 그러나 모델 검증·재현·인과 추론의 책임은 여전히 인간 분석가에게 있다. 도구는 빨라지지만, 통계적 사고는 더 중요해진다.


References