초인간 게임 AI 2026 — Stockfish 17 / Leela Chess Zero / KataGo / AlphaZero / MuZero / Cicero / Pluribus / AlphaStar / 将棋 dlshogi 심층 가이드

프롤로그 — 인간이 이기지 못하는 시대
1장 · 2026년 게임 AI 지도 — 네 가지 분류
2장 · Stockfish 17 — 체스의 최강
- 무엇이 달라졌나 — 알파-베타 + NNUE
- 어떻게 실행하나
- Stockfish는 체스를 풀었나
3장 · Leela Chess Zero (Lc0) — 신경망 기반 체스 엔진
- Stockfish와 어떻게 다른가
- 학습 — 자기 대국 분산
- 누가 Lc0를 쓰나
4장 · Komodo Dragon 3 — 상용 체스 엔진의 마지막 강자
- 특징
- Stockfish가 무료/오픈소스인데 왜 상용을 쓰나
5장 · AlphaZero → MuZero — DeepMind 라인업
- AlphaZero(2017) — 게임 하나의 알고리즘
- AlphaZero가 바꾼 것
- MuZero(2019) — 규칙을 모를 때
- 코드
6장 · Maia — 인간 같은 체스 (MS Research + Toronto)
- 어떻게 만드나
- 왜 중요한가
7장 · KataGo — 바둑 분산 학습의 정점
- 알파고 / 알파고 제로보다 강한가
- 개선점
- 누가 KataGo를 쓰나
- 그리고 Leela Zero (Go)
8장 · AlphaGo — 2016년 그 시리즈
- 알파고 라인업
- 이세돌의 4국, 78수
9장 · Pluribus — 6인 포커의 정복(Meta 2019)
- 핵심 알고리즘 — Monte Carlo CFR + Depth-limited Search
- 무엇이 충격이었나
- 인간이 본 충격적 행동
10장 · Cicero — Diplomacy(2022 Meta)
- Diplomacy가 어려운 이유
- Cicero의 구조
- 결과
11장 · AlphaStar — StarCraft 2 (DeepMind 2019)
- StarCraft 2가 어려운 이유
- 알고리즘
- 결과
12장 · OpenAI Five — Dota 2
- 도타 2가 더 어려운 점
- 결과
13장 · Suphx — 마작 (Microsoft 2019)
- 마작이 어려운 이유
- Suphx의 접근
- 결과
14장 · AlphaProof + AlphaGeometry — IMO 은메달 (2024)
- AlphaGeometry (2024.1, Nature)
- AlphaProof (2024.7)
- 2024 IMO 결과
15장 · 체스 UI — lichess / chess.com / ChessBase / Arena / Banksia / NIBBLER
- lichess.org — FOSS의 끝판왕
- chess.com — 상용 1위
- ChessBase
- Arena, Banksia, NIBBLER — 엔진 테스트용
16장 · UCI와 XBoard 프로토콜
- UCI (Universal Chess Interface)
- XBoard / CECP
- 둘의 차이
17장 · 한국 — NCsoft 한돌, 그리고 이세돌
- 한돌 (NCsoft, Hancho)
- LG 가이드 / 카카오 — 바둑 AI
- 한국에서 바둑 AI의 의미
18장 · 일본 — 将棋 AI 발전사, dlshogi, やねうら王
- 주요 엔진 (시간 순)
- Bonanza의 충격 — Bonanza Method
- やねうら王 — NNUE의 발상지
- dlshogi — 알파제로의 쇼기 버전
- 인간 vs 쇼기 AI — 명인전과 NHK 杯
19장 · 누가 게임 AI를 배워야 하나
- 1) RL 연구자
- 2) 보드게임 엔진 개발자
- 3) 멀티 에이전트 / 협상 AI
- 4) 게임 회사
- 5) 교육 / 코칭
20장 · 마무리 — "초인간"이 의미하는 것
참고 / References

프롤로그 — 인간이 이기지 못하는 시대

2016년 3월, 이세돌은 알파고에게 1승 4패로 졌다. 그해 많은 사람이 "이제 바둑도 끝났다"라고 말했고, 실제로 끝났다. 2017년 알파고 제로는 인간 기보 없이 자기 자신과만 두면서 알파고를 능가했고, 같은 해 알파제로(AlphaZero)는 같은 알고리즘 하나로 체스·쇼기·바둑을 모두 정복했다. 2019년에는 머지(MuZero)가 "게임 규칙을 모른 채로" 같은 일을 해냈다.

체스 쪽도 사정은 비슷하다. Stockfish 17은 인간 세계 챔피언을 어떤 시간 컨트롤에서도 거의 100% 이긴다. Stockfish vs Leela Chess Zero (Lc0)의 TCEC 결승은 사실상 인간이 관전자다. 모바일에서 돌아가는 Stockfish도 인간 그랜드마스터를 이긴다.

하지만 게임 AI는 체스·바둑만이 아니다. Pluribus(Meta 2019)는 6인 무제한 텍사스 홀덤에서 인간 프로를 이겼고, Cicero(Meta 2022)는 자연어로 동맹·배신을 협상하는 Diplomacy에서 상위 10% 성적을 냈다. AlphaStar는 스타크래프트 2에서, OpenAI Five는 도타 2에서, Suphx는 마작에서, 그리고 2024년 AlphaProof + AlphaGeometry는 IMO(국제 수학 올림피아드)에서 은메달 점수를 받았다.

이 글은 2026년 시점에서 "어떤 게임 AI가 어디까지 와 있고, 무엇을 어떻게 하는가"를 한 자리에 정리한다. 단순 연대기가 아니라, 알고리즘(MCTS / NNUE / 자기 대국 / CFR / 모델 기반 RL) 관점에서 같은 가족끼리 묶었다.

1장 · 2026년 게임 AI 지도 — 네 가지 분류

게임 AI를 깔끔하게 나누는 한 가지 축은 정보의 완전성과 플레이어 수다.

분류	정보	플레이어	대표 게임	대표 AI
완전정보 · 2인	공개	2	체스, 바둑, 쇼기	Stockfish, Lc0, KataGo, AlphaZero, dlshogi
완전정보 · 1인(퍼즐)	공개	1	수학 증명	AlphaProof, AlphaGeometry
불완전정보 · 2인	비공개	2	헤즈업 포커	Libratus, DeepStack
불완전정보 · 다인	비공개	3+	6인 포커, 마작	Pluribus, Suphx
불완전정보 + 언어	비공개+NL	7	Diplomacy	Cicero
실시간 · 부분관측	일부 공개	2~10	StarCraft 2, Dota 2	AlphaStar, OpenAI Five

이 축이 중요한 이유는 알고리즘이 달라지기 때문이다.

완전정보 2인 제로섬은 미니맥스가 잘 듣는다 → 알파-베타(Stockfish)나 MCTS + 신경망(Lc0, KataGo, AlphaZero) 둘 중 하나.
불완전정보는 미니맥스가 안 듣는다 → CFR(반사실적 후회 최소화) 계열이 표준. Libratus, Pluribus가 이 길.
다인 + 언어 + 협력은 위 어느 것도 안 듣는다 → Cicero처럼 강화학습 + LLM 결합이 필요.
실시간은 시간이 행동이다 → 정책 신경망 + 분산 셀프플레이(AlphaStar, OpenAI Five).

이 분류를 머리에 두고 다음 장부터 한 종씩 본다.

2장 · Stockfish 17 — 체스의 최강

Stockfish는 2008년부터 시작된 오픈소스 체스 엔진이다. C++로 작성되었고, GPL v3 라이선스, github.com/official-stockfish/Stockfish에서 개발된다. 2026년 현재 최신 안정 버전이 Stockfish 17이며, CCRL과 TCEC 양쪽에서 1위를 굳혔다.

무엇이 달라졌나 — 알파-베타 + NNUE

전통 Stockfish는 **알파-베타 가지치기 + 수많은 휴리스틱(예: null-move pruning, late move reductions, futility pruning)**을 썼다. 평가 함수는 손으로 짠 게임 지식 — 폰 구조, 킹 안전, 모빌리티 등이었다.

**Stockfish 12(2020)**부터 **NNUE(Efficiently Updatable Neural Network)**가 도입됐다. 일본 쇼기 커뮤니티(やねうら王 그룹)의 那須悠 등이 만든 구조로, 작은 신경망을 CPU에서 매우 빠르게 평가하는 게 핵심이다. GPU가 없어도 되고, 한 수 둘 때마다 전체 네트워크를 재계산하지 않고 변한 부분만 업데이트한다 → "Efficiently Updatable".

Stockfish 17의 핵심 특징:

NNUE는 표준, 핸드크래프트 평가는 폴백 정도.
검색은 여전히 알파-베타 기반 — Lc0가 쓰는 MCTS와 정반대 접근.
멀티스레드가 매우 잘 짜여 있어 128코어에서도 거의 선형으로 스케일.
휴대폰에서도 돈다 — iPhone 16 Pro에서 초당 수십만 노드.

어떻게 실행하나

# Linux/macOS — 패키지 매니저로 설치
brew install stockfish              # macOS
sudo apt install stockfish          # Debian/Ubuntu

# 또는 직접 다운로드: https://stockfishchess.org/download/
# UCI 모드로 실행
stockfish

# UCI 세션 예
uci
id name Stockfish 17
id author the Stockfish developers
...
uciok
position startpos moves e2e4 e7e5
go depth 20
info depth 20 seldepth 28 multipv 1 score cp 31 nodes 1234567 ...
bestmove g1f3 ponder b8c6

Stockfish는 체스를 풀었나

"풀었다"라는 말은 강한 의미로는 아직 아니다 — 체스의 게임 트리는 $10^{120}$ 정도라 완전 풀이는 불가능. 하지만 약한 의미로는 사실상 "풀렸다"고 볼 수 있다 — 인간이 Stockfish를 어떤 시간 컨트롤에서도 이기지 못한다. 인간 세계 챔피언(2024년 기준 Ding Liren, 2025년부터 Gukesh Dommaraju)도 마찬가지.

3장 · Leela Chess Zero (Lc0) — 신경망 기반 체스 엔진

Leela Chess Zero(약칭 Lc0)는 알파제로 논문(2017)을 보고 "그럼 우리도 만들어 보자"고 시작된 오픈소스 프로젝트다. lczero.org, github.com/LeelaChessZero/lc0.

Stockfish와 어떻게 다른가

항목	Stockfish 17	Leela Chess Zero (Lc0)
검색	알파-베타 + 휴리스틱	MCTS (PUCT)
평가	NNUE (작은 신경망, CPU)	큰 신경망 (CNN/Transformer, GPU)
하드웨어	CPU 위주, 멀티코어	GPU 위주, NVIDIA RTX 5090이 인기
학습	학습 안 함(평가망만 학습)	자기 대국으로 처음부터 학습
노드/초	수백만~수천만	수만~수십만
스타일	전술적, 계산력	위치적, 직관적

Lc0는 노드 효율(쳤을 때 얼마나 잘 보는가)이 압도적으로 높다. Stockfish가 1초에 1천만 노드를 본다면 Lc0는 10만 노드를 본다 — 그런데 비슷한 강도가 나온다. 이유는 신경망이 "어느 수가 유망한지"를 사전에 알려주기 때문(정책망 + 가치망).

학습 — 자기 대국 분산

Lc0는 수만 명의 자원봉사자가 GPU를 빌려주는 분산 자기 대국 프로젝트다. 각 클라이언트가 매치를 하나 두고 결과를 서버에 올리면 그게 학습 데이터가 된다. RTX 5090 기준 한 시간에 수십 게임을 둘 수 있고, 누적 학습 게임 수는 수십억 판을 넘었다.

# Lc0 + 네트워크 가중치
git clone https://github.com/LeelaChessZero/lc0
cd lc0
./build.sh
# 가중치는 https://lczero.org/play/networks/bestnets/ 에서
# 보통 BT5나 BT4 시리즈가 강함

누가 Lc0를 쓰나

TCEC(Top Chess Engine Championship)에서 Stockfish의 영원한 라이벌.
카를젠, 카르야킨, 카루아나 같은 톱 인간 선수의 오프닝 준비.
ChessBase 통해 데이터로 활용.

4장 · Komodo Dragon 3 — 상용 체스 엔진의 마지막 강자

Komodo Dragon은 Don Dailey와 Larry Kaufman이 만든 체스 엔진. 2018년 chess.com이 인수했고, 2026년 현재 Komodo Dragon 3 버전. 상용 엔진(연간 구독)이지만 chess.com 분석 도구의 기본 엔진이라 사실상 매일 수억 번 호출된다.

특징

NNUE를 일찍 채택(Dragon 1, 2021).
포지셔널 스타일 — 라우프만이 GM 출신이라 그런지, 인간이 보기에 "사람 같은" 수가 종종 나온다.
멀티PV 분석에서 인간이 이해하기 좋은 변화수를 잘 뽑는다 — 그래서 코치용으로 쓰임.
Stockfish보다는 약하지만 톱3에는 든다.

Stockfish가 무료/오픈소스인데 왜 상용을 쓰나

chess.com 같은 상용 서비스는 안정적인 라이선스와 지원이 필요.
"사람이 가르치는 데 쓰는" 분석에서는 Komodo의 직관적 평가가 도움이 된다.
책 분석(chess.com Insights)에서는 Komodo가 표준.

5장 · AlphaZero → MuZero — DeepMind 라인업

AlphaZero(2017) — 게임 하나의 알고리즘

Silver et al., 2017, "Mastering Chess and Shogi by Self-Play..."

MCTS + 깊은 신경망(정책 + 가치).
자기 대국으로만 학습 — 인간 기보 0판.
체스·쇼기·바둑 모두 같은 알고리즘으로 해결.
학습 후 Stockfish 8을 100판 중 28승 0패 72무로 이겼다(2017년 기준 — 이후 Stockfish가 NNUE로 따라잡음).
TPU 5,000개 + TPU 64개로 며칠 학습.

AlphaZero가 바꾼 것

이전까지 체스 엔진은 체스 지식을 사람이 코딩했다. 폰 구조, 킹 안전, 더블 룩, 비숍 페어 — 전부 GM 출신 개발자의 휴리스틱. 알파제로는 그걸 다 버리고 자기 대국만으로 같은 수준에 도달했다. 이게 충격이었다.

MuZero(2019) — 규칙을 모를 때

Schrittwieser et al., 2019, "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"

AlphaZero는 게임 규칙을 알고 있다(다음 수가 어떤 보드가 되는지 안다).
MuZero는 규칙을 모른다 — "다음 보드"를 신경망이 예측한다.
그래서 Atari 같은 픽셀 게임에도 그대로 적용 가능 → 같은 알고리즘으로 보드게임 + Atari를 다 잡았다.
이후 EfficientZero(2021), Stochastic MuZero(2022)로 확장.

코드

DeepMind의 공식 오픈소스는 아니지만 잘 알려진 구현체:

OpenSpiel (github.com/deepmind/open_spiel) — DeepMind 공식 게임 RL 프레임워크. AlphaZero 베이스 포함.
muzero-general (github.com/werner-duvaud/muzero-general) — 인기 있는 PyTorch 구현.

6장 · Maia — 인간 같은 체스 (MS Research + Toronto)

대부분 엔진은 "최강의 수"를 둔다. Maia는 정반대: 인간이 둘 법한 수를 둔다.

만든 곳: Microsoft Research + University of Toronto (Reid McIlroy-Young, Siddhartha Sen, Jon Kleinberg, Ashton Anderson).
논문: KDD 2020, "Aligning Superhuman AI with Human Behavior".
깃허브: github.com/CSSLab/maia-chess.

어떻게 만드나

lichess의 익명 인간 게임 데이터로 학습 — 각 ELO 구간별로 별도 모델.
maia-1100, maia-1500, maia-1900 등 — 숫자는 학습된 대상 ELO.
AlphaZero 스타일 CNN, MCTS는 1 노드(딱 정책망 출력만).
결과: maia-1500은 약 1500 레이팅 인간이 가장 자주 두는 수를 가장 자주 둔다.

왜 중요한가

체스 코칭: 학생의 ELO에 맞춰 "이 자리에서 너 정도 사람은 보통 이렇게 둬"라고 말해줄 수 있다.
AI 안전 연구의 작은 케이스: "강한 AI"가 아니라 "인간과 정렬된 AI"가 필요한 영역.
인간 두기 클래스: lichess의 Maia 봇은 인간이 상대하기에 가장 자연스러운 봇 중 하나.

7장 · KataGo — 바둑 분산 학습의 정점

체스에 Lc0가 있다면 바둑에는 KataGo가 있다.

개발자: David Wu (개인 시작 → 분산 학습으로 성장).
깃허브: github.com/lightvector/KataGo.
알파제로 스타일이지만 여러 가지 학습 효율 개선이 들어가서, 같은 컴퓨트로 더 강하다.

알파고 / 알파고 제로보다 강한가

알파고 마스터(2017)는 이세돌과 둔 알파고보다 훨씬 강했다.
알파고 제로(2017, 사내 종료)는 마스터보다 더 강했다.
KataGo는 분산 학습으로 그 알파고 제로 수준을 오픈소스로 재현했고, 이후 더 강해졌다.

개선점

자체-검증된 보상 모델링(score-based) — "몇 집 차이"를 직접 학습. → 끝내기에서 인간이 보기 좋은 수.
다양한 보드 크기를 한 네트워크가 처리(9x9, 13x13, 19x19).
핸디캡 게임과 비공식 룰(중국식/일본식 카운팅).

누가 KataGo를 쓰나

거의 모든 프로 바둑 기사가 분석 도구로 쓴다.
한국·중국·일본의 모든 기원 연구실이 KataGo를 돌린다.
분석 GUI: Lizzie, KaTrain, Sabaki.

그리고 Leela Zero (Go)

Leela Zero는 KataGo 이전의 분산 바둑 프로젝트로, Lc0의 Go 버전이다. 2017~2019년 알파고 제로 논문을 보고 오픈소스로 재현했다. 이후 KataGo가 더 효율적이라 자원봉사자가 그쪽으로 넘어가서 사실상 종료. 하지만 알파고 제로의 수준을 처음으로 외부에서 재현했다는 역사적 의미가 있다.

8장 · AlphaGo — 2016년 그 시리즈

2026년 시점에서 AlphaGo는 "역사"지만, 게임 AI 연대기의 분기점이다.

알파고 라인업

버전	연도	특징	결과
AlphaGo Fan	2015	CNN + MCTS, 인간 기보로 사전 학습	판후이(유럽 챔피언) 5:0
AlphaGo Lee	2016	더 큰 정책망, 분산 추론	이세돌 4:1
AlphaGo Master	2017.1	단일 신경망, 일부 자기 대국	온라인에서 60연승, 커제 3:0
AlphaGo Zero	2017.10	인간 기보 0, 자기 대국만	Master 89:11
AlphaZero	2017.12	같은 알고리즘으로 체스·쇼기·바둑 일반화	Stockfish 8 / Elmo / AlphaGo Zero 격파

이세돌의 4국, 78수

2016년 3월 13일 4국. 이세돌은 78수에 "끼는 수"(神의 한 수, divine move)를 두었다. 알파고의 평가 함수가 이 수를 거의 0%의 확률로 예측했고, 이후 형세를 잘못 판단하면서 이세돌이 이겼다. 인간이 강한 바둑 AI를 이긴 마지막 공식 대국으로 기록된다(2025년 현재까지).

이세돌은 2019년 은퇴하면서 "AI를 이길 수 없는 게임을 계속 할 이유가 없다"는 취지의 발언을 했다. 한국 사회에서 AlphaGo는 단순한 AI 사건이 아니라 **"이세돌의 4국"**으로 기억된다.

9장 · Pluribus — 6인 포커의 정복(Meta 2019)

체스·바둑은 완전정보 게임이라 미니맥스가 통한다. 포커는 다르다 — 상대 카드를 모르고, 운이 섞이고, 블러프(허세)가 게임의 일부.

논문: Brown & Sandholm, 2019, "Superhuman AI for multiplayer poker" (Science).
만든 곳: Facebook AI Research(현 Meta) + Carnegie Mellon University.

핵심 알고리즘 — Monte Carlo CFR + Depth-limited Search

CFR(Counterfactual Regret Minimization): 불완전정보 게임의 표준 학습 알고리즘. "이 시점에 다른 행동을 했다면 얼마나 후회했을까"를 누적해서 전략을 갱신.
Blueprint strategy: 오프라인 자기 대국으로 거대한 "기본 전략"을 학습. 약 8일, 1만 2,400 CPU 코어.
실시간 depth-limited search: 대국 중에는 몇 수만 깊이로 다시 푼다. 한 손당 약 20초.

무엇이 충격이었나

헤즈업(2인) 포커는 2017년 Libratus가 이미 인간을 이겼다.
6인은 차원이 다른 문제다 — 멀티에이전트, 협력 가능성, 사이드 베팅. CFR 수렴 이론이 약하다.
Pluribus는 이론적 보장 없이도 인간 톱 프로들을 통계적으로 유의미하게 이겼다(13명 프로, 1만 손).
하루 $1,000 짜리 클라우드 서버로 돌았다 — 알파제로처럼 슈퍼컴이 필요 없다.

인간이 본 충격적 행동

랜덤화된 베팅 사이즈 — 같은 핸드에서도 베팅 액수가 매번 다르다 → 상대가 패를 읽지 못함.
도네이션 베트(donk bet) — 인간 프로들이 거의 쓰지 않던 수를 자주 씀.
블러프 비율의 게임이론적 최적화 — 너무 자주도, 너무 적게도 안 함.

10장 · Cicero — Diplomacy(2022 Meta)

Pluribus가 "수학적으로 어려운" 게임이라면, Cicero가 푼 게임 Diplomacy는 언어와 인간 협상이 어려운 게임이다.

논문: Bakhtin et al., 2022, "Human-level play in the game of Diplomacy by combining language models with strategic reasoning" (Science).
만든 곳: Meta AI.

Diplomacy가 어려운 이유

7명의 플레이어가 유럽 지도에서 동맹과 배신을 한다.
매 턴 자유 협상 채팅이 있다. 메시지에서 어떤 정보를 흘릴지, 누구와 동맹할지가 곧 게임의 본질.
거짓말이 가능하다 — 동맹을 약속하고 배신해도 룰 위반이 아님.
운(주사위) 없음, 비대칭 정보 + 다인 협력 + 언어.

Cicero의 구조

언어 모델 (LLM) — Diplomacy 채팅 데이터로 미세 조정한 27억 파라미터 BART.
전략 모델 — 자기 대국으로 학습한 정책 네트워크. RL 기반.
의도 추론 → 메시지 생성 → 행동 결정 — 자신의 의도와 상대 의도를 동시에 모델링.

결과

온라인 webDiplomacy의 익명 토너먼트에서 **상위 10%**에 안착(40판 평균 점수가 인간 평균의 2배).
단 한 번도 "AI 같다"고 의심받지 않음 — 인간 플레이어와 자연스럽게 대화하면서 게임을 이김.
거짓말은 의도적으로 학습하지 않음 — 일관성이 깨지면 동맹 자체가 무너지기 때문. 결과적으로 "정직한 협력자"가 더 강했다.

이건 단순한 게임 AI를 넘어서 자연어 + 전략 + 다인 협상이라는 인간 사회의 핵심을 AI가 다룰 수 있음을 보여준 분기점이다.

11장 · AlphaStar — StarCraft 2 (DeepMind 2019)

논문: Vinyals et al., 2019, "Grandmaster level in StarCraft II using multi-agent reinforcement learning" (Nature).

StarCraft 2가 어려운 이유

실시간 — 턴이 없다. 한 게임에 수만 번 클릭.
부분 관측 — 안개(fog of war)로 상대가 안 보임.
거대한 행동 공간 — 매 프레임 수백만 가지 행동 조합.
장기 보상 — 게임이 끝나야 승패가 정해짐(수십 분).
세 종족(Terran/Zerg/Protoss)이 비대칭.

알고리즘

셀프플레이 강화학습 + 리그(League) 시스템.
다양한 "스타일"의 봇들이 서로 두고, 새 봇은 "현재 챔피언이 이기지 못하는 스타일"을 학습.
이게 다양한 메타를 자동 발견하게 만든다.
16개 TPU에서 14일 학습.

결과

Battle.net 사다리에서 그랜드마스터(상위 0.2%) 등급에 도달.
인간 프로 MaNa, TLO를 시리즈로 이김(공개 경기 5:0).
인간이 보기엔 "비인간적인 마이크로컨트롤"(예: 200 APM 이상의 동시 컨트롤)과 "비인간적인 전략"(예: 계속해서 멀티태스킹)을 보여줌.

12장 · OpenAI Five — Dota 2

블로그: openai.com/research/openai-five.
만든 곳: OpenAI (2017~2019).

도타 2가 더 어려운 점

5 vs 5 팀 게임 — 협력이 본질.
시간 스케일이 더 길다 — 한 판 평균 45분.
영웅 100명 이상 — 행동 공간이 더 넓음.
장기 전략(아이템 빌드, 라이닝, 후반 한타) + 단기 마이크로.

결과

2018 OG와의 데모, 2019 World Champion OG팀에게 2:0 승.
약 256개 GPU + 12만 8천 CPU로 10개월 학습.
학습 누적 게임 시간 약 45,000년.

이건 사실상 분산 강화학습의 산업 규모 데모였다. OpenAI Five가 보여준 게 OpenAI를 OpenAI로 만든 셀프플레이 + 대규모 컴퓨트 패러다임의 출발이다(이후 GPT 라인).

13장 · Suphx — 마작 (Microsoft 2019)

Li et al., 2019, "Suphx: Mastering Mahjong with Deep Reinforcement Learning".

마작이 어려운 이유

4인 게임 — 두 사람 게임이 아님.
손패가 비공개 + 드로(draw)가 있음.
점수 시스템이 게임 단위가 아니라 반장(半荘) 단위로 누적 → 장기 의사결정.
일본식 리치 마작에는 "텐파이", "야쿠", "도라" 등 복잡한 룰.

Suphx의 접근

학습 모델: ResNet + 그래디언트 모니터링 RL.
트레이닝 트릭: Global reward prediction(이번 손의 행동이 게임 전체에서 얼마나 가치 있는지를 예측).
Run-time policy adaptation — 게임 진행에 따라 정책을 미세 조정.

결과

일본 온라인 마작 플랫폼 Tenhou(천봉) 에서 十段(10단) 도달 — 상위 0.01%, 인간 톱 플레이어 수준.

14장 · AlphaProof + AlphaGeometry — IMO 은메달 (2024)

게임은 아니지만 수학 증명도 본질적으로 거대한 탐색 문제다. DeepMind는 이걸 게임 AI 기법으로 푼다.

AlphaGeometry (2024.1, Nature)

Trinh et al., 2024, "Solving olympiad geometry without human demonstrations".

평면 기하 문제에 특화.
신경망(언어 모델)이 보조선을 제안 → 기호 추론기가 검증.
IMO 2000~2022 기하 문제 30문제 중 25문제 풀이 (인간 IMO 금메달리스트가 평균 25.9문제).

AlphaProof (2024.7)

DeepMind 블로그: deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level.

Lean 4 정형 증명 언어로 증명을 작성.
자연어 문제 → 형식화 → 증명 파이프라인.
AlphaZero 스타일의 자기 대국 강화학습으로 증명 탐색.

2024 IMO 결과

IMO 6문제 중 4문제 만점(28점/42점).
은메달 점수(2024 은메달 컷오프는 29점이라 1점 차로 못 받았으나, 사실상 상위 25%).
1번, 2번(AlphaProof) / 4번(AlphaGeometry) / 6번(AlphaProof). 3번, 5번은 시간 내 못 풂.

15장 · 체스 UI — lichess / chess.com / ChessBase / Arena / Banksia / NIBBLER

엔진이 아무리 강해도 인간이 쓰려면 UI가 필요하다. 2026년의 체스 UI는 다음과 같이 정리된다.

lichess.org — FOSS의 끝판왕

무료, 광고 없음, 오픈소스(AGPL v3).
lichess.org, github.com/lichess-org/lila.
분석 엔진은 Stockfish가 기본 — 브라우저에서 WebAssembly로 로컬 실행.
고난도 분석은 fishnet이라는 자원봉사 분산 네트워크로 처리.
월 매치 수가 1억 판을 넘는다.
한국에서도 무료 + 빠른 서버라 점유율이 빠르게 높아짐.

chess.com — 상용 1위

월간 5천만 명 이상.
분석 엔진: Stockfish + Komodo Dragon(Komodo는 chess.com 소유).
학습 강의(GM 강의 라이브러리), 봇 대국, 토너먼트.
매그너스 카를젠 등 최고 GM들이 chess.com 대표 토너먼트(Speed Chess Championship)에 출전.

ChessBase

독일 회사 ChessBase의 데이터베이스 + 엔진 통합 데스크탑 도구.
대회 준비의 사실상 표준 — Mega Database에 1,000만 게임 이상.
엔진은 Fritz, Komodo, Stockfish 모두 UCI로 연결.
가격이 비싸지만(연 €100~) 프로 GM의 필수 도구.

Arena, Banksia, NIBBLER — 엔진 테스트용

Arena (playwitharena.de) — 클래식 무료 윈도우 체스 GUI. UCI/XBoard 엔진 연결 표준.
Banksia GUI (banksiagui.com) — 비교적 최근 GUI. CCRL 비공식 표준.
NIBBLER (github.com/rooklift/nibbler) — Lc0에 특화된 GUI. 정책망 출력을 시각화해서 보여준다.

16장 · UCI와 XBoard 프로토콜

엔진과 GUI가 통신하는 표준이 두 가지 있다.

UCI (Universal Chess Interface)

Stefan Meyer-Kahlen이 1990년대 후반에 만든 표준. 거의 모든 현대 엔진이 UCI를 쓴다.

# GUI → 엔진
uci                                    # 엔진에게 "UCI 모드"로 진입하라
setoption name Threads value 8
isready
position startpos moves e2e4 e7e5
go wtime 60000 btime 60000

# 엔진 → GUI
id name Stockfish 17
uciok
readyok
info depth 20 score cp 31 ...
bestmove g1f3 ponder b8c6

XBoard / CECP

훨씬 오래된 프로토콜(1990년대 초). 일부 클래식 엔진(Crafty, GNU Chess)이 여전히 사용. lichess는 XBoard 형식의 봇도 지원.

둘의 차이

항목	UCI	XBoard/CECP
등장	1990년대 후반	1990년대 초
시간 관리	GUI가 보내준다	엔진이 직접 클럭 측정
옵션	`setoption` 통일	엔진별로 다름
점유율	압도적 1위	레거시 위주

요즘은 새 엔진을 만들면 그냥 UCI로 만든다.

17장 · 한국 — NCsoft 한돌, 그리고 이세돌

한돌 (NCsoft, Hancho)

NCsoft AI 센터가 만든 한국형 바둑 AI. 2017년에 처음 공개, 2019년 12월 이세돌과의 은퇴 직전 대국에서 1국 승리, 2~3국 패배로 시리즈를 1:2로 졌다.

이세돌이 1국에서 78수에 좌측 변에 침입을 했고, 한돌이 평가를 잘못해서 이세돌이 이겼다.
이 1승이 이세돌이 공식 대국에서 AI를 이긴 마지막 승으로 기록된다(2025년 현재까지).

이후 한돌은 NCsoft 내부 연구로 남았고, 일반 대중에게는 공개 분석 도구로 적극 출시되진 않았다. 대신 NCsoft는 게임 AI 일반(예: 리니지 NPC, 강화학습 기반 콘텐츠) 쪽으로 방향을 옮겼다.

LG 가이드 / 카카오 — 바둑 AI

LG도 2010년대 후반 자체 바둑 AI를 만들었으나 한돌만큼 가시화되진 않았다.
카카오 브레인은 한때 자체 바둑 AI(Kataja 등 코드명)를 실험했으나 KataGo 오픈소스 기여 쪽으로 무게중심을 옮김.

한국에서 바둑 AI의 의미

이세돌 vs AlphaGo는 AI라는 단어가 한국 대중에게 처음 일상화된 사건이다. 2016년 3월 이전과 이후로 "AI"라는 단어의 빈도가 다르다. 정부 차원의 AI 산업 정책(예: 2019년 인공지능 국가전략)도 직접적으로 이 사건의 영향이다.

18장 · 일본 — 将棋 AI 발전사, dlshogi, やねうら王

쇼기(将棋, Shogi)는 일본 장기. 잡은 말을 다시 둘 수 있어서 체스보다 게임 트리가 훨씬 크다. 일본 컴퓨터 쇼기 커뮤니티는 1990년대부터 매우 활발했다.

주요 엔진 (시간 순)

엔진	연도	핵심
激指 (Gekisashi)	1990년대	일본 첫 강한 쇼기 엔진
ボナンザ (Bonanza)	2005	기계학습 평가함수의 시조 — 보든 와타루(保木邦仁)
GPS将棋	2009	도쿄대 GPS 그룹
Ponanza	2013~17	명인전(名人戦) 첫 인간 승리(2013)
Apery	2014	오픈소스
やねうら王 (Yaneura-ou)	2015~	현재 일본 표준 엔진 — NNUE 발상지
dlshogi	2018~	알파제로 스타일 NN. RTX 시리즈로 학습

Bonanza의 충격 — Bonanza Method

보든의 2006년 논문 — 평가함수의 가중치를 프로 기보로부터 최적화 학습으로 얻는 방법. 이게 체스의 NNUE보다도 10년 빠른 기계학습 평가함수의 시작이다. 이후 Stockfish의 NNUE 발상에도 영향.

やねうら王 — NNUE의 발상지

야네우라(やねうら, Motohiro Isozaki)가 만든 오픈소스 쇼기 엔진. NNUE를 처음 실용화한 곳. 나중에 Stockfish가 이걸 체스로 가져갔다. 일본 컴퓨터 쇼기 선수권에서 우승하는 게 대부분 やねうら王 변종이다.

dlshogi — 알파제로의 쇼기 버전

깃허브: github.com/TadaoYamaoka/DeepLearningShogi.

알파제로 스타일 — CNN + MCTS, 자기 대국.
やねうら王(NNUE)과 dlshogi(딥러닝)는 서로 다른 접근으로 비슷한 강도.
2021년 세계 컴퓨터 쇼기 선수권 우승.
RTX 4090, RTX 5090을 두 대 묶어 학습 데모 — 일본에서 GPU 학습의 사실상 레퍼런스.

인간 vs 쇼기 AI — 명인전과 NHK 杯

명인전(名人戦): 일본 쇼기의 가장 격조 높은 타이틀.
2013년 Ponanza가 사토 아마히코(현 명인) 등 톱 프로를 이김 → 인간과 AI의 공식 대결은 더 이상 의미 없음으로 분위기 전환.
NHK 杯: 빨리 두기 시범 경기에 AI가 참여하기도 함(공식 타이틀이 아니라 이벤트성).

19장 · 누가 게임 AI를 배워야 하나

1) RL 연구자

AlphaZero, MuZero, AlphaStar, Cicero는 RL 교과서다.
OpenSpiel, RLlib, JAX/Acme로 직접 실험 가능.
게임은 환경이 깔끔해서 RL 연구의 거의 표준 벤치마크.

2) 보드게임 엔진 개발자

Stockfish, Lc0, KataGo는 단일 게임에서 어디까지 최적화할 수 있는가의 표본.
C++/CUDA를 정말 깊게 다루고 싶다면 좋은 진입점.

3) 멀티 에이전트 / 협상 AI

Cicero, Pluribus는 다인 + 협력 + 자연어의 학술 표준 사례.
LLM 에이전트 + 협상 시스템 만들 거면 이 두 논문은 필독.

4) 게임 회사

게임 내 봇, 매치메이킹, 콘텐츠 생성에 RL이 들어옴.
NCsoft 한돌, OpenAI Five 같은 사례.

5) 교육 / 코칭

Maia, 그리고 chess.com / lichess의 코치 봇.
학생 ELO에 맞춰 "사람 같은" 상대를 만드는 일.

20장 · 마무리 — "초인간"이 의미하는 것

2026년의 게임 AI는 거의 모든 표준 게임에서 인간보다 강하다. 체스, 바둑, 쇼기, 헤즈업/멀티웨이 포커, StarCraft 2, Dota 2, 마작, Diplomacy까지. 그리고 IMO 수학 올림피아드도 은메달 수준.

하지만 이게 끝이 아니다. 새 게임 — 예를 들어 MMO PvE 던전 클리어, MOBA의 새로운 영웅 메타 발견, 카드게임의 새 카드세트 출시 직후의 메타 탐색 — 같은 영역은 여전히 활발히 연구 중이다.

그리고 더 흥미로운 방향은 **"인간과 같은 AI"**다 — Maia처럼, Cicero처럼. 단순히 더 강한 AI가 아니라, 인간과 함께 두고, 인간이 이해할 수 있게 두고, 인간을 가르치는 AI.

게임 AI는 끝나지 않았다. 다만 "이긴다"가 더 이상 목표가 아닌 시대로 들어섰을 뿐이다.