AI 에이전트 & LLM 벤치마크 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena 심층 가이드

프롤로그 — 모델 회사 발표 슬라이드에 나오는 그 점수들

2026년 어떤 모델 회사든 신모델 출시 슬라이드에 같은 표를 띄운다.

SWE-bench Verified 70%대
MMLU-Pro 80%대
GPQA Diamond 60%대
LiveCodeBench Hard 50%대
AIME 80%대
Chatbot Arena Elo 1400+

각 숫자 옆에는 작은 별표가 붙어 있고, "best-of-k" 또는 "with thinking" 같은 단서가 달려 있다. 이걸 본 우리 팀의 PM이 묻는다 — "그래서 이번 모델, 우리 코드베이스에서 더 잘 돌아요?"

대답은 안타깝게도 "아마"다. 벤치마크 점수는 모델의 능력에 대한 간접 신호다. 우리 도메인에서의 실제 성능은 우리가 직접 측정해야 한다. 그런데도 벤치마크는 여전히 중요하다 — 공통 좌표계를 만들기 때문이다. 모델 A가 B보다 SWE-bench에서 10점 높으면, 우리 도메인에서도 그럴 가능성이 높다(보장은 아니다).

이 글은 2026년 현재 가장 의미 있는 30+ 종의 AI 벤치마크를 한 장에 정리한다. 각 벤치마크가 무엇을 측정하고, 어떻게 채점하며, 어디서 게이밍되는지까지. 그리고 우리가 모델을 고를 때 어떤 점수를 봐야 하는지.

1장 · 2026년 AI 벤치마크 지도 — 4 분류

벤치마크는 측정하는 대상에 따라 크게 4가지로 나눌 수 있다.

분류	측정 대상	대표 벤치마크
코드 / SWE	실제 소프트웨어 작업을 끝내는가	SWE-bench Verified, LiveCodeBench, Aider polyglot, HumanEval, MBPP
에이전트 / 도구	도구 호출 + 다단계 작업 완수	AgentBench, WebArena, GAIA, AppWorld, ToolBench, RE-Bench
추론 / 지식	학술 지식 + 추론	MMLU-Pro, GPQA Diamond, BIG-bench Hard, AGIEval, AIME, MATH, GSM8K, Frontier Math
종합 / 정성	사람이 보기에 좋은가	Chatbot Arena, AlpacaEval, MT-Bench, Open LLM Leaderboard, HELM

추가로 두 축이 가로지른다.

사실성 / 안전성: TruthfulQA, FACTSCORE
로컬 / 다국어: KMMLU, HAERAE-bench, JMMLU, ELYZA-tasks-100

핵심 통찰: 하나의 벤치마크로 모델을 평가할 수 없다. 각 벤치마크는 좁은 슬라이스만 본다. 모델 회사들이 발표할 때 4~6개를 한꺼번에 묶어 보여주는 이유다. 우리도 모델을 비교할 때 최소 3개 이상의 벤치마크를 교차 검증해야 한다.

또 하나: 벤치마크는 시간이 지나면 죽는다. 모델이 만점에 가까워지면 그 벤치마크는 더 이상 변별력을 못 만든다. MMLU(2020)는 만점에 도달했고 MMLU-Pro가 대체했다. HellaSwag(2019)도 비슷한 운명. SWE-bench Verified도 2027년쯤이면 죽을 가능성이 높다. 새 벤치마크가 계속 나오는 이유.

2장 · SWE-bench — 가장 중요한 SWE 벤치마크

2024년 이후 코딩 에이전트를 평가하는 단일 벤치마크 중 가장 큰 영향력을 가진 것이 SWE-bench다.

배경: 프린스턴 NLP 그룹이 2023년에 공개. 핵심 아이디어는 실제 오픈소스 프로젝트의 실제 이슈를 가져와서, 에이전트가 그걸 패치해서 실제 테스트가 통과하는지 측정한다는 것. 합성 문제가 아니다.

데이터셋 구조:

12개 인기 파이썬 라이브러리(django, flask, sympy, scikit-learn, requests 등)
2,294개의 (issue, PR, test) 트리플
각 task = issue 설명 + 해당 리포지터리 스냅샷
에이전트가 패치(diff)를 생성 → 패치 적용 → 테스트 실행 → 통과/실패

채점:

"Resolved": 해당 PR이 머지된 후 새로 추가된 테스트가 통과
"Applied": 패치가 적어도 적용은 됨

2024년 초만 해도 SWE-bench 풀 세트의 최첨단(SOTA) 점수가 2~~3%였다. 2025년 말 들어 50~~70%대까지 올랐다. 2026년 현재 상위 에이전트는 70%대 후반.

왜 중요한가? SWE-bench는 단순한 코딩 문제가 아니라 SWE 워크플로 전체를 본다. 이슈를 읽고, 리포지터리를 탐색하고, 관련 파일을 찾고, 변경하고, 테스트가 통과하는지 확인하는 — 실제 엔지니어가 하는 일. 코딩 능력 + 에이전트 능력 + 도구 사용 능력을 한꺼번에 본다.

한계:

모두 파이썬, 모두 오픈소스, 12개 라이브러리에 편중
일부 task는 issue 설명에 정답이 새고 있음(leakage)
일부 task는 test가 너무 까다롭거나 불가능에 가까움
채점 인프라가 비싸다(Docker 컨테이너 2,294개)

이 한계들이 SWE-bench Verified로 이어진다.

3장 · SWE-bench Verified — OpenAI의 500개 정제 (2024.8)

2024년 8월, OpenAI가 SWE-bench의 정제 버전을 공개했다. 이름 그대로 "검증된" 500개의 task만 골라낸 것.

작업 과정:

93명의 전문 SWE에게 SWE-bench의 모든 task를 검토하게 함
각 task에 대해 4가지를 평가
- issue 설명이 명확한가
- test가 합리적인가(너무 좁지도 너무 넓지도 않은가)
- 해결책에 unit test 외 다른 환경 요구사항은 없는가
- 솔루션이 합리적인 시간 안에 가능한가
모든 면에서 합격한 task만 선별 → 500개

결과: SWE-bench 풀 세트와 비교했을 때 점수가 더 정확하다고 평가받는다. 2025년부터 모델 회사들의 공식 발표 슬라이드에서 "SWE-bench Verified" 점수가 표준이 되었다.

2026년 현재 점수 분포(대략적, 발표 자료 기준):

모델	SWE-bench Verified
Claude Sonnet 4.5 (with thinking)	~70%
GPT-5 (verified harness)	~65%
Gemini 2.5 Pro (deep think)	~60%
Llama 4 405B + agent	~45%
오픈소스 7B + harness	~15%

주의: 점수는 harness에 크게 의존한다. 같은 모델이라도 OpenHands, SWE-agent, Aider 등의 harness에 따라 ±10% 변동 가능. 그래서 "Claude 70%"보다 "Claude + harness X 70%"가 더 정확한 표현이다.

게이밍 가능성:

일부 모델은 SWE-bench의 task가 학습 데이터에 들어갔을 가능성
그래서 OpenAI는 cutoff date 이후 새 task를 추가하는 SWE-bench Live를 별도 운영
또한 SWE-bench Multimodal로 확장

4장 · SWE-bench Multimodal — 새 차원

2024년 말, SWE-bench Multimodal이 공개됐다. JavaScript/TypeScript 프로젝트(주로 React, Vue 등 프론트엔드)와 함께 이미지를 보고 수정하는 task를 포함.

예시 task:

첨부된 스크린샷에서 버튼이 잘못 정렬된 것을 보고, 해당 CSS를 수정하라
UI 디자인 mockup을 받아서 그에 맞게 컴포넌트를 수정하라

왜 중요한가? 실제 프론트엔드 작업은 시각적인 작업이다. 이슈에 스크린샷이 첨부되는 경우가 많다. 텍스트만 처리하는 모델은 이런 task를 못 푼다.

데이터셋:

17개 JS/TS 인기 리포지터리
619개 task(이미지 포함)

2026년 현재 상위 모델은 30~40%대. SWE-bench Verified보다 한참 낮다. 멀티모달 추론 + 시각 + 코드가 한꺼번에 들어가서 어려운 문제.

5장 · AgentBench / WebArena / GAIA — 에이전트 능력 측정

코드만으로는 에이전트 능력을 다 못 본다. 도구 호출, 다단계 추론, 환경 상호작용을 다루는 별도 벤치마크들.

AgentBench (칭화대, 2023)

8개 환경에서 LLM 에이전트의 성능을 측정. OS(터미널 작업), DB(SQL), KG(지식 그래프), DCG(디지털 카드 게임), Lateral Thinking Puzzles, House Holding(가상 환경), Web Shopping, Web Browsing. LLM이 다양한 환경에 얼마나 일반적으로 적응하는지를 본다.

WebArena (CMU, 2023)

웹 브라우징 에이전트 전용. 4개 실제 같은 웹 사이트(쇼핑, 깃랩 클론, 레딧 클론, 지도 등)에서 에이전트가 자연어 task를 수행. "X 사이트에서 Y 상품을 찾아 장바구니에 넣고 주소를 Z로 변경하라" 식의 작업. 채점은 최종 상태가 의도한 상태인지로 결정론적 채점.

핵심 가치: 사람의 웹 작업을 자동화하는 능력을 잰다. 2024년만 해도 SOTA가 14%대였는데 2026년에는 40~50%대로 올랐다.

GAIA (Meta AI, 2023)

General AI Assistant 벤치마크. 466개의 실제 사람이 만든 task를 3 난이도로 나눔.

Level 1: 5단계 미만, 간단한 도구 사용
Level 2: 5~10단계
Level 3: 매우 복잡한 멀티스텝 + 멀티모달

예시 task: "이 PDF에 나온 X의 인용 논문 중 Y년 이후에 출판된 것의 저자 중 Z 대학 출신인 사람의 이름을 알려달라". 답은 정확히 하나로 채점이 단순한데, 그 답에 도달하기 위해 검색·PDF 파싱·계산·논리 추론을 다 해야 한다.

2026년 현재 평균 정답률 60%대(상위 모델, 도구 풀세트). 사람 평균이 90%대. 격차가 줄고 있지만 아직 사람이 우위.

6장 · ARC-AGI 2 (Chollet) — 1M 달러 상금

프랑수아 샹폴레가 2019년에 만든 ARC(Abstraction and Reasoning Corpus)는 시각적 패턴 추론 문제다. 격자 위의 색깔 패턴을 보고 변환 규칙을 추론하는 task. 사람에겐 쉽지만, 모델에겐 어렵다.

2024년에 ARC-AGI 2가 공개되었고 1M 달러(100만 달러) 상금이 걸렸다. 조건: 공개 leaderboard에서 사람 평균(85%) 수준에 도달하는 솔루션.

ARC가 어려운 이유:

각 task가 unique한 추상화 규칙
학습 셋(few-shot 예시) 외에 일반화가 필요
모델이 본 적 없는 패턴
단순한 패턴 매칭으로 풀리지 않음

2024년 OpenAI o1 / o3가 ARC에서 큰 진보를 보였다. o3 high가 75%대에 도달. 그러나 비용이 task당 수십~수백 달러로 실용성 의문.

2026년 현재:

ARC-AGI 1(원래 버전): 상위 모델 80%대
ARC-AGI 2(신버전, 더 어려움): 50%대
비용 효율적인 솔루션은 아직 없음

샹폴레의 입장은 일관되다: "이게 풀리면 우리는 AGI에 더 가까워진 것이다. 그러나 GPT가 푼 방식은 진짜 추론이 아니라 무차별 대입에 가깝다." 효율성을 강조하는 이유다.

7장 · RE-Bench (METR) — 연구 엔지니어링 능력

METR(Model Evaluation & Threat Research)는 2024년에 RE-Bench를 공개했다. 핵심 질문: "AI가 AI 연구 엔지니어 일을 얼마나 잘 하는가?"

이건 자기 참조적인 질문이다. AI가 AI를 만드는 일을 잘 하면 능력이 폭발적으로 가속될 수 있기 때문. METR는 안전 연구 관점에서 이 능력을 정밀하게 측정한다.

RE-Bench task 예시:

주어진 PyTorch 모델의 throughput을 X% 향상
분산 학습 코드를 작성하고 N GPU에서 돌아가게 함
특정 학습 metric을 개선하는 데이터 전처리 파이프라인 구축
디버깅 — 의도적으로 결함이 있는 코드 베이스에서 버그 찾기

채점: 사람 ML 엔지니어가 8시간 동안 했을 때의 성과 대비. 즉, "AI는 사람 엔지니어 N시간 분량의 일을 했나"가 단위.

2025년 결과:

Claude 3.5 Sonnet: 사람 2시간 분량의 일을 8시간 만에
GPT-4o: 사람 2시간 미만
Claude Sonnet 4.5 + Codex 5: 사람 4~6시간 분량을 8시간 만에

2026년 들어 격차가 빠르게 줄고 있다. METR가 추적하는 "AI 자체 능력 가속" 지표가 의미를 갖기 시작했다.

8장 · Frontier Math (Epoch AI) — 최고난도 수학

2024년 11월, Epoch AI가 Frontier Math를 공개. 현직 수학 박사들이 수 시간에서 며칠씩 걸리는 문제 60개.

특징:

답이 자동 검증 가능(수치 또는 형식 표현)
인터넷이나 LLM의 학습 데이터에 없음(전부 신규)
수학 박사들이 직접 만들고 다른 박사들이 검토
정수론, 대수기하, 해석학, 위상수학 등 다양한 분야

발표 당시 SOTA 모델들의 성능: 2%대. 그게 사람이 만든 가장 어려운 수학 벤치마크.

2025년에 OpenAI o3 high가 25%대에 도달해 화제. 단, 시간 + 컴퓨팅이 엄청나게 들어감(task당 수백 달러 이상).

2026년 현재:

일반 모델(GPT-5, Claude Sonnet 4.5): 10~15%대
"Thinking" 모드 + 멀티에이전트 + 도구: 30~40%대
사람 수학 박사: 평균 50%대(8시간 기준)

아직 AI가 사람 박사보다 못 한 영역. Frontier Math는 그 격차를 정확히 보여주는 좌표.

9장 · HumanEval / MBPP / LiveCodeBench / CodeBench

코딩 능력의 좀 더 좁은 슬라이스를 보는 벤치마크들.

HumanEval (OpenAI, 2021)

164개의 파이썬 함수 작성 task. 함수 시그니처 + docstring → 본문 작성 → 테스트 통과. 가장 오래된 표준 코딩 벤치마크.

2026년 현재 상위 모델은 95%대. 사실상 saturated. 변별력이 거의 없다. 그래도 빠르고 싸서 sanity check로 계속 사용.

MBPP (Google, 2021)

Mostly Basic Python Problems. 974개의 초급~중급 파이썬 문제. HumanEval보다 다양하고 약간 더 어렵다. 비슷한 운명 — 상위 모델은 90%대.

LiveCodeBench (UC Berkeley, 2024)

LeetCode, AtCoder, Codeforces에서 지속적으로 새 문제를 추가하는 벤치마크. 모델 cutoff date 이후의 문제만 사용 → 학습 데이터에 없음 보장.

3개 난이도(Easy / Medium / Hard).

2026년 현재:

Easy: 95%+
Medium: 60~70%대
Hard: 30~40%대

LiveCodeBench Hard가 코딩 능력의 진짜 변별력을 보여준다. 알고리즘 + 자료구조 + 수학 + 추론이 다 들어가는 어려운 문제들.

CodeBench (Stanford, 2024)

또 다른 라이브 코딩 벤치마크. LiveCodeBench와 유사한 철학이지만 멀티 언어(Python, C++, Java, JS) 지원.

10장 · MMLU-Pro / GPQA Diamond — 학술 추론

MMLU (2020)

Massive Multitask Language Understanding. 57개 학문 분야 × 약 14K 질문. 4지선다. 가장 오래된 표준 LLM 지식 벤치마크.

2024년 들어 상위 모델은 90%+ → saturated. 변별력 없음.

MMLU-Pro (TIGER Lab, 2024)

MMLU의 후속. 차이점:

객관식이 10지선다(MMLU는 4지선다) → 운으로 맞히기 어려움
추론이 더 많이 필요한 문제로 선별
12,032개 질문

2026년 현재:

상위 모델: 75~85%대
변별력 유지 중

GPQA Diamond (NYU, 2023)

Graduate-Level Google-Proof Q&A. 물리, 화학, 생물 박사 과정 문제 198개(Diamond subset). "Google-Proof"란 구글 검색으로 풀리지 않는, 진짜 추론이 필요한 문제만 골랐다는 뜻.

2026년 현재:

상위 모델: 60~70%대
사람 비전문가 + 30분 구글: 30~40%
사람 박사: 65~80%
모델이 사람 박사 평균에 근접

GPQA는 "AI가 전문가 수준 추론에 얼마나 가까운가"의 좋은 단일 지표.

11장 · MATH / GSM8K / AIME — 수학 벤치마크

MATH (Hendrycks, 2021)

미국 고교/대학 수학 경시 문제 12,500개. AIME, AMC, IMO 류. 답이 닫힌 형식(숫자 또는 단순 표현).

2026년 현재 상위 모델: 95%+. 거의 saturated.

GSM8K (OpenAI, 2021)

Grade School Math 8K. 8,500개의 초등~중학교 수학 문제. 자연어 word problem.

2026년 현재 99%+. 완전 saturated. 거의 의미 없음.

AIME (American Invitational Math Examination)

미국 고교 수학 올림피아드 예선. 15문제, 답은 0~999 사이 정수. 매년 새 문제 → 학습 데이터 오염이 적음.

AIME 2024, 2025, 2026 문제로 평가하는 게 표준이 됨.

2026년 현재:

상위 모델 + thinking: 80~90%대
일반 모델: 50~60%대
사람 고교 수학 우등생: 70~80%대

GSM8K · MATH가 saturated된 지금, AIME는 모델의 수학 추론 능력을 보여주는 가장 변별력 있는 일반 벤치마크 중 하나.

HellaSwag (deprecated)

상식 추론 벤치마크. 2019년에 만들어짐. 2023년 이후 saturated(95%+). 이제 거의 안 씀.

12장 · Chatbot Arena (LMSYS) — 블라인드 랭킹

LMSYS(UC Berkeley)가 운영하는 사람 페어 비교 기반 랭킹.

작동 방식:

사용자가 임의의 질문 입력
두 모델(블라인드)이 답변
사용자가 어느 답이 더 좋은지 투표
ELO 레이팅으로 모델 순위 계산

2024년 이후 가장 중요한 모델 랭킹 중 하나로 자리잡음. 이유:

학습 데이터 오염 걱정 없음(사용자가 실시간으로 질문 만듦)
다양한 도메인의 진짜 사용 시나리오
모델 회사가 게이밍하기 어려움
수십만 건의 대규모 투표

2026년 현재 상위권:

순위	모델	Elo
1	Claude Sonnet 4.5 (thinking)	1480
2	GPT-5	1465
3	Gemini 2.5 Pro	1455
4	Claude Opus 4.7	1450
5	DeepSeek R3	1430
6	Llama 4 405B	1410

Elo 100점 차이 = 약 64% 승률. 즉 1480과 1380은 사용자가 분명히 구별할 정도의 차이.

한계:

사용자 선호 편향 — 길고 마크다운 잘 쓰는 답변이 유리
짧고 정확한 답은 손해
"Style override" 옵션이 추가되어 일부 보정 가능

그럼에도 사람이 실제로 어떤 모델을 좋아하는지의 가장 신뢰할 만한 단일 지표.

13장 · Aider polyglot / Open LLM Leaderboard — 종합

Aider polyglot benchmark

Aider(CLI 코딩 에이전트)가 운영하는 다언어 코딩 벤치마크. 6개 언어(Python, Go, Rust, JS, TS, C++)의 225개 task. Exercism 문제 기반.

특이점:

diff 형식의 출력을 강제(에이전트 실용성 평가)
두 가지 모드 — whole(전체 파일 재작성) vs diff(변경 부분만)
diff 정확도 자체도 평가 — 형식이 잘못되면 0점

2026년 현재 상위 모델 diff 모드 성공률 60~75%대. Aider 사용자에게 가장 유용한 단일 벤치마크.

Open LLM Leaderboard (Hugging Face)

HF가 운영하는 오픈소스 모델 종합 랭킹. v2(2024년 갱신)는 6개 벤치마크 종합.

IFEval (Instruction Following)
BBH (BIG-bench Hard)
MATH lvl 5
GPQA
MUSR (Multistep Reasoning)
MMLU-Pro

오픈소스 모델을 비교할 때 표준 출발점. 단, 폐쇄형 모델(GPT, Claude)은 포함 안 됨.

14장 · AlpacaEval / MT-Bench / AGIEval / MEGA-Bench

좀 더 좁고 빠른 벤치마크들.

AlpacaEval (Stanford, 2023)

LLM 출력을 GPT-4가 자동 채점하는 LLM-as-judge 벤치마크. 805개 instruction.

문제: judge 모델의 편향(특히 길고 자세한 답을 선호). AlpacaEval 2.0에서 length-controlled win rate로 보정.

2026년 현재 인기는 한풀 꺾였다. Chatbot Arena가 대체.

MT-Bench (LMSYS, 2023)

80개의 다중 턴(multi-turn) 대화 task. 8개 카테고리(코딩, 수학, 추론, 글쓰기 등). GPT-4가 1~10점 채점.

빠르고 싸서 모델 개발 중 quick check로 인기.

AGIEval (Microsoft, 2023)

사람이 보는 대학 입시 / 자격증 시험 기반 벤치마크. SAT, GRE, LSAT, 중국 가오카오, 미국 변호사 시험 등. 사람 점수와 직접 비교 가능.

MEGA-Bench (2024)

500+ 개의 다양한 task를 한 벤치마크에 합친 것. 텍스트, 이미지, 비디오, 오디오 다 포함. 멀티모달 모델 평가에 유용.

15장 · FACTSCORE / TruthfulQA — 사실성

모델이 그럴듯하게 거짓말을 하는지(환각) 측정.

TruthfulQA (Oxford, 2021)

817개의 "사람이 자주 잘못 알고 있는" 질문. 모델이 흔한 오해를 따라가는지 본다.

예시: "왜 인간의 뇌는 10%만 쓰나?" → 정답은 "사실이 아님" / 오답은 "특정 영역만 활성화돼서"

FACTSCORE (UW, 2023)

생성된 긴 텍스트(전기 같은)를 사실 단위로 쪼개서 각 사실의 진위를 위키피디아 등으로 검증. 모델의 환각률을 정량화.

2026년 현재 상위 모델의 FACTSCORE는 70~~85%대. 즉 **여전히 15~~30%의 환각률**. 사실성 문제는 아직 해결 안 됨.

16장 · ToolBench / ToolLLM / AppWorld — 도구 + 인터랙티브

ToolBench / ToolLLM (Tsinghua, 2023)

16,000개의 도구(API)를 가진 환경에서 LLM이 도구를 골라 호출하는 능력을 평가. RapidAPI에서 수집한 실제 API 사용.

각 task = 자연어 요청 + 도구 목록 → 호출 시퀀스 → 최종 답변.

채점: pass rate(끝까지 갔나) + win rate(올바른 답인가).

AppWorld (AI2, 2024)

가장 현실적인 도구 사용 벤치마크 중 하나. **9개의 실제 같은 앱(이메일, 캘린더, 쇼핑, 음식 배달, 음악 등)**의 시뮬레이션을 만들고 에이전트가 그 안에서 작업한다.

예시 task: "엄마 생일이 다음 주 목요일이야. 식당 예약하고, 친척들한테 이메일 보내고, 케이크 주문해줘."

채점:

인터랙션 시작 / 종료 상태를 비교
정확한 상태 변화 검증

2026년 현재 상위 에이전트 35~50%대. 인터랙티브 멀티앱 작업은 여전히 매우 어려운 문제.

17장 · 로컬 / 다국어 벤치마크 — 한국 · 일본

영어 벤치마크만으로는 우리가 쓰는 언어에서의 성능을 못 본다.

한국

KMMLU (2024): MMLU의 한국어 버전. 45개 분야 35K 질문. 한국 자격증 / 수능 기반.
K-MMLU 2 (2025): KMMLU의 후속, 좀 더 다양한 도메인
HAERAE-bench (2023): 한국어 특화 추론, 한국 문화 / 역사 / 언어 능력 측정
KoBest: 한국어 NLU(자연어 이해) 벤치마크

2026년 현재 상위 모델은 KMMLU에서 80%대. GPT-5, Claude Sonnet 4.5는 한국어에서도 사실상 영어와 비슷한 수준의 성능. 작은 오픈소스 모델은 60%대.

일본

JMMLU (2024): MMLU의 일본어 버전
ELYZA-tasks-100 (2023): 일본어 instruction following 100 task
JNLI (NICT): 일본어 자연어 추론
JCommonsenseQA: 일본어 상식 추론

2026년 현재 상위 모델 JMMLU 75~85%대. ELYZA-tasks-100은 사람 채점 + 모델 채점 둘 다 사용.

핵심 통찰: 로컬 벤치마크가 없으면 우리 언어 성능을 모른다. 영어 SOTA 모델이 한국어 / 일본어에서 동일하게 잘 한다는 보장은 없다. 특히 작은 모델일수록 격차가 크다.

18장 · BIG-bench Hard (BBH) / HELM — 큰 그림

BIG-bench Hard (Google, 2022)

원래 BIG-bench는 200+ 개의 다양한 task를 한 벤치마크에 모은 것. BBH는 그중 LLM이 사람보다 못 하는 23개를 선별 — 정말 어려운 task만.

논리 퍼즐, 다단계 산수, dyck 언어 등. 추론 능력의 잘 정의된 슬라이스.

2026년 현재 상위 모델 70~85%대.

HELM (Stanford CRFM, 2022~)

Holistic Evaluation of Language Models. 하나의 점수가 아니라 30+ 시나리오 × 7개 평가 축(정확성, 보정, 견고성, 공정성, 편향, 유해성, 효율성)을 매트릭스로 본다.

"이 모델은 정확하지만 편향이 있다"
"이 모델은 견고하지만 느리다"

종합적인 모델 카드를 만들기 위한 프레임워크. 정책 / 안전 관점에서 중요.

19장 · 벤치마크의 한계 — Overfit / Contamination / Gaming

벤치마크 점수를 액면가 그대로 믿으면 안 되는 이유들.

Contamination (오염)

모델 학습 데이터에 벤치마크의 task가 포함된 경우. 모델이 "푼" 게 아니라 "외운" 것.

대처:

Cutoff date 이후 새 문제만 쓰기 (LiveCodeBench, AIME 매년)
Held-out test set 비공개
Decontamination 도구로 학습 데이터에서 벤치마크 제거 시도

그래도 완벽한 차단은 어렵다. 모델 회사가 "우리는 오염 없음"이라 말해도 검증할 방법이 제한적.

Overfitting (오버핏)

모델 / 에이전트가 특정 벤치마크에서 잘 하도록 튜닝되어 다른 task에서는 떨어지는 현상.

예: SWE-bench를 위해 만든 prompt / harness가 실제 우리 코드베이스 task에서는 안 통하는 경우.

Gaming (게임)

벤치마크의 빈틈을 노려 점수만 올리는 행위.

best-of-K(K번 시도 후 정답이 한 번이라도 나오면 정답)로 부풀리기
채점이 약한 부분을 노려 형식만 맞추기
Few-shot 예시를 영리하게 골라 점수 올리기
모델이 채점하는 경우(LLM-as-judge) 채점 prompt 조작

"Saturated" — 만점에 가까워진 벤치마크

MMLU, HumanEval, GSM8K, MATH, HellaSwag — 다 saturated. 더 이상 모델 비교에 의미 없음.

새 벤치마크가 끊임없이 나오는 이유다. 벤치마크는 모델보다 빨리 늙는다.

Cost / Compute 무시

대부분의 벤치마크 점수는 "얼마나 잘 푸나"만 보고 "얼마에 풀었나"는 안 본다. 그런데 실용성에서는 비용이 핵심.

ARC-AGI에서 OpenAI o3 high는 75%지만 task당 ~$300
같은 점수를 task당 $1에 푸는 모델이 있다면 그게 더 가치 있음
일부 벤치마크(ARC-AGI 2)는 비용 제약을 추가하기 시작

20장 · 우리 팀의 벤치마크 사용 가이드 — 결론

모델을 고를 때 어떤 점수를 봐야 하나? 도메인별 추천.

코딩 에이전트 만든다면

SWE-bench Verified (전체 점수)
LiveCodeBench Hard (알고리즘 능력)
Aider polyglot (다언어 + diff 정확도)
우리 도메인의 자체 평가 (가장 중요)

일반 챗봇 / 어시스턴트 만든다면

Chatbot Arena Elo (전반 선호도)
MMLU-Pro / GPQA (학술 추론)
우리 사용자 시나리오의 자체 평가

에이전트 만든다면

GAIA (일반 도구 사용)
AppWorld / WebArena (인터랙티브)
ToolBench (도구 호출 정확도)
SWE-bench Verified (코딩 능력)
우리 환경에서의 task completion rate

수학 / 과학 모델 평가

AIME (일반 수학 추론)
GPQA Diamond (전문 분야 추론)
Frontier Math (최고난도)
MATH는 saturated, GSM8K는 의미 없음

우리 언어(한국어 / 일본어) 모델

KMMLU / JMMLU
HAERAE-bench / ELYZA-tasks-100
자체 한국어 / 일본어 평가

사실성이 중요하면

TruthfulQA
FACTSCORE
도메인 사실성 평가(우리 분야의 fact base 비교)

마지막 — 가장 중요한 한 가지

우리 도메인의 자체 평가 셋을 만들어라. 벤치마크 점수는 좌표일 뿐. 우리 팀의 진짜 task로 비교한 결과만이 우리에게 의미 있다. 100~200개 task로도 시작 가능.

벤치마크는 모델을 처음 좁히기 위한 필터. 우리 평가는 최종 결정을 위한 측정. 둘 다 필요하다.

참고 / References

SWE-bench (Princeton, 2023): https://www.swebench.com/
SWE-bench paper (arXiv): https://arxiv.org/abs/2310.06770
SWE-bench Verified (OpenAI, 2024): https://openai.com/index/introducing-swe-bench-verified/
SWE-bench Multimodal: https://arxiv.org/abs/2410.03859
AgentBench (Tsinghua): https://github.com/THUDM/AgentBench
AgentBench paper: https://arxiv.org/abs/2308.03688
WebArena (CMU): https://webarena.dev/
WebArena paper: https://arxiv.org/abs/2307.13854
GAIA (Meta AI): https://huggingface.co/gaia-benchmark
GAIA paper: https://arxiv.org/abs/2311.12983
ARC-AGI 2: https://arcprize.org/
ARC paper (Chollet): https://arxiv.org/abs/1911.01547
HELM (Stanford CRFM): https://crfm.stanford.edu/helm/
HELM paper: https://arxiv.org/abs/2211.09110
BIG-bench Hard: https://github.com/suzgunmirac/BIG-Bench-Hard
BBH paper: https://arxiv.org/abs/2210.09261
MMLU-Pro: https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
MMLU-Pro paper: https://arxiv.org/abs/2406.01574
GPQA Diamond: https://huggingface.co/datasets/Idavidrein/gpqa
GPQA paper: https://arxiv.org/abs/2311.12022
HumanEval (OpenAI): https://github.com/openai/human-eval
MBPP (Google): https://github.com/google-research/google-research/tree/master/mbpp
LiveCodeBench: https://livecodebench.github.io/
LiveCodeBench paper: https://arxiv.org/abs/2403.07974
RE-Bench (METR): https://metr.org/blog/2024-11-22-evaluating-r-and-d-capabilities-of-llms/
Frontier Math (Epoch AI): https://epoch.ai/frontiermath
MATH (Hendrycks): https://github.com/hendrycks/math
MATH paper: https://arxiv.org/abs/2103.03874
GSM8K (OpenAI): https://github.com/openai/grade-school-math
AIME problems: https://artofproblemsolving.com/wiki/index.php/AIME
Chatbot Arena (LMSYS): https://lmarena.ai/
LMSYS paper: https://arxiv.org/abs/2403.04132
Aider polyglot benchmark: https://aider.chat/docs/benchmarks.html
Open LLM Leaderboard v2 (HF): https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
AlpacaEval: https://github.com/tatsu-lab/alpaca_eval
MT-Bench: https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge
AGIEval (Microsoft): https://github.com/ruixiangcui/AGIEval
MEGA-Bench: https://github.com/TIGER-AI-Lab/MEGA-Bench
FACTSCORE: https://github.com/shmsw25/FActScore
TruthfulQA: https://github.com/sylinrl/TruthfulQA
ToolBench / ToolLLM: https://github.com/OpenBMB/ToolBench
AppWorld (AI2): https://appworld.dev/
AppWorld paper: https://arxiv.org/abs/2407.18901
KMMLU: https://huggingface.co/datasets/HAERAE-HUB/KMMLU
HAERAE-bench: https://github.com/HAERAE-HUB/HAERAE-bench
JMMLU: https://github.com/nlp-waseda/JMMLU
ELYZA-tasks-100: https://huggingface.co/datasets/elyza/ELYZA-tasks-100
HellaSwag: https://github.com/rowanz/hellaswag
IFEval: https://github.com/google-research/google-research/tree/master/instruction_following_eval
Anthropic model card: https://www.anthropic.com/claude
OpenAI evals: https://github.com/openai/evals