- Published on
AI 에이전트 & LLM 벤치마크 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena 심층 가이드
ai-benchmarkllm-evaluationswe-benchswe-bench-verifiedagentbenchwebarenagaiaarc-agi-2francois-cholletbig-bench-hardhelmmmlu-progpqahumanevalmbpplivecodebenchcodebenchre-benchmetrfrontier-mathepoch-aimathgsm8kaimehellaswagchatbot-arenalmsysaider-polyglotopen-llm-leaderboardalpacaevalmt-benchagievalkmmlujmmluhaerae2026deep-dive
2026년 현재 가장 의미 있는 AI 벤치마크 30+ 종을 한 장에 정리한다. SWE-bench / SWE-bench Verified / SWE-bench Multimodal부터 AgentBench·WebArena·GAIA, ARC-AGI 2(샹폴레의 $1M 상금), RE-Bench(METR), Frontier Math(Epoch AI), HumanEval / MBPP / LiveCodeBench, MMLU-Pro / GPQA Diamond, MATH / GSM8K / AIME, Chatbot Arena(LMSYS), Aider polyglot, Open LLM Leaderboard, AlpacaEval / MT-Bench / AGIEval / MEGA-Bench, FACTSCORE / TruthfulQA, ToolBench / AppWorld, 그리고 한국·일본 로컬 벤치마크(KMMLU·HAERAE / JMMLU·ELYZA-tasks-100)까지. 벤치마크의 구조, 측정 대상, 한계(오버핏·오염·게임), 그리고 우리가 모델을 고를 때 어떤 점수를 봐야 하는지.