Aider-polyglot

Published on
2026년 5월 16일
AI 에이전트 & LLM 벤치마크 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena 심층 가이드
ai-benchmark llm-evaluation swe-bench swe-bench-verified agentbench webarena gaia arc-agi-2 francois-chollet big-bench-hard helm mmlu-pro gpqa humaneval mbpp livecodebench codebench re-bench metr frontier-math epoch-ai math gsm8k aime hellaswag chatbot-arena lmsys aider-polyglot open-llm-leaderboard alpacaeval mt-bench agieval kmmlu jmmlu haerae deep-dive
2026년 현재 가장 의미 있는 AI 벤치마크 30+ 종을 한 장에 정리한다. SWE-bench / SWE-bench Verified / SWE-bench Multimodal부터 AgentBench·WebArena·GAIA, ARC-AGI 2(샹폴레의 $1M 상금), RE-Bench(METR), Frontier Math(Epoch AI), HumanEval / MBPP / LiveCodeBench, MMLU-Pro / GPQA Diamond, MATH / GSM8K / AIME, Chatbot Arena(LMSYS), Aider polyglot, Open LLM Leaderboard, AlpacaEval / MT-Bench / AGIEval / MEGA-Bench, FACTSCORE / TruthfulQA, ToolBench / AppWorld, 그리고 한국·일본 로컬 벤치마크(KMMLU·HAERAE / JMMLU·ELYZA-tasks-100)까지. 벤치마크의 구조, 측정 대상, 한계(오버핏·오염·게임), 그리고 우리가 모델을 고를 때 어떤 점수를 봐야 하는지.

AI 에이전트 & LLM 벤치마크 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena 심층 가이드