Chaos and Order

Chaos and Order https://www.youngju.dev/blog 천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering. ko fjvbn2003@gmail.com (Youngju Kim) fjvbn2003@gmail.com (Youngju Kim) Sat, 16 May 2026 00:00:00 GMT https://www.youngju.dev/blog/culture/2026-05-16-ai-agent-llm-benchmarks-2026-swe-bench-verified-arc-agi-2-gaia-mmlu-pro-gpqa-livecodebench-chatbot-arena-deep-dive.en AI Agent & LLM Benchmarks 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena Deep Dive https://www.youngju.dev/blog/culture/2026-05-16-ai-agent-llm-benchmarks-2026-swe-bench-verified-arc-agi-2-gaia-mmlu-pro-gpqa-livecodebench-chatbot-arena-deep-dive.en A single-page map of the 30+ AI benchmarks that matter in 2026. From SWE-bench / SWE-bench Verified / SWE-bench Multimodal to AgentBench, WebArena and GAIA, ARC-AGI 2 (Chollet $1M prize), RE-Bench (METR), Frontier Math (Epoch AI), HumanEval / MBPP / LiveCodeBench, MMLU-Pro / GPQA Diamond, MATH / GSM8K / AIME, Chatbot Arena (LMSYS), Aider polyglot, the Open LLM Leaderboard, AlpacaEval / MT-Bench / AGIEval / MEGA-Bench, FACTSCORE / TruthfulQA, ToolBench / AppWorld, plus Korean and Japanese locales (KMMLU / HAERAE, JMMLU / ELYZA-tasks-100). What each benchmark structurally measures, where it gets gamed (contamination, overfit, best-of-K), and which scores actually matter when you pick a model. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-benchmarkllm-evaluationswe-benchswe-bench-verifiedagentbenchwebarenagaiaarc-agi-2francois-cholletbig-bench-hardhelmmmlu-progpqahumanevalmbpplivecodebenchcodebenchre-benchmetrfrontier-mathepoch-aimathgsm8kaimehellaswagchatbot-arenalmsysaider-polyglotopen-llm-leaderboardalpacaevalmt-benchagievalkmmlujmmluhaerae2026deep-diveenglish https://www.youngju.dev/blog/culture/2026-05-16-ai-agent-llm-benchmarks-2026-swe-bench-verified-arc-agi-2-gaia-mmlu-pro-gpqa-livecodebench-chatbot-arena-deep-dive.ja AIエージェント & LLM ベンチマーク 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena 徹底ガイド https://www.youngju.dev/blog/culture/2026-05-16-ai-agent-llm-benchmarks-2026-swe-bench-verified-arc-agi-2-gaia-mmlu-pro-gpqa-livecodebench-chatbot-arena-deep-dive.ja 2026年現在、本当に意味のある30以上のAIベンチマークを一枚に整理する。SWE-bench / SWE-bench Verified / SWE-bench MultimodalからAgentBench・WebArena・GAIA、ARC-AGI 2(シャンポレの100万ドル賞金)、RE-Bench(METR)、Frontier Math(Epoch AI)、HumanEval / MBPP / LiveCodeBench、MMLU-Pro / GPQA Diamond、MATH / GSM8K / AIME、Chatbot Arena(LMSYS)、Aider polyglot、Open LLM Leaderboard、AlpacaEval / MT-Bench / AGIEval / MEGA-Bench、FACTSCORE / TruthfulQA、ToolBench / AppWorld、そして韓国・日本のローカルベンチマーク(KMMLU・HAERAE / JMMLU・ELYZA-tasks-100)まで。何を測り、どう採点され、どこでゲームされるか(汚染・オーバーフィット・best-of-K)、そしてモデルを選ぶときに本当に見るべき点数はどれか。 Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-benchmarkllm-evaluationswe-benchswe-bench-verifiedagentbenchwebarenagaiaarc-agi-2francois-cholletbig-bench-hardhelmmmlu-progpqahumanevalmbpplivecodebenchcodebenchre-benchmetrfrontier-mathepoch-aimathgsm8kaimehellaswagchatbot-arenalmsysaider-polyglotopen-llm-leaderboardalpacaevalmt-benchagievalkmmlujmmluhaerae2026deep-dive日本語 https://www.youngju.dev/blog/culture/2026-05-16-ai-agent-llm-benchmarks-2026-swe-bench-verified-arc-agi-2-gaia-mmlu-pro-gpqa-livecodebench-chatbot-arena-deep-dive AI 에이전트 & LLM 벤치마크 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena 심층 가이드 https://www.youngju.dev/blog/culture/2026-05-16-ai-agent-llm-benchmarks-2026-swe-bench-verified-arc-agi-2-gaia-mmlu-pro-gpqa-livecodebench-chatbot-arena-deep-dive 2026년 현재 가장 의미 있는 AI 벤치마크 30+ 종을 한 장에 정리한다. SWE-bench / SWE-bench Verified / SWE-bench Multimodal부터 AgentBench·WebArena·GAIA, ARC-AGI 2(샹폴레의 $1M 상금), RE-Bench(METR), Frontier Math(Epoch AI), HumanEval / MBPP / LiveCodeBench, MMLU-Pro / GPQA Diamond, MATH / GSM8K / AIME, Chatbot Arena(LMSYS), Aider polyglot, Open LLM Leaderboard, AlpacaEval / MT-Bench / AGIEval / MEGA-Bench, FACTSCORE / TruthfulQA, ToolBench / AppWorld, 그리고 한국·일본 로컬 벤치마크(KMMLU·HAERAE / JMMLU·ELYZA-tasks-100)까지. 벤치마크의 구조, 측정 대상, 한계(오버핏·오염·게임), 그리고 우리가 모델을 고를 때 어떤 점수를 봐야 하는지. Sat, 16 May 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-benchmarkllm-evaluationswe-benchswe-bench-verifiedagentbenchwebarenagaiaarc-agi-2francois-cholletbig-bench-hardhelmmmlu-progpqahumanevalmbpplivecodebenchcodebenchre-benchmetrfrontier-mathepoch-aimathgsm8kaimehellaswagchatbot-arenalmsysaider-polyglotopen-llm-leaderboardalpacaevalmt-benchagievalkmmlujmmluhaerae2026deep-dive