- Published on
AIエージェント & LLM ベンチマーク 2026 — SWE-bench Verified / ARC-AGI 2 / GAIA / MMLU-Pro / GPQA / LiveCodeBench / Chatbot Arena 徹底ガイド
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — モデルローンチのスライドに出てくるあの点数
2026年、どのモデル会社のローンチでも同じ表が出てくる。
- SWE-bench Verified 70%台
- MMLU-Pro 80%台
- GPQA Diamond 60%台
- LiveCodeBench Hard 50%台
- AIME 80%台
- Chatbot Arena Elo 1400+
各数字の横には小さなアスタリスクがついていて、「best-of-k」や「with thinking」のような注釈が付いている。スライドを見た自分のチームのPMが聞く — 「で、この新モデル、うちのコードベースで本当によく動くんですか?」
答えは残念ながら「たぶん」だ。ベンチマーク点数はモデルの能力に対する間接的な信号である。自分のドメインでの実性能は自分で測るしかない。それでもベンチマークは重要だ — 共通の座標系を作るからだ。モデルAがBよりSWE-benchで10点高ければ、自分のドメインでもおそらく勝つ(保証ではない)。
この記事は2026年現在もっとも意味のある30以上のベンチマークを一枚に整理する。各ベンチマークが何を測り、どう採点され、どこでゲームされるかまで。そしてモデルを選ぶとき、どの点数を見るべきか。
1章 · 2026年AIベンチマーク地図 — 4分類
ベンチマークは測るものに応じておおむね4つに分類できる。
| 分類 | 測る対象 | 代表的なベンチマーク |
|---|---|---|
| コード / SWE | 実際のソフトウェア作業をやり遂げるか | SWE-bench Verified, LiveCodeBench, Aider polyglot, HumanEval, MBPP |
| エージェント / ツール | ツール呼び出し + 多段階タスク完遂 | AgentBench, WebArena, GAIA, AppWorld, ToolBench, RE-Bench |
| 推論 / 知識 | 学術知識 + 推論 | MMLU-Pro, GPQA Diamond, BIG-bench Hard, AGIEval, AIME, MATH, GSM8K, Frontier Math |
| 総合 / 定性 | 人にとって良いと感じるか | Chatbot Arena, AlpacaEval, MT-Bench, Open LLM Leaderboard, HELM |
さらに横断する2軸がある。
- 事実性 / 安全性: TruthfulQA, FACTSCORE
- ローカル / 多言語: KMMLU, HAERAE-bench, JMMLU, ELYZA-tasks-100
核心: 1つのベンチマークでモデルを評価することはできない。 どのベンチマークも狭いスライスしか見ない。モデル会社がローンチで4〜6個まとめて出す理由だ。自分たちも比較するときは最低3つ以上を相互検証すべき。
もう一つ: ベンチマークは時間が経つと死ぬ。 モデルが満点に近づけば変別力を失う。MMLU(2020)は飽和してMMLU-Proが置き換えた。HellaSwag(2019)も同じ運命。SWE-bench Verifiedも2027年頃には死ぬ可能性が高い。新ベンチマークが出続ける理由だ。
2章 · SWE-bench — もっとも重要なSWEベンチマーク
2024年以降、コーディングエージェント評価において単一ベンチマークとしてもっとも大きな影響力を持つのがSWE-benchだ。
背景: プリンストンNLPグループが2023年に公開。核心アイデアは実際のオープンソースプロジェクトの実issueを取り、エージェントがパッチして実際のテストが通るかを測ること。合成問題ではない。
データセット構造:
- 12個の人気Pythonライブラリ(django, flask, sympy, scikit-learn, requests など)
- 2,294個の (issue, PR, test) トリプル
- 各タスク = issueの説明 + 該当リポジトリのスナップショット
- エージェントがパッチ(diff)を生成 → 適用 → テスト実行 → pass/fail
採点:
- 「Resolved」: マージされたPRで新たに追加されたテストがパス
- 「Applied」: パッチが少なくとも適用される
2024年初頭、SWE-benchフルセットのSOTAは2〜3%だった。2025年末には50〜70%台に達した。2026年現在、上位エージェントは70%台後半。
なぜ重要か? SWE-benchは単なるコーディング問題ではなく、SWEワークフロー全体を見る。 issueを読み、リポジトリを探索し、関連ファイルを見つけ、変更し、テストが通るかを確認する — 実際のエンジニアがやる仕事。コーディング能力 + エージェント能力 + ツール使用を同時に見る。
限界:
- 全部Python、全部オープンソース、12ライブラリに偏る
- 一部のタスクはissueの説明に答えが漏れている(leakage)
- 一部のテストは非常に狭いか、ほぼ不可能
- 採点インフラが高価(Docker コンテナ2,294個)
これらの限界がSWE-bench Verifiedにつながる。
3章 · SWE-bench Verified — OpenAIの精選500 (2024.8)
2024年8月、OpenAIがSWE-benchの精選版を公開。名前そのまま「検証済み」の500タスク。
作業:
- 93人のプロSWEがSWE-benchの全タスクをレビュー
- 各タスクで4項目を評価
- issue 説明が明確か
- test が合理的か(狭すぎず広すぎず)
- unit test 以外の環境要件はないか
- 合理的時間内に解けるか
- 全項目で合格したタスクのみを選定 → 500個
結果: フルセットより点数が正確とされる。2025年からモデル会社の公式ローンチで「SWE-bench Verified」点数が標準になった。
2026年現在のおおよその点数分布(ローンチ資料ベース):
| モデル | SWE-bench Verified |
|---|---|
| Claude Sonnet 4.5 (with thinking) | 約70% |
| GPT-5 (verified harness) | 約65% |
| Gemini 2.5 Pro (deep think) | 約60% |
| Llama 4 405B + agent | 約45% |
| OSS 7B + harness | 約15% |
注意: 点数はハーネスに大きく依存する。同じモデルでもOpenHands, SWE-agent, Aiderなどで±10%変動する。だから「Claude 70%」より「Claude + ハーネスX 70%」のほうが正確。
ゲーミングのリスク:
- 一部のモデルはSWE-benchのタスクが訓練データに入っていた可能性
- OpenAIはカットオフ日以後の新タスクを追加するSWE-bench Liveも運営
- SWE-bench Multimodalで拡張
4章 · SWE-bench Multimodal — 新しい次元
2024年末、SWE-bench Multimodalが公開。JavaScript/TypeScriptプロジェクト(主にReact, Vueなどフロントエンド)と一緒に画像を見て修正するタスクを含む。
例:
- 添付されたスクリーンショットでボタンが歪んでいるのを見て、対応CSSを修正
- UIモックアップを受け取り、それに合わせてコンポーネントを修正
なぜ重要か? 実際のフロント作業は視覚的だ。issueにスクリーンショットが添付されることが多い。テキストだけ処理するモデルではこういうタスクは解けない。
データセット:
- 17個のJS/TS 人気リポジトリ
- 619タスク(画像含む)
2026年現在、上位モデルは30〜40%台。SWE-bench Verifiedよりはるかに低い。マルチモーダル推論 + 視覚 + コードが一度に入る難しい問題。
5章 · AgentBench / WebArena / GAIA — エージェント能力
コードだけではエージェント能力をすべては見られない。ツール呼び出し、多段階推論、環境とのインタラクションを扱う別のベンチマーク群。
AgentBench (清華大, 2023)
8つの環境でLLMエージェントの性能を測る。OS(シェル作業), DB(SQL), KG(知識グラフ), DCG(デジタルカードゲーム), Lateral Thinking Puzzles, House Holding(仮想環境), Web Shopping, Web Browsing。LLMが多様な環境に一般化するかを見る。
WebArena (CMU, 2023)
ウェブブラウジングエージェント専用。4つの本物そっくりのサイト(ショッピング、GitLabクローン、Redditクローン、地図など)でエージェントが自然言語タスクを実行。「Xサイトで商品Yを探してカートに入れ、配送先をZに変更」みたいなタスク。採点は最終状態が目標状態かで決定論的。
価値: 人のウェブ作業を自動化する能力を測る。2024年は14%台だったSOTAが2026年には40〜50%台に。
GAIA (Meta AI, 2023)
General AI Assistant ベンチマーク。466の実際に人が作ったタスクを3段階の難易度に分けた。
- Level 1: 5ステップ未満、簡単なツール
- Level 2: 5〜10ステップ
- Level 3: 非常に複雑なマルチステップ + マルチモーダル
例: 「このPDFで言及されているXの被引用論文のうち、Y年以降に出版されてZ大学出身者が著者のものの名前を挙げよ」。答えは正確に1つで採点は単純だが、そこに到達するには検索・PDFパース・計算・論理推論を全部使う。
2026年現在、平均正答率60%台(上位モデル、ツール一式)。人間平均は90%台。差は縮まっているがまだ人が優勢。
6章 · ARC-AGI 2 (シャンポレ) — 100万ドル賞金
フランソワ・シャンポレが2019年に作ったARC(Abstraction and Reasoning Corpus)は視覚的パターン推論問題。グリッド上の色パターンを見て変換規則を推論するタスク。人には簡単、モデルには難しい。
2024年にARC-AGI 2が公開され100万ドル賞金がかかる。条件: 公開リーダーボードで人平均(約85%)に達する解。
ARCが難しい理由:
- 各タスクがユニークな抽象規則
- 学習セット(few-shot 例)以外の一般化が必要
- モデルが見たことのないパターン
- 単純なパターンマッチで解けない
2024年にOpenAI o1 / o3がARCで大きな前進。o3 highが75%台に到達。ただし、タスクあたり数十〜数百ドルの計算コスト。実用性は疑問。
2026年現在:
- ARC-AGI 1(オリジナル版): 上位モデル80%台
- ARC-AGI 2(新版、より難しい): 50%台
- コスト効率的な解はまだない
シャンポレの立場は一貫している: 「これが解ければAGIに近づいたといえる。しかしGPTの解き方は本当の推論というより力技に近い。」 効率を強調する理由だ。
7章 · RE-Bench (METR) — 研究エンジニアリング能力
METR(Model Evaluation & Threat Research)が2024年にRE-Benchを公開。核心の問い: 「AIはAI研究エンジニアの仕事をどれだけうまくやるか?」
これは自己参照的な問いだ。AIがAIを作る仕事を上手にやれば能力が爆発的に加速する可能性がある。METRは安全研究の観点からこの能力を精密に測る。
RE-Bench タスク例:
- 与えられたPyTorchモデルのスループットをX%向上
- 分散学習コードを書いてN GPUで動くようにする
- 特定の学習メトリックを改善するデータ前処理パイプライン構築
- デバッグ — 意図的にバグを仕込んだコードベースでバグを探す
採点: 人のMLエンジニアが8時間で達成する仕事に対する相対比較。単位は「AIは人のN時間分の仕事をしたか」。
2025年の結果:
- Claude 3.5 Sonnet: 人2時間分を8時間で
- GPT-4o: 人2時間未満
- Claude Sonnet 4.5 + Codex 5: 人4〜6時間分を8時間で
2026年に入り差が急速に縮まる。METRが追う「AIによるAI能力加速」指標が意味を持ち始める。
8章 · Frontier Math (Epoch AI) — 最高難度数学
2024年11月、Epoch AIがFrontier Mathを公開。現役数学博士が数時間〜数日かける問題60問。
特徴:
- 答えが自動検証可能(数値または正準形式)
- インターネットや訓練データにない(全部新規)
- 数学博士が直接作り他の博士がレビュー
- 数論、代数幾何、解析、トポロジーなど多分野
ローンチ時点のSOTA性能: 2%台。人が作ったもっとも難しい数学ベンチマーク。
2025年にOpenAI o3 highが25%台に達し話題に。時間 + 計算量が莫大(タスクあたり数百ドル以上)。
2026年現在:
- 一般モデル(GPT-5, Claude Sonnet 4.5): 10〜15%台
- 「Thinking」モード + マルチエージェント + ツール: 30〜40%台
- 人の数学博士: 平均50%台(8時間予算)
まだAIが人の博士に追いついていない領域。 Frontier Mathはその差を正確に見せる座標。
9章 · HumanEval / MBPP / LiveCodeBench / CodeBench
コーディング能力のより狭いスライス。
HumanEval (OpenAI, 2021)
164個のPython関数生成タスク。関数シグネチャ + docstring → 本体作成 → テストパス。もっとも古い標準コーディングベンチマーク。
2026年現在、上位モデルは95%+。事実上飽和。変別力ほぼなし。それでも速くて安いのでsanity checkに使われる。
MBPP (Google, 2021)
Mostly Basic Python Problems。974個の初級〜中級Python問題。HumanEvalより多様で少し難しい。同じ運命 — 上位モデルは90%台。
LiveCodeBench (UC Berkeley, 2024)
LeetCode, AtCoder, Codeforcesから継続的に新問題を追加するベンチマーク。モデルカットオフ以後の問題のみ → 訓練データになし保証。
3段階の難易度(Easy / Medium / Hard)。
2026年現在:
- Easy: 95%+
- Medium: 60〜70%台
- Hard: 30〜40%台
LiveCodeBench Hardがコーディング能力の本当の変別力を見せる。アルゴリズム + データ構造 + 数学 + 推論が全部入る難問。
CodeBench (Stanford, 2024)
もう一つのライブコーディングベンチマーク。LiveCodeBenchと似た哲学だがマルチ言語(Python, C++, Java, JS)対応。
10章 · MMLU-Pro / GPQA Diamond — 学術推論
MMLU (2020)
Massive Multitask Language Understanding。57学問分野 × 約14K質問。4択。もっとも古い標準LLM知識ベンチマーク。
2024年に上位モデルが90%+ → 飽和。変別力なし。
MMLU-Pro (TIGER Lab, 2024)
MMLUの後継。違い:
- 10択(MMLUは4択) → 当てずっぽうが難しい
- 推論を要する問題を選別
- 12,032問
2026年現在:
- 上位モデル: 75〜85%台
- 変別力維持
GPQA Diamond (NYU, 2023)
Graduate-Level Google-Proof Q&A。物理、化学、生物の博士課程問題198個(Diamond サブセット)。「Google-Proof」とはGoogle検索で解けない、本当に推論が必要な問題のこと。
2026年現在:
- 上位モデル: 60〜70%台
- 非専門家 + 30分Google: 30〜40%
- 博士: 65〜80%
- モデルが博士平均に接近
GPQAは「AIが専門家レベル推論にどれだけ近いか」のもっともクリーンな単一指標。
11章 · MATH / GSM8K / AIME — 数学ベンチマーク
MATH (Hendrycks, 2021)
米高校 / 大学数学コンテスト問題12,500個。AIME, AMC, IMO風。答えは閉形式(数字または単純表現)。
2026年現在、上位モデル95%+。ほぼ飽和。
GSM8K (OpenAI, 2021)
Grade School Math 8K。8,500個の小〜中学校数学word problem。
2026年現在99%+。完全飽和。ほぼ意味なし。
AIME (American Invitational Math Examination)
米高校数学オリンピック予選。15問、答えは0〜999の整数。毎年新問題 → 学習データ汚染が少ない。
AIME 2024, 2025, 2026 問題での評価が標準。
2026年現在:
- 上位モデル + thinking: 80〜90%台
- 一般モデル: 50〜60%台
- 高校数学優等生: 70〜80%台
GSM8K · MATHが飽和した今、AIMEはモデルの数学推論能力を見せるもっとも変別力ある一般ベンチマークの一つ。
HellaSwag (deprecated)
常識推論ベンチマーク。2019年作成。2023年以降飽和(95%+)。現在ほぼ使われない。
12章 · Chatbot Arena (LMSYS) — ブラインドランキング
LMSYS(UC Berkeley)が運営する人のペア比較ベースランキング。
仕組み:
- ユーザーが任意の質問を入力
- 2つのモデル(ブラインド)が回答
- ユーザーがどちらが良いか投票
- ELO レーティングでモデル順位を計算
2024年以降もっとも重要なモデルランキングの一つに。理由:
- 学習データ汚染なし(ユーザーがリアルタイムで質問作成)
- 多様なドメインの本物の使用シナリオ
- モデル会社がゲームしにくい
- 数十万件の大規模投票
2026年現在の上位(おおよそ):
| 順位 | モデル | Elo |
|---|---|---|
| 1 | Claude Sonnet 4.5 (thinking) | 1480 |
| 2 | GPT-5 | 1465 |
| 3 | Gemini 2.5 Pro | 1455 |
| 4 | Claude Opus 4.7 | 1450 |
| 5 | DeepSeek R3 | 1430 |
| 6 | Llama 4 405B | 1410 |
Elo 100点差 ≈ 64% 勝率。1480と1380はユーザーが明確に区別できる差。
限界:
- ユーザー嗜好バイアス — 長くて markdownをきれいに使う回答が有利
- 短くて正確な回答は損
- 「Style override」オプションが追加され一部補正可能
それでも人が実際にどのモデルを好むかの最信頼の単一指標。
13章 · Aider polyglot / Open LLM Leaderboard — 総合
Aider polyglot benchmark
Aider(CLIコーディングエージェント)が運営する多言語コーディングベンチマーク。6言語(Python, Go, Rust, JS, TS, C++)の225タスク。Exercism問題ベース。
特徴:
- diff形式の出力を強制(エージェント実用性評価)
- 2モード — whole(ファイル全体再記述) vs diff(変更分のみ)
- diff正確性自体も評価 — 形式不正なら0点
2026年現在、上位モデルのdiff モード成功率60〜75%台。Aider利用者に最も役立つ単一ベンチマーク。
Open LLM Leaderboard (Hugging Face)
HFが運営するオープンソースモデル総合ランキング。v2(2024年更新)は6ベンチマーク総合。
- IFEval (Instruction Following)
- BBH (BIG-bench Hard)
- MATH lvl 5
- GPQA
- MUSR (Multistep Reasoning)
- MMLU-Pro
オープンソースモデル比較の標準出発点。ただし閉鎖型モデル(GPT, Claude)は非対象。
14章 · AlpacaEval / MT-Bench / AGIEval / MEGA-Bench
より小さく速いベンチマーク群。
AlpacaEval (Stanford, 2023)
GPT-4がLLM出力を自動採点するLLM-as-judgeベンチマーク。805個のinstruction。
問題: judge モデルの偏り(長く詳しい回答を好む傾向)。AlpacaEval 2.0でlength-controlled win rateで補正。
現在はChatbot Arenaに置き換えられた。
MT-Bench (LMSYS, 2023)
80個のマルチターン対話タスク。8カテゴリ(コーディング, 数学, 推論, ライティングなど)。GPT-4が1〜10点採点。
速くて安いのでモデル開発中のクイックチェックに人気。
AGIEval (Microsoft, 2023)
人が受ける大学入試 / 資格試験ベースのベンチマーク。SAT, GRE, LSAT, 中国の高考, 米国司法試験など。人の点数と直接比較可能。
MEGA-Bench (2024)
500+ の多様なタスクを1つのベンチマークに統合。テキスト、画像、ビデオ、オーディオ全部含む。マルチモーダルモデル評価に有用。
15章 · FACTSCORE / TruthfulQA — 事実性
モデルがそれっぽく嘘をつくか(ハルシネーション)を測る。
TruthfulQA (Oxford, 2021)
817個の「人がよく誤解している」質問。モデルが一般的な誤解に流されるかを見る。
例: 「なぜ人間の脳は10%しか使っていないのか?」 → 正解: 「事実ではない」 / 誤答: 「特定領域だけ活性化するから」
FACTSCORE (UW, 2023)
生成された長文(伝記など)を事実単位に分解し、各事実の真偽をWikipedia等で検証。モデルのハルシネーション率を定量化。
2026年現在、上位モデルのFACTSCOREは70〜85%台。つまり15〜30%のハルシネーション率残る。 事実性問題は未解決。
16章 · ToolBench / ToolLLM / AppWorld — ツール + インタラクティブ
ToolBench / ToolLLM (清華大, 2023)
16,000個のツール(API)を持つ環境でLLMがツールを選んで呼び出す能力を評価。RapidAPIから収集した実APIを使用。
各タスク = 自然言語要求 + ツールリスト → 呼び出しシーケンス → 最終回答。
採点: pass rate(最後まで行ったか) + win rate(正しい答えか)。
AppWorld (AI2, 2024)
最も現実的なツール使用ベンチマークの一つ。**9つの本物そっくりのアプリ(メール, カレンダー, ショッピング, フードデリバリー, 音楽など)**のシミュレーションを作り、エージェントがその中で作業する。
例: 「母の誕生日が来週木曜日。レストラン予約して、親戚にメール送って、ケーキ注文して。」
採点:
- インタラクション開始 / 終了状態を比較
- 正確な状態変化を検証
2026年現在、上位エージェント35〜50%台。インタラクティブマルチアプリ作業は依然として非常に難しい。
17章 · ローカル / 多言語ベンチマーク — 韓国 · 日本
英語ベンチマークだけでは自分の言語の性能を見られない。
韓国
- KMMLU (2024): MMLUの韓国語版。45分野35K質問。韓国の資格 / 修学能力試験ベース。
- K-MMLU 2 (2025): KMMLUの後継、より多様なドメイン
- HAERAE-bench (2023): 韓国語特化推論。韓国文化 / 歴史 / 言語能力を測る。
- KoBest: 韓国語NLUベンチマーク
2026年現在、上位モデルはKMMLUで80%台。GPT-5, Claude Sonnet 4.5は韓国語でも英語並み。小型OSSモデルは60%台。
日本
- JMMLU (2024): MMLUの日本語版
- ELYZA-tasks-100 (2023): 日本語instruction following 100タスク
- JNLI (NICT): 日本語自然言語推論
- JCommonsenseQA: 日本語常識推論
2026年現在、上位モデルJMMLU 75〜85%台。ELYZA-tasks-100は人採点 + モデル採点両方使用。
核心: ローカルベンチマークがないと自言語の性能は分からない。 英語SOTAモデルが韓国語 / 日本語で同等に機能する保証はない。特に小型モデルほど差が大きい。
18章 · BIG-bench Hard (BBH) / HELM — 大きな絵
BIG-bench Hard (Google, 2022)
元のBIG-benchは200+ 個の多様なタスクを1つのベンチマークに集めたもの。BBHはそのうちLLMが人より弱い23個を選んだ — 本当に難しいタスクのみ。
論理パズル、多段階算術、Dyck言語など。推論能力のよく定義されたスライス。
2026年現在、上位モデル70〜85%台。
HELM (Stanford CRFM, 2022〜)
Holistic Evaluation of Language Models。1つの点数ではなく30+ シナリオ × 7評価軸(正確性, キャリブレーション, ロバストネス, 公平性, バイアス, 有害性, 効率性)のマトリックスで見る。
- 「このモデルは正確だがバイアスあり」
- 「このモデルはロバストだが遅い」
総合的なモデルカード作成のフレームワーク。政策 / 安全観点で重要。
19章 · ベンチマークの限界 — オーバーフィット / 汚染 / ゲーム
ベンチマーク点数を額面通り信じてはいけない理由たち。
汚染 (Contamination)
モデル学習データにベンチマークのタスクが含まれている場合。モデルが「解いた」のではなく「覚えた」。
対策:
- カットオフ以後の新問題のみ使う(LiveCodeBench, 毎年新しいAIME)
- Held-outテストセットを非公開
- 学習データからベンチマークを除去するdecontaminationツール
それでも完全防御は難しい。モデル会社が「汚染なし」と言っても検証手段は限られる。
オーバーフィット (Overfitting)
モデル / エージェントが特定ベンチマーク向けにチューンされ、他のタスクで落ちる現象。
例: SWE-bench用のプロンプト / ハーネスが自分のコードベースタスクでは効かない場合。
ゲーム (Gaming)
ベンチマークの隙間を狙って点数だけ上げる。
- best-of-K(K回試行で1度でも正解なら正解)で水増し
- 採点が緩い部分を狙って形式だけ合わせる
- few-shot例を巧妙に選んで点数上げ
- モデルが採点する場合(LLM-as-judge)採点プロンプト操作
「飽和」 — 満点に近づいたベンチマーク
MMLU, HumanEval, GSM8K, MATH, HellaSwag — 全部飽和。もはやモデル比較に意味なし。
新ベンチマークが絶え間なく出る理由だ。ベンチマークはモデルより速く老ける。
コスト / 計算量無視
ほとんどのベンチマーク点数は「どれだけ解けるか」だけ見て「いくらで解いたか」を見ない。だが実用上はコストが核心。
- ARC-AGIでOpenAI o3 highは75%だがタスクあたり約300ドル
- 同じ点数をタスクあたり1ドルで解くモデルがあればそちらの価値が高い
- 一部のベンチマーク(ARC-AGI 2)はコスト制約を追加し始めた
20章 · チームのベンチマーク利用ガイド — 結論
モデルを選ぶとき、どの点数を見るべきか。ドメイン別の推奨。
コーディングエージェントを作るなら
- SWE-bench Verified (全体点数)
- LiveCodeBench Hard (アルゴリズム能力)
- Aider polyglot (多言語 + diff 正確性)
- 自分のドメインの自前評価 (最重要)
一般チャットボット / アシスタントを作るなら
- Chatbot Arena Elo (全体嗜好)
- MMLU-Pro / GPQA (学術推論)
- 自分のユーザーシナリオの自前評価
エージェントを作るなら
- GAIA (一般ツール使用)
- AppWorld / WebArena (インタラクティブ)
- ToolBench (ツール呼び出し正確性)
- SWE-bench Verified (コーディング能力)
- 自分の環境でのtask completion rate
数学 / 科学モデル評価
- AIME (一般数学推論)
- GPQA Diamond (専門分野推論)
- Frontier Math (最高難度)
- MATHは飽和、GSM8Kは意味なし
自分の言語(韓国語 / 日本語)モデル
- KMMLU / JMMLU
- HAERAE-bench / ELYZA-tasks-100
- 自前の韓国語 / 日本語評価
事実性が重要なら
- TruthfulQA
- FACTSCORE
- ドメイン事実性評価(自分の分野のfact baseと比較)
最後に — もっとも重要な一つ
自分のドメインの自前評価セットを作れ。 ベンチマーク点数は座標に過ぎない。自分のチームの本物のタスクで比較した結果だけが意味を持つ。100〜200タスクで始められる。
ベンチマークはモデルを最初に絞り込むフィルター。自前評価は最終決定の測定。両方必要だ。
参考 / References
- SWE-bench (Princeton, 2023): https://www.swebench.com/
- SWE-bench paper (arXiv): https://arxiv.org/abs/2310.06770
- SWE-bench Verified (OpenAI, 2024): https://openai.com/index/introducing-swe-bench-verified/
- SWE-bench Multimodal: https://arxiv.org/abs/2410.03859
- AgentBench (Tsinghua): https://github.com/THUDM/AgentBench
- AgentBench paper: https://arxiv.org/abs/2308.03688
- WebArena (CMU): https://webarena.dev/
- WebArena paper: https://arxiv.org/abs/2307.13854
- GAIA (Meta AI): https://huggingface.co/gaia-benchmark
- GAIA paper: https://arxiv.org/abs/2311.12983
- ARC-AGI 2: https://arcprize.org/
- ARC paper (Chollet): https://arxiv.org/abs/1911.01547
- HELM (Stanford CRFM): https://crfm.stanford.edu/helm/
- HELM paper: https://arxiv.org/abs/2211.09110
- BIG-bench Hard: https://github.com/suzgunmirac/BIG-Bench-Hard
- BBH paper: https://arxiv.org/abs/2210.09261
- MMLU-Pro: https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro
- MMLU-Pro paper: https://arxiv.org/abs/2406.01574
- GPQA Diamond: https://huggingface.co/datasets/Idavidrein/gpqa
- GPQA paper: https://arxiv.org/abs/2311.12022
- HumanEval (OpenAI): https://github.com/openai/human-eval
- MBPP (Google): https://github.com/google-research/google-research/tree/master/mbpp
- LiveCodeBench: https://livecodebench.github.io/
- LiveCodeBench paper: https://arxiv.org/abs/2403.07974
- RE-Bench (METR): https://metr.org/blog/2024-11-22-evaluating-r-and-d-capabilities-of-llms/
- Frontier Math (Epoch AI): https://epoch.ai/frontiermath
- MATH (Hendrycks): https://github.com/hendrycks/math
- MATH paper: https://arxiv.org/abs/2103.03874
- GSM8K (OpenAI): https://github.com/openai/grade-school-math
- AIME problems: https://artofproblemsolving.com/wiki/index.php/AIME
- Chatbot Arena (LMSYS): https://lmarena.ai/
- LMSYS paper: https://arxiv.org/abs/2403.04132
- Aider polyglot benchmark: https://aider.chat/docs/benchmarks.html
- Open LLM Leaderboard v2 (HF): https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- AlpacaEval: https://github.com/tatsu-lab/alpaca_eval
- MT-Bench: https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge
- AGIEval (Microsoft): https://github.com/ruixiangcui/AGIEval
- MEGA-Bench: https://github.com/TIGER-AI-Lab/MEGA-Bench
- FACTSCORE: https://github.com/shmsw25/FActScore
- TruthfulQA: https://github.com/sylinrl/TruthfulQA
- ToolBench / ToolLLM: https://github.com/OpenBMB/ToolBench
- AppWorld (AI2): https://appworld.dev/
- AppWorld paper: https://arxiv.org/abs/2407.18901
- KMMLU: https://huggingface.co/datasets/HAERAE-HUB/KMMLU
- HAERAE-bench: https://github.com/HAERAE-HUB/HAERAE-bench
- JMMLU: https://github.com/nlp-waseda/JMMLU
- ELYZA-tasks-100: https://huggingface.co/datasets/elyza/ELYZA-tasks-100
- HellaSwag: https://github.com/rowanz/hellaswag
- IFEval: https://github.com/google-research/google-research/tree/master/instruction_following_eval
- Anthropic model card: https://www.anthropic.com/claude
- OpenAI evals: https://github.com/openai/evals