LLM・ツール呼び出し・埋め込みベンチマーク完全分析

AIモデルを評価する際、様々なベンチマーク名が登場します。MMLU 85%、HumanEval 90%、MTEBランキング1位——これらの数字が実際に何を意味するのか、各ベンチマークがどのように機能するのか、どのような状況でどのベンチマークを参照すべきかを完全に理解しましょう。

1. LLM 一般ベンチマーク

MMLU (Massive Multitask Language Understanding)

2020年にUC Berkeleyが発表したMMLUは、LLMの知識の幅と多様な分野にわたる理解力を測定します。

測定方法：

57の学問分野（数学、科学、法学、歴史、医学、心理学など）
14,000問以上の4択問題
5-shot学習方式：テスト前に5つの例題と正解を提供

例題：
分野：高校化学

例1：原子番号6の元素は？
(A) 窒素  (B) 酸素  (C) 炭素  (D) ネオン
答え：(C)

...5つの例題の後...

テスト：イオン結合が形成される条件は？
(A) 2つの非金属原子間
(B) 金属と非金属原子間
(C) 2つの金属原子間
(D) 貴金属と非金属原子間
答え：?

スコアの解釈：

ランダム選択：25%（4択）
GPT-4：約86%、Claude 3 Opus：約86%、Gemini Ultra：約90%
人間の専門家平均：約89%

限界：

暗記と理解の区別が困難：訓練データに含まれていた問題を記憶している可能性
英語中心の評価：多言語能力を反映しない
最新知識を反映しない：静的データセット
データ汚染リスク：テスト問題が訓練データに含まれている可能性

HellaSwag

2019年に発表されたHellaSwagは、「常識的推論」と「文章完成」能力を測定します。名前はHarder Endings, Longer contexts, and Low-shot Activities For Situations With Adversarial Generationsの略です。

測定方法：

ActivityNet（日常活動の動画説明）とWikiHow（ステップバイステップガイド）から抽出
与えられた状況の最も自然な続きを選択
誤りの選択肢（ディストラクター）は言語モデルが生成——表面的にはもっともらしいが実際には間違い

例：
状況：「男性がホットドッグを焼いている。トングでホットドッグをひっくり返す。」

続きの選択：
(A) ホットドッグを火の中に投げ入れる
(B) 完成したホットドッグをパンに乗せる
(C) 冷蔵庫から食材を取り出す
(D) レシピ本を開く

答え：(B)

スコアの解釈：

人間：95.6%
GPT-4：95.3%以上
最新のLLMのほとんどが人間レベルに近い

限界：

大規模モデルにはすでに簡単すぎる（飽和状態）
英語の日常文化への偏り
深い推論よりも言語パターン認識に近い可能性

ARC (AI2 Reasoning Challenge)

Allen Institute for AIが作成したベンチマークで、小学校〜中学校レベルの科学問題を通じて推論能力を測定します。

2つのセット：

Easyセット：

4択の小学校レベルの科学問題
単純な事実確認で解ける問題
TF-IDFや単語頻度ベースの方法で25%以上達成可能

Challengeセット：

単純なキーワード検索や情報検索では解けないよう設計
推論、因果関係、多段階思考が必要
7,787問

Challengeセット例：
「植物の葉における気孔（stomata）の主な役割は何か？」

(A) 光合成のための光吸収
(B) ガス交換と水分蒸散の調節
(C) 根から葉への水の運搬
(D) 糖を他の植物部位へ移動させる

→ 機能の理解が必要で単純な検索では不十分

スコアの解釈：

Challengeセット：GPT-4 約96%、人間の専門家約100%
Easyセットは現在ほぼ飽和状態

TruthfulQA

2021年に発表されたTruthfulQAは、モデルの幻覚（Hallucination）と誤った信念の生成傾向を測定します。

測定方法：

人間がよく誤解する「迷信的に誤答を誘発する」817問
モデルが正確に「わからない」と答えるか、正しい情報を提供するかを評価

例の質問：
- 「私たちは脳の10%しか使っていないというのは本当ですか？」
  → 誤った信念。正解：「いいえ、これは神話です。」

- 「対角線が直角の長方形とは何ですか？」
  → 引っかけ問題。長方形の対角線は直角ではない。

- 「ナポレオンは非常に背が低かったですか？」
  → 実際には当時の基準で平均的な身長だった。

スコアの解釈：

人間：約94%
GPT-4：約60%（意図的に難しく設計）
低いスコアは、モデルがもっともらしい嘘をうまく生成することを意味する

重要な点： TruthfulQAは高スコアを取りにくいよう設計されています。スコアが低いモデルは、人々が信じそうな誤った情報を生成しやすいということです。

WinoGrande

2019年に発表されたWinoGrandeは、44,000問の常識推論問題を通じて代名詞の解釈能力を測定します。

測定方法：

Winograd Schema Challengeの大規模版
2つの空欄のうち1つを埋める（常識的理解が必要）
性別バイアスを除去するためのWinoBiasの改善版

例：
"The trophy didn't fit in the brown suitcase because ___ was too big."
(A) it [trophy - トロフィー]
(B) it [suitcase - スーツケース]
→ トロフィーが大きすぎて入らないという常識的理解が必要

「図書館でSarahはAmyよりも多くの本を読んだ。___は読書を楽しんだ。」
(A) Sarah
(B) Amy
→ どちらが読書を楽しんだかを常識的に判断

スコアの解釈：

ランダム：50%
GPT-4：約87%、人間：約94%

BIG-Bench (Beyond the Imitation Game Benchmark)

204種類の多様なタスクを含む大規模ベンチマークで、既存のベンチマークでは測定が難しい能力を評価します。

BIG-Bench Hard (BBH)：

特に難しい23の推論タスク
Chain-of-Thought（連鎖推論）プロンプティングの効果測定に特に有用
Webナビゲーション、スケジューリング、記号的推論などを含む

BBHの例タスク：
- Boolean Expressions: "(True and False) or (not True and True)" を評価
- Causal Judgment: 因果関係の方向を判断
- Formal Fallacies: 論理的誤りの識別
- Movie Recommendation: 好みに基づく推薦
- Object Counting: テキストから物体の数を数える
- Temporal Sequences: 時系列順に並べ替え
- Word Sorting: アルファベット・条件別の並べ替え

Chain-of-Thoughtの効果：

通常のプロンプティング：GPT-4 約65%
CoTプロンプティング：GPT-4 約85%以上
CoTが特に効果的な分野を特定するために活用

GPQA (Graduate-Level Google-Proof Q&A)

2023年に発表されたGPQAは、PhD レベルの科学的専門知識を要求し、Google検索でも簡単には解けないよう設計されたベンチマークです。

測定方法：

生物学、化学、物理学のPhD研究者が直接作成
4択（各分野の専門家のみが正確に答えられるよう設計）
Webクロールでは答えが見つかりにくいよう設計

スコアの解釈：

該当分野の非専門博士：約34%
該当分野の専門博士：約65%
GPT-4：約39%、Claude 3 Opus：50%以上

例（物理学）：
「量子コンピュータにおける位相的量子ビット（topological qubit）の主な利点は？」

(A) 絶対零度でのみ動作可能
(B) 位相的に保護されており、環境ノイズに強い
(C) 従来のトランジスタよりも高速なゲート速度
(D) 無限の量子ビット数をサポート

→ 量子誤り訂正の深い理解が必要

LiveBench

データ汚染問題を解決するために毎月新しい問題を追加する動的ベンチマークです。

測定方法：

数学、コーディング、推論、言語、エージェントタスクを含む
最新のarXiv論文、ニュース、競技プログラミング問題から生成
客観的な正解がある問題のみ含む

なぜ重要か：

静的ベンチマークのデータ汚染問題を解決
モデルが実際に推論しているか、暗記しているかを区別
継続的な更新により最新モデルの公平な比較が可能

2. コーディングベンチマーク

HumanEval

2021年にOpenAIが発表したHumanEvalは、Pythonプログラミング能力を測定する最も広く使われているコーディングベンチマークです。

測定方法：

164のPython関数実装問題
関数シグネチャ + docstring + サンプル入出力を提供
生成されたコードが隠れたテストケースを通過するか確認

# 例題
def has_close_elements(numbers: List[float], threshold: float) -> bool:
    """
    与えられた数値リストの中で、2つの数値間の差が
    thresholdより小さいペアがあるか確認してください。

    >>> has_close_elements([1.0, 2.0, 3.0], 0.5)
    False
    >>> has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3)
    True
    """
    # モデルがここを実装する必要がある

pass@k メトリック：

pass@1：1回の試みで通過する確率
pass@10：10回の試みのうち少なくとも1回通過する確率
pass@100：100回の試みのうち少なくとも1回通過する確率

スコアの解釈：

GPT-4：pass@1 約87%
Claude 3.5 Sonnet：pass@1 約92%以上
初期のGPT-3：pass@1 約0%

限界：

164問のみで多様性が不足
アルゴリズムの複雑度が比較的低い
実際のソフトウェア開発スキル（デバッグ、リファクタリング）は測定できない

MBPP (Mostly Basic Python Problems)

Google Researchが発表した374のクラウドソーシングされたPython問題集です。

HumanEvalとの違い：

より多様なパターンとスタイル
より簡単な問題も含む（初級から中級）
クラウドソーシングによる多様な難易度

# MBPP例
"""
最大積部分配列を見つける関数を書いてください。
assert max_product_subarray([6, -3, -10, 0, 2]) == 180
assert max_product_subarray([-1, -3, -10, 0, 60]) == 60
"""

SWE-bench

2023年に発表されたSWE-benchは、実際のGitHubのイシューとバグを解決する能力を測定します。

測定方法：

12の実際のPythonオープンソースプロジェクト（Django、Flask、NumPyなど）
2,294の実際のGitHubイシューと検証済みパッチ
モデルがイシューの説明を見て実際のコード修正を生成
既存のテストスイートで検証

例のイシュー：
リポジトリ：scikit-learn
イシュー：「KNeighborsClassifier.predict() が
           sparse matrix入力時に誤った結果を返す」

モデルが行うべきこと：
1. イシュー内容の理解
2. 関連するソースコードの特定
3. バグ修正パッチの生成
4. 既存テストの通過確認

SWE-bench Lite：

より明確な300問のサブセット
迅速な評価のための選別済み問題

スコアの解釈：

2023年初期：GPT-4でも1〜2%
2024年：最新のエージェントシステムで20〜50%
実際のソフトウェアエンジニアリングの複雑さを反映

なぜ重要か：

HumanEvalよりもはるかに現実的な評価
コード理解 + 修正 + 検証能力を統合測定
実際の開発作業の代替可能性を評価

LiveCodeBench

データ汚染を防ぐために、LeetCode、AtCoder、CodeForcesからリアルタイムで新しい問題を追加する動的コーディングベンチマークです。

特徴：

コンテスト終了後に追加される新問題を使用
モデルが以前に見たことのない新問題でのパフォーマンスを測定
コード生成、自己修正、コード実行予測を含む

3. 推論・数学ベンチマーク

GSM8K (Grade School Math)

2021年にOpenAIが発表した8,500問の小学校レベルの数学問題ベンチマークです。

特徴：

2〜8ステップの多段階推論が必要
基本的な算術、分数、小数、パーセンテージなど
Chain-of-Thought推論の効果を検証する核心的なベンチマーク

例の問題：
「Janetのアヒルは1日に16個の卵を産む。
毎朝彼女は3個を食べ、友達のためにマフィンに4個使う。
残りを1個2ドルで市場で売る。
彼女が毎日稼ぐお金はいくらか？」

Chain-of-Thought推論：
1. 1日の卵：16個
2. 食べる：3個
3. マフィンに使う：4個
4. 販売する卵：16 - 3 - 4 = 9個
5. 収入：9 * 2 = 18ドル

答え：18ドル

スコアの解釈：

人間：約100%
GPT-4（CoT）：92%以上
GPT-3（標準）：約20%
GPT-3（CoT）：約56%
CoTの効果が最も劇的に現れるベンチマークの一つ

MATH

2021年に発表された12,500問の競技数学レベルの問題集です。

7つの分野：

代数（Algebra）
前微積分（Precalculus）
幾何（Geometry）
整数論（Number Theory）
確率統計（Counting and Probability）
中級代数（Intermediate Algebra）
初級代数（Prealgebra）

5段階の難易度：

レベル1（最低）：AMC 8レベル
レベル5（最高）：AIME、HMMTレベル

レベル5の例：
「x^4 + 4x^3 - 2x^2 - 12x + 9 を因数分解せよ」

答え：(x^2 + 2x - 3)^2 = (x+3)^2(x-1)^2
→ 高度な代数的操作能力が必要

スコアの解釈：

GPT-4：全体約52%、レベル5：約20%台
最新モデル（o1、Gemini Ultra）：80%以上
数学専門化モデルが急速に向上中

AIME (American Invitational Mathematics Examination)

実際のアメリカ数学オリンピック予選試験の問題です。

特徴：

0〜999の整数で答える（記述式）
AMC 10/12通過者向けの試験
極めて高い数学的創造性を要求

スコアの解釈：

人間の上位5%：15問中7〜9問
GPT-4o：15問中約9〜12問（2024年基準）
o1シリーズがこの分野で画期的な進歩

4. ツール呼び出し / 関数呼び出しベンチマーク

BFCL (Berkeley Function Calling Leaderboard)

2024年にUC Berkeleyが発表した最も包括的な関数呼び出し（Function Calling）ベンチマークです。

2,000以上の関数呼び出しシナリオ：

タイプ別分類：

Simple Function Calling — 単一関数、明確なパラメータ
Multiple Functions — 複数の関数から適切なものを選択
Parallel Functions — 複数の関数を同時に呼び出す
Nested Functions — 関数内で別の関数を呼び出す
REST API — 実際のHTTP APIエンドポイントの呼び出し

測定項目：

正確な関数名の選択
パラメータ名の正確さ
パラメータ型の正確さ（string vs int vs float）
パラメータ値の意味論的正確さ
不要なパラメータを含まないこと

AST検証方式：

# 正解の関数呼び出し
get_weather(
    location="Tokyo, Japan",
    unit="celsius",
    forecast_days=3
)

# モデルが生成した呼び出し
get_weather(
    location="Tokyo",   # 部分一致 — 許容？
    unit="C",           # 型・形式エラー
    days=3              # パラメータ名エラー！
)

AST（抽象構文木）をパースして正確な構造的一致を確認

対応言語・環境：

Python、Java、JavaScript、SQL、REST API

スコアの解釈（2024年基準）：

GPT-4o：全体約72%
Claude 3.5 Sonnet：全体約73%
オープンソースモデル：40〜60%台

τ-bench（tau-bench）

実際のエージェントタスクの完了を測定するベンチマークで、単純な関数呼び出しの正確さを超えて、全体的なタスク完了率を測定します。

測定方法：

実際のビジネスシナリオ（旅行予約、ショッピングなど）
マルチステップエージェントワークフロー
各ステップでの適切なツール使用
最終タスク完了の確認

シナリオ例：
「ニューヨークからパリへの3月20日の片道航空券を探して、
最も安いものを予約して確認メールを送ってください。」

必要なステップ：
1. search_flights(origin="NYC", destination="Paris", date="2026-03-20")
2. select_flight(flight_id="AF001", criteria="cheapest")
3. book_flight(flight_id="AF001", passenger_info=...)
4. send_confirmation_email(booking_id=..., email=...)

→ 各ステップの正確さ + 全体完了を測定

ToolBench / ToolEval

2023年に発表された16,000の実際のREST APIを活用したツール使用能力評価ベンチマークです。

測定方法：

RapidAPIから収集した49カテゴリ、16,000のAPI
実際のAPIドキュメントを見て適切なAPIを選択
正しいパラメータでAPIを呼び出す
マルチステップAPIチェイニング

Solvable Pass Rate（SoPR）メトリック：

実際に解決可能な問題に対する成功率
ChatGPTの組み込みFunction CallingとToolLLMの比較

測定項目：

ツール選択の正確さ（正しいAPIの選択）
実行順序の正確さ
パラメータの正確さ
エラー処理能力

AgentBench

2023年に発表された8つの環境でLLMの自律エージェント能力を測定するベンチマークです。

8つの環境：

OS — OSタスク（ファイル操作、コマンド実行）
DB — データベースクエリと操作
Knowledge Graph — 知識グラフの探索
Digital Card Game — 戦略的カードゲーム
Lateral Thinking Puzzles — 創造的問題解決
House Holding — 仮想環境での家庭管理
Web Shopping — オンラインショッピングタスク
Web Browsing — Webナビゲーションと情報収集

OS環境の例：
「現在のディレクトリで2023年に作成されたすべての.pyファイルを
見つけて'python_files'フォルダに移動してください。」

→ find、mkdir、mv コマンドの組み合わせが必要
→ マルチステップの意思決定とエラー回復能力を測定

スコアの解釈：

GPT-4：全体約3.6点/10点
GPT-3.5：全体約1.9点/10点
オープンソースモデルの多くが1点未満

5. 埋め込みベンチマーク

MTEB (Massive Text Embedding Benchmark)

2022年に発表されたMTEBは、テキスト埋め込みモデルを最も包括的に評価するベンチマークです。

56データセット、8種類のタスク：

1. Retrieval（検索）

質問に最も関連するドキュメントを見つける
nDCG@10メトリックを使用
BEIRベンチマークデータセットを含む

例：「Pythonでリストをソートする方法」
→ 関連するStack Overflowの回答やドキュメントをランキング

2. Classification（分類）

テキスト分類（感情分析、トピック分類など）
埋め込み + ロジスティック回帰で評価
精度（Accuracy）またはF1スコア

3. Clustering（クラスタリング）

類似するテキストの自動グルーピング
ArXiv論文、Redditの投稿など
V-measureメトリック

4. Semantic Textual Similarity（意味的類似度）

2つの文の意味的類似度スコア（0〜5）
スピアマン相関で評価

例：
文1：「犬が公園で走っている」
文2：「犬が屋外で駆けている」
→ 高い類似度（約4.0/5.0）

文1：「今日は晴れている」
文2：「ピザが好きだ」
→ 低い類似度（約0.5/5.0）

5. Reranking（再ランキング）

初期検索結果の並べ替え
MAP（Mean Average Precision）メトリック
検索エンジンの最終的な並べ替え能力

6. Summarization（要約）

要約と原文の意味的類似度
スピアマン相関

7. Pair Classification（ペア分類）

2つの文の関係分類（類似・非類似、重複・非重複）
AP（Average Precision）メトリック

例：
- 質問重複検出：「Pythonリストのソート方法」vs「PythonでリストをソートするTips」
  → 重複（True）
- 「リンゴは果物だ」vs「私は水泳が好きだ」
  → 無関係（False）

8. Bitext Mining（並列文マイニング）

多言語の並列文ペアを見つける
F1スコア

例：
英語：「The weather is nice today」
日本語：「今日は天気がいい」
→ 並列ペアの検出

MTEBリーダーボード（HuggingFace）：

総合スコアでモデルを比較
タスク別の詳細スコアを確認可能
2024年上位：text-embedding-3-large、voyage-large-2、E5-mistral-7b

BEIR (Benchmarking Information Retrieval)

2021年に発表されたBEIRは、18の多様な検索ドメインで情報検索性能を測定するベンチマークです。

18のデータセット：

TREC-COVID：COVID-19関連の医学論文検索
NFCorpus：医学・栄養情報の検索
NQ（Natural Questions）：Googleの自然言語検索
HotpotQA：マルチホップ推論検索
FiQA：金融Q&A
ArguAna：反論検索
Touche：議論の論拠検索
CQADupStack：コミュニティQ&A重複検出
Quora：重複質問の検出
DBPedia：エンティティ検索
SCIDOCS：学術論文検索
FEVER：事実検証
Climate-FEVER：気候関連の事実検証
SciFact：科学的主張の検証

nDCG@10メトリック：

nDCG@10 = 上位10件の結果の正規化割引累積利得

関連度スコア：
- 非常に関連：3点
- 関連：2点
- 少し関連：1点
- 無関係：0点

上位に位置するほど高い重みづけ

ゼロショット性能の測定：

特定ドメインへのファインチューニングなしで多様なドメインへの汎化能力を評価
BM25のような伝統的な手法とニューラル埋め込みの比較

6. RAG・文書解析ベンチマーク

RAGAS (Retrieval Augmented Generation Assessment)

RAGシステムの品質を包括的に測定するフレームワークです。

5つのコアメトリック：

1. Faithfulness（忠実性）

生成された答えが検索されたコンテキストに基づいているか
コンテキストにない内容を作り出していないか
スコア範囲：0〜1

コンテキスト：「Pythonは1991年にGuido van Rossumによって作られました。」
質問：「Pythonはいつ、誰が作ったのですか？」

高いFaithfulness の答え：
「Pythonは1991年にGuido van Rossumによって作られました。」

低いFaithfulnessの答え（幻覚）：
「Pythonは1989年にGuido van Rossumによって
 オランダのアムステルダムで作られました...」
→ コンテキストにない日付と場所を追加

2. Answer Relevance（回答関連性）

答えが質問に実際に関連しているか
質問から外れた情報を含んでいないか

3. Context Precision（コンテキスト精度）

検索されたコンテキストが実際に有用か
不要なコンテキストの含有率

4. Context Recall（コンテキスト再現率）

答えるために必要な情報がすべて検索されたか
正解の情報の含有有無

5. Context Entity Recall（エンティティ再現率）

重要なエンティティ（人物、場所、日付など）がコンテキストに含まれているか

RULER (Retrieval Under Long-context Evaluation Regime)

長文コンテキストのLLM能力を測定するベンチマークで、単純なNeedle-in-a-Haystackを超えて複雑な長文コンテキスト理解を評価します。

タスクタイプ：

NIAH（Needle-in-a-Haystack）：長い文書から特定の情報を見つける
Multi-key NIAH：複数の情報を同時に見つける
Multi-value NIAH：1つのキーから複数の値を抽出
Multi-hop Tracing：情報をたどって複数ステップ推論
Aggregation：文書全体から情報を集約
QA：長文コンテキストに基づく質問応答

Multi-hop Tracingの例（128Kトークンの文書内）：
「AliceのマネージャーはBobです。Bobの誕生日は3月15日です。
... (数万トークンの無関係な内容) ...
Aliceのマネージャーの誕生日は？」

→ Alice → Bob → 3月15日 の接続能力を測定

DocVQA

実際の文書画像に対する視覚的質問応答能力を測定します。

測定方法：

実際のスキャンされた文書画像（請求書、フォーム、レポート、契約書など）
自然言語の質問 + 文書画像 → 回答生成
OCR能力 + 文書構造理解 + 内容理解を統合

例：
[請求書の画像]
質問：「消費税の合計金額はいくらですか？」
→ 画像から税金の行を見つけて金額を抽出

[医療フォーム]
質問：「患者の生年月日は？」
→ 特定フィールドの位置を特定して値を抽出

ANLS（Average Normalized Levenshtein Similarity）メトリック：

完全一致ではなく編集距離に基づく類似度測定
数値・日付のフォーマット変形を許容

FinanceBench

金融文書（10-K年次報告書、10-Q四半期報告書）に基づくQ&Aベンチマークです。

測定方法：

実際の企業開示文書（SEC EDGAR）
数値抽出、計算、多段階推論が必要な質問

例：
[Apple Inc. 2023年次報告書]
質問：「2023年のサービス部門の収益成長率は前年比何%か？」

必要な能力：
1. 2023年のサービス収益を探す
2. 2022年のサービス収益を探す
3. 成長率を計算：(2023年-2022年)/2022年 * 100

7. マルチモーダルベンチマーク

MMBench / MMMU

MMBench：

マルチモーダル理解能力の総合評価
画像 + テキストの理解
20以上の細かい能力を評価

MMMU（Massive Multi-discipline Multimodal Understanding）：

大学レベルのマルチモーダル理解
11,500問、30学科、183のサブトピック
医学、法学、工学のダイアグラム、チャート、数式の理解

MMUMの例：
[化学結合のダイアグラム画像]
質問：「この分子構造の結合角度は？」
→ 視覚的な化学構造の理解が必要

DocBench / OCRBench

OCRBench：

OCR精度の測定
印刷体、手書き、多言語テキスト
自然シーンのテキスト、文書内のテキスト
1,000の評価サンプル

DocBench：

文書解析品質の測定
表、数式、チャート、レイアウト認識
PDF・画像文書処理能力

8. ベンチマーク選択ガイド

実際のユースケース別の参照ベンチマーク：

ユースケース	主要ベンチマーク	補助ベンチマーク
チャットボット / QA	MMLU、TruthfulQA	HellaSwag、WinoGrande
コード生成ツール	HumanEval、SWE-bench	MBPP、LiveCodeBench
エージェント / 自動化	BFCL、AgentBench	τ-bench、ToolBench
RAGシステム	MTEB Retrieval、BEIR	RAGAS、RULER
文書処理	DocVQA、OCRBench	FinanceBench
数学・科学	MATH、GSM8K	GPQA、AIME
埋め込みモデル選択	MTEB全体	BEIRドメイン別
マルチモーダル	MMMU、MMBench	DocVQA

9. ベンチマークの限界と注意点

データ汚染（Data Contamination）

問題：

モデルの訓練データにテスト問題が含まれている可能性
公開されているベンチマーク問題は訓練データに含まれる可能性が高い
本当の推論か暗記かを区別することが難しい

対応策：

LiveBench、LiveCodeBenchのような動的ベンチマークの登場
非公開テストセットの使用
継続的な新問題の追加

プロンプトエンジニアリングによるスコア変動

同じモデル、異なるプロンプト：
GSM8K 標準プロンプティング：70%
GSM8K CoTプロンプティング：92%

→ プロンプティング方法の記載がないスコアは意味をなさない

実際の使いやすさとベンチマークスコアの乖離

MMLU 90%のモデルが実際の文章作成では劣る可能性
特定のベンチマークに過学習（オーバーフィッティング）したモデルが存在
「ベンチマークハッキング」現象：実際の能力向上なしに特定のベンチマークスコアのみを上げる

言語バイアス

ほとんどのベンチマークが英語中心
日本語、韓国語、アラビア語などの言語能力の測定が不足
多言語ベンチマーク：MLQA、XNLI、mMTEBなどが別途必要

ベンチマークの飽和（Saturation）

HellaSwag：人間とGPT-4がほぼ同じレベルに
ARC Easy：最新モデルのほとんどが98%以上
継続的により難しい新しいベンチマークが必要

クイズ：ベンチマーク理解度テスト

クイズ1：MMLUの5-shot学習が意味することは？

答え： テスト問題を解く前に、その分野の5つの例題と正解がプロンプトに含まれる方式です。

解説： 5-shot学習では、モデルが問題を解く前にその分野の5つの例題と正解がプロンプトに含まれます。これによりモデルは問題の形式を理解し、特定スタイルの回答を生成するよう誘導されます。0-shotは例なしで直接質問、1-shotは1つの例、few-shotはいくつかの例を意味します。

クイズ2：TruthfulQAでGPT-4が人間より低いスコアを取る理由は？

答え： TruthfulQAは、人間がよく誤解する迷信や誤概念をテストするよう意図的に設計されています。AIモデルも訓練データ中の誤った情報を学習し、もっともらしい誤情報を生成する傾向があります。

解説： TruthfulQAの核心は、モデルが「もっともらしいが間違った」回答を生成する能力（幻覚）を測定することです。人間は「わかりません」と答えることができますが、LLMは自信を持って誤った情報を生成することが多いです。ベンチマーク自体が意図的に難しく設計されており、スコア自体よりもモデル間のスコア差を比較することが重要です。

クイズ3：HumanEvalのpass@kメトリックでpass@10が常にpass@1より高い理由は？

答え： pass@10は10回の試みのうち少なくとも1回成功すればよいため、1回のみ試みるpass@1より成功確率が常に高いか等しくなります。

解説： pass@kは確率的にk回試みるときに少なくとも1回成功する確率です。式は1 - (失敗する確率)^k の形です。kが大きいほど成功確率が高くなるため、pass@100 >= pass@10 >= pass@1が常に成立します。このメトリックはモデルのコード生成の多様性と創造性を評価するためにも活用されます。

クイズ4：BFCLでAST検証方式を使用する理由は？

答え： テキストマッチングではなくコードの構造的な意味を検証するためです。ASTはコードを構文木としてパースし、関数名、パラメータ名、型、値を正確に確認できます。

解説： 単純なテキスト比較では get_weather(city='Tokyo') と get_weather(city = 'Tokyo') を別物として処理する可能性があります。ASTパースにより、空白やクォートスタイルなどの表面的な違いを無視して実際の意味論的な同一性を確認します。また、パラメータの順序が異なっても同じ呼び出しとして認識するなど、より正確な評価が可能です。

クイズ5：MTEBのRetrievalタスクにnDCG@10を使用する理由は？

答え： nDCG@10は上位10件の検索結果の品質を測定しながら、より高い順位の結果に大きな重みを付けます。ユーザーは主に上位の結果しか見ないため、実際の使用パターンを反映しています。

解説： nDCG（Normalized Discounted Cumulative Gain）は関連度スコア（0〜3）をlog関数で割引し、順位が高いほど重要視します。@10は上位10件のみを評価します。例えば、1位の結果に関連文書がある場合、10位にある場合よりはるかに高いスコアが付きます。

クイズ6：RAGASのFaithfulnessとAnswer Relevanceの違いは？

答え： Faithfulnessは回答が検索されたコンテキストに基づいているか（作り話をしていないか）を測定し、Answer Relevanceは回答が質問の核心を実際に取り上げているかを測定します。

解説： 2つのメトリックは異なる失敗モードを捉えます。Faithfulnessが低い場合、モデルがコンテキストにない内容を作り出している（幻覚）ことを意味します。Answer Relevanceが低い場合、コンテキストには忠実だが質問と関係ない内容を答えていることを意味します。良いRAGシステムは両方のメトリックが高くなければなりません。

クイズ7：SWE-benchがHumanEvalより難しく、より現実的な理由は？

答え： SWE-benchは実際のGitHubのイシューとコードベースを使用します。一つの関数を書くのとは異なり、数千行の既存コードを理解し、バグの原因を特定して最小限の変更で修正し、既存のテストスイートをすべて通過させる必要があります。

解説： HumanEvalはクリーンな関数実装の問題ですが、SWE-benchは実際のソフトウェア開発プロセスをシミュレートします。モデルは(1)イシュー内容の理解、(2)コードベースの探索、(3)バグ原因の特定、(4)修正方法の決定、(5)パッチ生成、(6)既存テストの通過確認をすべて行わなければなりません。これは実際の開発者の日常業務に非常に近いものです。

クイズ8：データ汚染（Data Contamination）問題を解決するための方法は？

答え： 動的ベンチマーク（LiveBench、LiveCodeBench）、非公開テストセット、継続的な新問題の追加、生成的評価などが主な解決策です。

解説： データ汚染は訓練データにテスト問題が含まれて実際の能力より高いスコアが出る問題です。LiveBenchは最新のarXiv論文や競技プログラミングサイトの新問題を継続的に追加して、モデルが事前に見られないようにしています。また、モデル提出時に訓練データにテストセットが含まれているかを宣言する方式も使われています。

クイズ9：BEIRでゼロショット評価が重要な理由は？

答え： 埋め込みモデルの真の汎化能力を測定するためです。特定のドメインへのファインチューニングなしに多様なドメインでうまく機能するモデルが実用的に価値があります。

解説： 実際のRAGシステムを構築する際、医療、法律、金融など様々なドメインの文書を処理する必要があります。各ドメインに別々のモデルを訓練するのはコストがかかるため、ゼロショットでも多様なドメインでうまく機能する埋め込みモデルがはるかに実用的です。BEIRは18のドメインでのゼロショット性能を測定してこの汎化能力を評価します。

まとめ：ベンチマークを賢く活用する

ベンチマークスコアはモデル能力の一側面しか示しません。実際のユースケースに合ったベンチマークを選択し、単一のベンチマークではなく複数のベンチマークを総合的に考慮することが重要です。

コア原則：

目的に合ったベンチマークを選択：コード生成が目的なら、MMLUよりHumanEvalの方が関連性が高い
複数のベンチマークを総合的に考慮：単一ベンチマークの1位がすべての面で最高を意味しない
プロンプティング方式を確認：CoTと通常のプロンプティングのどちらの結果かを確認
データ汚染の可能性を認識：最新の動的ベンチマークと合わせて確認
直接テストする：最終的には実際のユースケースで直接評価

ベンチマークは地図であり、領土そのものではありません。複数の良い地図を活用して最適なモデルを選んでください。