推論モデル(reasoning models) 2026年ガイド — o3·o4·DeepSeek R1·Claude Thinking·Gemini Deep Think·QwQ 徹底比較

プロローグ — 「より長く考えて、より良く解く」

2024年9月、OpenAIはo1-previewを投下した。モデル自体は大きくない。新しかったのは一つ — モデルが答える前に、しばらく自分自身と対話する。

それ以前のLLMは「次のトークンをうまく予測する」ゲームだった。o1はもう一手加えた。答えを出力する前に、隠されたchain-of-thoughtトークンを大量に作り、そこで推論を整え、それからようやく答えを出す。より多くのトークンを使う — つまり長く「考える」 — ほど正解に近づく。これがtest-time compute scalingである。

この1行のアイデアが、2025〜2026年のモデル地形を丸ごと塗り替えた。o3がGAになり、DeepSeek R1が同じ曲線をオープン重みで再現してしまい、AnthropicはSonnet/Opus 4.5に「extended thinking」をトグルとして埋め込み、GoogleはGemini 2.5 ProとDeep ThinkをGAにした。AlibabaのQwQ·QwQ-Plusは、オープン重み陣営の2つ目の大きな流れを作った。

2024年の問い: 「どのモデルを使うか?」 2026年の問い: 「このタスクでthinkingを入れるか切るか、どれくらい?」

この記事は、推論モデルの2026年現在のスナップショットを整理する。6つの家族 × thinking挙動 × ベンチマーク × 価格を1ページに広げる。そして本当に重要な問い — 「推論モデルが必要な瞬間はいつか、高速な非推論モデルが勝つ瞬間はいつか?」 — に正直に答える。

1章 · Test-time computeとは何か

伝統的なLLMスケーリングは3つの軸だった。

軸	意味
パラメータ	モデルを大きく
学習データ	より多く食わせる
学習計算量	より長く学習

o1が追加した4つ目の軸がtest-time computeである。推論(inference)段階で使うトークン数を増やすと正解率が上がる。

       正解率
         ▲
  R1 ────│              ╱── thinking ON
         │           ╱
  base ──│       ╱
         │   ╱──── thinking OFF (即答)
         └────────────────────────▶ 推論時のトークン予算

この曲線はモデルごとに違い、問題の種類ごとに違う。数学·コーディング·証明のようなverifiableな問題では曲線が急で、創作·要約·雑談ではほぼ平ら — 長く考えてもほとんど良くならない。

thinkingトークンの正体

推論モデルが「考える」間に作るトークンは、通常3つのうち1つである。

隠された(hidden) reasoning — o1·o3·o4が採用。ユーザーにrawなchain-of-thoughtは見せない。要約だけ。
見える(visible) reasoning — DeepSeek R1·QwQが採用。\<think\>...\</think\>ブロックに推論過程をそのまま露出。
トグル可能 — Claude Sonnet/Opus 4.5のextended thinking。リクエストごとにon/off、予算調整可能。

hiddenかvisibleかは単なるUXの違いではない。 visibleはデバッグ·教育·信頼検証が楽だが、模倣·蒸留に弱い。DeepSeek R1がオープンで公開された途端、多数のdistillation試みが出たのもそのためだ。

2章 · RLVR — 推論モデルを作るレシピ

推論モデルはbaseモデルの上に2つのレイヤーを重ねて作る。

2-1. 長いCoTを作る能力

まずモデルがchain-of-thoughtを長く展開できる必要がある。baseモデルは普通、短く確信に満ちた答えを好む。長いCoTデータでSFT(supervised fine-tuning)を行い、「考えを長く展開する習慣」を教える。

2-2. RLVR — Reinforcement Learning with Verifiable Rewards

核心は2層目だ。RLVRは自動で採点可能な報酬を使う。

RLVRループ:
  1. 問題(数学·コード·論理)をモデルに与える
  2. モデルが長いCoT + 最終答えを生成
  3. verifier(検証器)が採点する:
     - 数学: 正解と一致するか?
     - コード: テストが通るか?
     - 形式推論: 証明が形式的に正しいか?
  4. 通ったtrajectoryに+1、失敗に0(または負)
  5. PPO/GRPOなどpolicy gradientでモデル更新
  6. 繰り返し

ポイントは**「検証可能な報酬」である。RLHF(人間のフィードバック)は人手で高くつき、一貫性も低い。RLVRはコンパイラ·テストランナー·数学採点器**が採点する — 無限に安く、一貫性も完璧。

DeepSeek R1論文(Jan 2025)の衝撃: ほぼcold-startからRLVRだけでR1-Zeroを作った。モデルが自発的に「待って、もう一度考えよう」のようなself-correctionパターンを発見した — emergent reasoning。人が教えていないのに。

RLVRがよく効く領域

領域	検証方法	RLVR効果
数学	答え一致	非常に大(AIME大幅上昇)
コード	テスト通過	大(LiveCodeBench·SWE-bench)
論理パズル	形式検証	大
ツール使用	意図したツール呼び出し	中
文章·要約	人間評価が必要	小(verifierが弱い)
安全性·正直性	人間/モデル判定	小(RLHFの方が適切)

だから推論モデルは万能ではない。 verifierが強い領域でのみ圧倒的だ。

3章 · OpenAI — o3 / o3-pro / o4

カテゴリーを作った会社らしく、2026年現在もっとも豊富なラインナップ。

3-1. o3 (GA、2025 Q2〜)

2024年12月に評価結果が公開され、2025年4月にGA。reasoning effort dial(low·medium·high)を提供 — 同じモデル、違うthinking budget。highは1応答に分単位かかることもある。

特徴:

推論の最中にツールを使う(「agentic reasoning」) — 推論中にweb検索し、code interpreterを呼び、その結果を再びthinkingに食わせる。
hidden CoT — ユーザーにrawな推論は見せない。要約(summary)だけ。
ARC-AGIで初めて人間水準に近づいた(high effort基準)。

3-2. o3-pro

「本当に難しい」問題用。同じモデルをさらに長く回す。価格は1桁倍高く、応答に数分かかる。研究·深層分析·複雑なデバッグに使う。

3-3. o4 / o4-mini

2025年後半にリリースされた次世代。マルチモーダル推論(画像·図表を見て推論)、ツール使用の推論統合がさらに滑らか。o4-miniは速いのにo3に近いコーディングスコアを出す — コーディングワークロードの新たなデフォルト。

モデル	thinking	ツールin-loop	強み
o3	hidden、3段階dial	yes	一般推論、ARC-AGI
o3-pro	hidden、非常に長い	yes	本当に難しい問題
o4	hidden、マルチモーダル	yes	複雑なmulti-step
o4-mini	hidden、短い	yes	コーディング、コスト効率

4章 · DeepSeek — R1 / R1-0528 / V3.1 reasoner

オープン重み陣営の爆弾。2025年1月にR1が公開されると、業界が止まった。

4-1. DeepSeek R1 (Jan 2025、MITライセンス)

671B MoE(active 37B)。baseはV3。
RLVRだけで推論能力を伸ばしたR1-Zero、そして軽くSFTを足したR1。
\<think\>...\</think\>ブロックにrawなCoTをそのまま露出 — デバッグ·研究には天国、商用モデル側には悪夢(模倣リスク)。
AIME·MATH·コーディングでo1と似た曲線。
価格はclosedモデル対比1桁倍安い。

4-2. R1-0528 (May 2025 アップデート)

同じ重みサイズを維持してRLをさらに回した。複雑なコーディングと長文脈推論でもう一段階上がった。SWE-bench Verifiedのスコアが有意に上昇。

4-3. V3.1 reasoner (2026年初頭)

V3.1 baseの上にthinkingをトグルで埋め込んだ統合モデル。Claude 4.5のように1つの重みでthinking on/off — ただしthinking on時のみR1スタイルの\<think\>ブロックを生成する。オープン重み陣営で初めての「トグル可能な推論」。

なぜDeepSeekが重要か: 推論モデルがもうclosedモデルの独占的資産ではないことを示した。誰でも8xH100でself-host可能。regulated industryやon-prem要件がある場所では事実上のデフォルト。

5章 · Anthropic — Claude Sonnet 4.5 / Opus 4.5 extended thinking

Anthropicは別の道を選んだ。別のモデル系統ではなく、同じモデルの状態(mode)。

5-1. extended thinkingとは

Sonnet 4.5·Opus 4.5にリクエストごとのトグルがある。APIコールにthinkingパラメータを入れてトークン予算を指定する。モデルはその予算分の推論ブロックを作り、その後に答えを出す。

リクエスト:
  thinking: { type: "enabled", budget_tokens: 16000 }

レスポンス:
  - thinkingブロック (予算内で)
  - 最終答え (assistantメッセージ)

5-2. 特徴

1つの重み、2つのモード — 運用がシンプル。
interleaved thinking — 推論の途中でツールを呼び、結果を受けて推論を続ける。
thinkingの中身はAPIレスポンスにそのまま入ってくる(rawテキスト)。hiddenではない。ただし次のターンで自動圧縮される。
コーディング·SWE-bench Verifiedに強い。Sonnet 4.5 + extended thinkingは実PR自動化で非常に強い。

5-3. budgetの距離感

タスク	推奨budget
即答できる質問	thinking off
1〜2ステップの推論	2k〜4k
小さなコードパッチ	8k〜16k
複雑なバグデバッグ	32k〜64k
数学·証明·研究	64k以上

原則: budgetは難易度に比例させる。 thinkingを無条件にonにしない。

6章 · Google — Gemini 2.5 Pro / Deep Think

Gemini 2.5 Proは最初から「推論が組み込まれた」一般モデルとして登場した。

6-1. Gemini 2.5 Pro

thinkingがデフォルトON。dynamic thinking — モデルが問題の難易度を見てthinkingの長さを自分で決める。
100万トークンコンテキスト + thinking — 長文書の上での推論に強い。
マルチモーダル — 動画·音声·画像を推論に混ぜられる。

6-2. Deep Think (Gemini 2.5)

本当に難しい問題用。parallel thinking — 複数の仮説を同時に走らせて合わせる。IMO 2025(国際数学オリンピック)で初めて人間の金メダル水準に到達したモデルとして話題に。2025年後半にGA。

モデル	thinking	コンテキスト	強み
Gemini 2.5 Flash	dynamic、短い	1M	高速推論、コスト効率
Gemini 2.5 Pro	dynamic、長い	1M	一般、マルチモーダル
Gemini 2.5 Deep Think	parallel、非常に長い	1M	難しい数学·証明

7章 · Alibaba — Qwen QwQ / QwQ-Plus

オープン重み陣営の2つ目の大きな流れ。R1とともにオープン推論モデルの両柱。

QwQ-32B (2024年11月) — 32Bのオープンモデルが推論でo1-previewに肉薄。衝撃。
QwQ-Plus (2025) — 次世代。コーディングと数学の両方でもう一段階上。
Qwen3 reasoner — より大きなサイズ、Apache 2.0ライセンス。

QwQはR1と同様visible CoT。self-host親和的。日·韓·中·英の多言語に強い — アジア圏の社内利用で選好度が高い。

8章 · xAI — Grok 3 / 4 Heavy thinking

Grok 3 thinking·Grok 4·Grok 4 Heavyはthinkingモードを持つ。

Grok 3 Thinking (2025年初頭) — chain-of-thoughtを長く回すモード。X(Twitter)データで学習した影響で「最新ニュース」に強い。
Grok 4 / 4 Heavy (2025年後半) — Heavyはmulti-agent thinking、つまり複数のインスタンスが並列で推論し合わせる。**HLE(Humanity's Last Exam)**のような非常に難しい評価でトップスコア。

モデル	thinking	特徴
Grok 3 thinking	一部visible	Xのリアルタイムデータ
Grok 4	hidden、長い	一般
Grok 4 Heavy	並列multi-agent	HLEトップ

9章 · 比較マトリクス — 1ページに

ベンチマーク数値はリリース·時期によって絶えず動く。下記は相対的な位置を示すスナップショットだ。

9-1. 推論モードの挙動

モデル	thinking形式	budget制御	ツールin-thinking
OpenAI o3	hidden(要約のみ)	low/med/high	yes
OpenAI o3-pro	hidden、非常に長い	自動(非常に大)	yes
OpenAI o4 / o4-mini	hidden	low/med/high	yes
DeepSeek R1 / 0528	visible (<think>)	自動	一部
DeepSeek V3.1 reasoner	visible、トグル	APIトグル	一部
Claude Sonnet 4.5	visible、トグル	トークンbudget指定	yes (interleaved)
Claude Opus 4.5	visible、トグル	トークンbudget指定	yes (interleaved)
Gemini 2.5 Pro	hidden、dynamic	dynamic自動	yes
Gemini 2.5 Deep Think	hidden、parallel	dynamic自動	yes
Qwen QwQ / QwQ-Plus	visible (<think>)	自動	一部
Grok 4 / 4 Heavy	hidden / parallel	モード選択	yes

9-2. 主要ベンチマークの位置(2026年初頭、相対表示)

モデル	AIME系数学	LiveCodeBench	SWE-bench Verified	費用/遅延
o3 (high)	最上位	最上位	最上位圏	高い、遅い
o3-pro	最上位	最上位	最上位圏	非常に高い、非常に遅い
o4-mini	上位	上位	上位	中程度、中程度
R1-0528	上位	上位	上位圏	安い(open)、中程度
Sonnet 4.5 thinking	上位	最上位	最上位	中程度、中程度
Opus 4.5 thinking	最上位	最上位	最上位	高い、中程度
Gemini 2.5 Pro	上位	上位	上位	中程度、中程度
Deep Think	最上位(IMO)	上位	上位	高い、非常に遅い
QwQ-Plus	上位	上位	中上位	安い(open)、中程度
Grok 4 Heavy	最上位	上位	上位	高い、遅い

絶対数値はリリース·評価方式により変わる。決定は自分の評価スイートで行うこと — 自分のデータ·自分のタスク·自分のSLAの上で。

10章 · 価格とthinking-tokenの経済

推論モデルのコスト構造は非推論モデルと違う。thinkingトークンが出力トークンに含まれて課金され、それは普通answerトークンの数〜数十倍だ。

リクエスト: "このコードのバグを見つけて (200トークン)"

レスポンス: [thinking: 8,000トークン]  ← 出力価格で課金
            [answer:    600トークン]    ← 出力価格で課金

総コスト = input(200) + output(8,600)

意味: thinking budget自体が価格である。小さなタスクにthinkingを入れると平時の10〜50倍のコストになる。

10-1. モデルごとのおおよその1Mトークン出力単価(相対位置)

価格は頻繁に変わる。下記は相対比較用だ — 実際の金額は各プロバイダの公式ページで確認のこと。

モデル	入力/1M	出力/1M	thinkingが出力に含まれる?
o3	中〜高	非常に高	yes
o3-pro	非常に高	非常に非常に高	yes
o4-mini	低〜中	中	yes
R1 (DeepSeek API)	非常に低	低	yes
Sonnet 4.5 thinking	中	高	yes (thinkingが出力としてカウント)
Opus 4.5 thinking	高	非常に高	yes
Gemini 2.5 Pro	中	高	yes
Deep Think	高	非常に高	yes
QwQ-Plus (Alibaba API)	非常に低	低	yes
Grok 4 Heavy	高	非常に高	yes

R1·QwQのようなオープンモデルはself-hostすれば0(インフラコストのみ)。大量·反復タスクでは圧倒的だ。

10-2. thinking budgetガイドライン

タスク種類	推奨
FAQ·要約·翻訳	thinking off (非推論モデルで)
短いコードスニペット	thinking off または minimal
一般的なバグfix	thinking low / 4k
複雑なデバッグ	thinking medium / 16k
難しい数学·証明	thinking high / 64k+
深い研究·深層分析	o3-pro·Deep Think·Grok 4 Heavy

11章 · 推論モデルが本当に必要な瞬間

推論モデルは万能ではない。入れるべき時は明確にあり、切るべき時の方が多い。

11-1. 推論モデルが輝く場合

数学·論理·証明 — multi-step推論が価値を作るところ。
複雑なコーディング — 大きなリポの上で複数ファイルを一緒に見て一貫した変更。SWE-benchの本質。
エージェント計画 — どのツールをどの順番で呼ぶか分からない新しいタスク。
デバッグ — 仮説を立て、証拠を集め、反証する。
研究·分析 — トレードオフ·反例·反論可能性を拾わなければならないタスク。
試験のような最後の決戦 — IMO·AIME·HLEのような「1回で当てなければならない」問題。

11-2. 推論モデルが損する場合

即答可能な事実検索 — 「今日は何日?」に16k thinkingトークンを使う理由はない。
高ボリュームの分類·タグ付け — 1件あたりのコストが掛け算される。
UI応答性が重要なチャット — thinkingは遅い。ユーザーが離れる。
創作文章 — verifierが弱い。一般モデルの方が多様で自然。
雑談·感情対話 — overthinkingは気まずさ。
既に決まった形式のレポート — テンプレートの上で埋めるだけ。

原則: thinkingはコストである。そのコストを正当化する正解率上昇がある時だけ入れる。

11-3. ルーティングパターン

リクエスト到着
  │
  ▼
複雑度分類器 (安価で速いモデル、例: Haiku·Flash·4o-mini)
  │
  ├── "simple" → 高速な非推論モデル (即答)
  ├── "medium" → 推論モデル low budget
  └── "hard"   → 推論モデル high budget または pro/Heavy

これが2026年プロダクションAIシステムのデフォルト構造だ。すべてのリクエストに推論モデルを使うのはコスト·遅延の自殺。

12章 · 正解率·コスト·遅延の三角トレードオフ

同じ問題を同じ正解率で解いても、コスト·遅延が違えば違うシステムである。

12-1. 3軸の可視化

         正解率 ▲
              ╱│╲
             ╱ │ ╲    ← Pareto frontier
            ╱  │  ╲
   ────────●───┼───●─────
          高い  │  遅い
                ▼
              遅延

Pareto frontier: 1つの軸を多く得るには別の軸を捨てる必要がある。o3-proは正解率·コスト·遅延の中で正解率だけを買う。R1 self-hostはコストを買う。Haiku/Flashは遅延を買う。

12-2. どの点を買うか

プロダクト特性	推奨ポイント
インタラクティブなチャット(1秒未満)	非推論モデルまたはthinking minimal
非同期エージェント(分単位OK)	thinking medium / high
バッチ分析(夜通しOK)	最も正確なモデル、コストだけ見る
社内·オンプレム強制	オープン重み(R1·QwQ)
高精度な1回限りの決定	Pro / Heavy / Deep Think

12-3. budgetを動的に — 段階的thinking

進んだパターン: 失敗したらbudgetを増やしてリトライする。

1. thinking 2kで答えを受ける
2. self-consistency: 同じ答えが安定しているか?
3. 安定 → 終了
4. 不安定 → 4kでリトライ
5. それでも不安定 → 16k または別のモデル

このescalationパターンは平均コストを大きく下げる — 簡単な問題は安く、難しい問題だけ高く。

13章 · オープン vs クローズドの推論ラダー

2026年の推論モデル地形をオープン/クローズド軸で描くと:

        クローズド (closed-weights)
         │
o3-pro · Opus 4.5 thinking · Deep Think · Grok 4 Heavy
         │   ← 「最強」だが高くて閉じ込められる
         │
   o3 · Sonnet 4.5 thinking · Gemini 2.5 Pro · Grok 4
         │   ← 一般タスクの標準
         │
   o4-mini · Gemini 2.5 Flash · Grok 3 thinking
         │   ← 高速推論
         │
─────────┼─────────────────────────── 価格 / latency
         │
   QwQ-Plus · Qwen3 reasoner
         │
   DeepSeek R1-0528 · V3.1 reasoner
         │
        オープン (open-weights、self-host可能)

オープンを選ぶ理由

データが外に出てはいけない — 医療·金融·防衛·政府。
大量の反復タスク — トークンあたりのコストが0になる。
モデルをさらにfine-tuning — ドメインに合わせて。
再現性·監査 — 重みがあれば決定の出所が追跡可能。

クローズドを選ぶ理由

最高性能 — 一部のタスクでは1〜3%が決定的。
運用を外注 — モデルホスティング·更新·安全性。
マルチモーダル統合 — 画像·動画·音声·ツールが1つのAPIの中で。
モデル回転の速さ — 最新frontierに即時アクセス。

2026年の現実: 真剣な組織は両方使う。センシティブなデータはオープンself-host、公開可能な一般タスクはクローズドAPI。ルーティングが最も難しい決定だ。

14章 · 推論モデルの扱い方 — 実戦Tips

14-1. プロンプトは短く、コンテキストは豊かに

推論モデルは自分自身と考えるのが仕事。プロンプトで「step 1: ... step 2: ...」のような強制ステップ分離はむしろ邪魔。目標を明確に、制約を明確に与えて、あとはモデルに決めさせる。

14-2. CoT強制は非推論モデルでだけ

「think step by step」は非推論モデルで役に立った。推論モデルではそのトークンがthinkingの中で既に起きている。 明示的にまたやらせるとthinkingが重複したり短くなったりする。抜くこと。

14-3. ツール使用はモデルによって異なる

o3/o4·Sonnet 4.5·Gemini 2.5 Pro: interleaved thinking — ツール結果が推論に自然に混ざる。
R1·QwQ: ツール統合が弱い。外部ReActループで補強する。

14-4. self-consistency

同じ質問をN回呼んで多数決。推論モデルで特に効果が大きい。コストはN倍だが正解率は有意に上がる。医療·金融など高リスクな決定に有用。

14-5. thinkingトレースをログする(可能な場所だけで)

R1·QwQ·Claudeのようなvisible推論を出すモデルはログとして残す。デバッグ·改善·評価の金鉱だ。ただし、ユーザーにそのまま見せると危険な場合がある(誤った仮説を事実のように見せかねない)。

14-6. キャッシュ活用

system promptが長いとthinkingがその上で起きる。prompt caching(Anthropic·OpenAI·Geminiすべてサポート)で入力トークン価格を90%まで下げられる。ただし、thinkingトークンはキャッシュされない — 毎回再生成される。

エピローグ — 2行要約と次の記事

この記事の2行要約:

推論モデルはすべてのタスクに良いわけではない — 検証可能な問題でのみ圧倒的だ。
2026年の決定は「どのモデル」ではなく「どのモデル × どのthinkingモード × どのルーティング」だ。

12項目チェックリスト

推論をonにするかoffにするかをタスクごとに決めているか?
thinking budgetをタスク難易度に比例させているか?
ルーター(安価で速い分類器 + 高価な推論モデル)があるか?
self-consistencyを高リスク決定に使っているか?
thinkingが出力トークンとしてカウントされることをコストモデルに反映しているか?
ツール使用パターンがinterleavedを上手く活用しているか?
visible CoTモデルの推論をログしているか?
自分のデータで評価スイートを持っているか?(ベンダーベンチマークに依存していないか?)
オープン重みのオプションを検討したか(regulated·high-volumeの場合)?
prompt cachingで入力コストを下げたか?
CoT強制(「think step by step」)を推論モデルから抜いているか?
ユーザーにraw推論を露出しないようにしているか?

アンチパターン10個

すべてのリクエストに推論モデル — コスト·遅延の自殺。
CoTプロンプト強制 — 推論モデルでは逆効果。
thinking budgetをデフォルト最大 — 課金爆弾。
ベンダーベンチマークだけ見て決める — 自分のタスクと違う。
visible推論をユーザーにそのまま露出 — 誤った仮説が事実のように見える。
self-consistencyをあらゆる場所で — コストN倍。
オープン/クローズドのどちらか1つだけ — ルーティングが答え。
thinkingトークンを監視しない — コスト追跡不可能。
センシティブなデータを外部推論APIへ — コンプライアンス違反。
推論モデルをチャットUXにそのまま — 1分待つユーザーはいない。

次の記事予告

候補: 推論モデル評価スイート — 自分のデータでthinkingを測定する、エージェント × 推論モデル — ツール使用とthinkingの統合パターン、オープン推論モデルのself-hostガイド — vLLM·SGLang·TGI比較。

"より大きなモデルではなく、より良く考えるモデル — そしてその次は、いつ考えないかを知るモデル。"

— 推論モデル 2026 ガイド、終わり。

参考 / References

OpenAI, "Learning to reason with LLMs (o1)" — https://openai.com/index/learning-to-reason-with-llms/
OpenAI, "Introducing o3 and o4-mini" — https://openai.com/index/introducing-o3-and-o4-mini/
OpenAI, "OpenAI o3-mini" — https://openai.com/index/openai-o3-mini/
DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948) — https://arxiv.org/abs/2501.12948
DeepSeek, "DeepSeek-R1-0528 release notes" — https://api-docs.deepseek.com/news/news250528
Anthropic, "Claude's extended thinking" — https://www.anthropic.com/news/visible-extended-thinking
Anthropic, "Claude Sonnet 4.5" — https://www.anthropic.com/news/claude-sonnet-4-5
Anthropic, "Extended thinking docs" — https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
Google DeepMind, "Gemini 2.5: Our most intelligent AI model" — https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
Google DeepMind, "Try Deep Think in the Gemini app" — https://blog.google/products/gemini/gemini-2-5-deep-think/
Alibaba Qwen, "QwQ-32B: Reflect deeply on the boundaries of the unknown" — https://qwenlm.github.io/blog/qwq-32b-preview/
Alibaba Qwen, "QwQ-Plus / Qwen3 reasoning" — https://qwenlm.github.io/blog/qwen3/
xAI, "Grok 3 Beta" — https://x.ai/news/grok-3
xAI, "Grok 4 and Grok 4 Heavy" — https://x.ai/news/grok-4
Kimi/Moonshot, "Kimi k1.5: Scaling RL with LLMs" (RLVR比較参考) — https://arxiv.org/abs/2501.12599
ARC Prize, "ARC-AGI-1 Leaderboard" — https://arcprize.org/
SWE-bench Verified leaderboard — https://www.swebench.com/
LiveCodeBench — https://livecodebench.github.io/
HLE (Humanity's Last Exam) — https://lastexam.ai/
AIME 2024/2025 評価議論 — https://artofproblemsolving.com/community/c3416_2024_aime_i
Lilian Weng, "Why we think" — https://lilianweng.github.io/posts/2025-05-01-thinking/