- Published on
推論モデル(reasoning models) 2026年ガイド — o3·o4·DeepSeek R1·Claude Thinking·Gemini Deep Think·QwQ 徹底比較
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — 「より長く考えて、より良く解く」
2024年9月、OpenAIはo1-previewを投下した。モデル自体は大きくない。新しかったのは一つ — モデルが答える前に、しばらく自分自身と対話する。
それ以前のLLMは「次のトークンをうまく予測する」ゲームだった。o1はもう一手加えた。答えを出力する前に、隠されたchain-of-thoughtトークンを大量に作り、そこで推論を整え、それからようやく答えを出す。より多くのトークンを使う — つまり長く「考える」 — ほど正解に近づく。これがtest-time compute scalingである。
この1行のアイデアが、2025〜2026年のモデル地形を丸ごと塗り替えた。o3がGAになり、DeepSeek R1が同じ曲線をオープン重みで再現してしまい、AnthropicはSonnet/Opus 4.5に「extended thinking」をトグルとして埋め込み、GoogleはGemini 2.5 ProとDeep ThinkをGAにした。AlibabaのQwQ·QwQ-Plusは、オープン重み陣営の2つ目の大きな流れを作った。
2024年の問い: 「どのモデルを使うか?」 2026年の問い: 「このタスクでthinkingを入れるか切るか、どれくらい?」
この記事は、推論モデルの2026年現在のスナップショットを整理する。6つの家族 × thinking挙動 × ベンチマーク × 価格を1ページに広げる。そして本当に重要な問い — 「推論モデルが必要な瞬間はいつか、高速な非推論モデルが勝つ瞬間はいつか?」 — に正直に答える。
1章 · Test-time computeとは何か
伝統的なLLMスケーリングは3つの軸だった。
| 軸 | 意味 |
|---|---|
| パラメータ | モデルを大きく |
| 学習データ | より多く食わせる |
| 学習計算量 | より長く学習 |
o1が追加した4つ目の軸がtest-time computeである。推論(inference)段階で使うトークン数を増やすと正解率が上がる。
正解率
▲
R1 ────│ ╱── thinking ON
│ ╱
base ──│ ╱
│ ╱──── thinking OFF (即答)
└────────────────────────▶ 推論時のトークン予算
この曲線はモデルごとに違い、問題の種類ごとに違う。数学·コーディング·証明のようなverifiableな問題では曲線が急で、創作·要約·雑談ではほぼ平ら — 長く考えてもほとんど良くならない。
thinkingトークンの正体
推論モデルが「考える」間に作るトークンは、通常3つのうち1つである。
- 隠された(hidden) reasoning — o1·o3·o4が採用。ユーザーにrawなchain-of-thoughtは見せない。要約だけ。
- 見える(visible) reasoning — DeepSeek R1·QwQが採用。
\<think\>...\</think\>ブロックに推論過程をそのまま露出。 - トグル可能 — Claude Sonnet/Opus 4.5のextended thinking。リクエストごとにon/off、予算調整可能。
hiddenかvisibleかは単なるUXの違いではない。 visibleはデバッグ·教育·信頼検証が楽だが、模倣·蒸留に弱い。DeepSeek R1がオープンで公開された途端、多数のdistillation試みが出たのもそのためだ。
2章 · RLVR — 推論モデルを作るレシピ
推論モデルはbaseモデルの上に2つのレイヤーを重ねて作る。
2-1. 長いCoTを作る能力
まずモデルがchain-of-thoughtを長く展開できる必要がある。baseモデルは普通、短く確信に満ちた答えを好む。長いCoTデータでSFT(supervised fine-tuning)を行い、「考えを長く展開する習慣」を教える。
2-2. RLVR — Reinforcement Learning with Verifiable Rewards
核心は2層目だ。RLVRは自動で採点可能な報酬を使う。
RLVRループ:
1. 問題(数学·コード·論理)をモデルに与える
2. モデルが長いCoT + 最終答えを生成
3. verifier(検証器)が採点する:
- 数学: 正解と一致するか?
- コード: テストが通るか?
- 形式推論: 証明が形式的に正しいか?
4. 通ったtrajectoryに+1、失敗に0(または負)
5. PPO/GRPOなどpolicy gradientでモデル更新
6. 繰り返し
ポイントは**「検証可能な報酬」である。RLHF(人間のフィードバック)は人手で高くつき、一貫性も低い。RLVRはコンパイラ·テストランナー·数学採点器**が採点する — 無限に安く、一貫性も完璧。
DeepSeek R1論文(Jan 2025)の衝撃: ほぼcold-startからRLVRだけでR1-Zeroを作った。モデルが自発的に「待って、もう一度考えよう」のようなself-correctionパターンを発見した — emergent reasoning。人が教えていないのに。
RLVRがよく効く領域
| 領域 | 検証方法 | RLVR効果 |
|---|---|---|
| 数学 | 答え一致 | 非常に大(AIME大幅上昇) |
| コード | テスト通過 | 大(LiveCodeBench·SWE-bench) |
| 論理パズル | 形式検証 | 大 |
| ツール使用 | 意図したツール呼び出し | 中 |
| 文章·要約 | 人間評価が必要 | 小(verifierが弱い) |
| 安全性·正直性 | 人間/モデル判定 | 小(RLHFの方が適切) |
だから推論モデルは万能ではない。 verifierが強い領域でのみ圧倒的だ。
3章 · OpenAI — o3 / o3-pro / o4
カテゴリーを作った会社らしく、2026年現在もっとも豊富なラインナップ。
3-1. o3 (GA、2025 Q2〜)
2024年12月に評価結果が公開され、2025年4月にGA。reasoning effort dial(low·medium·high)を提供 — 同じモデル、違うthinking budget。highは1応答に分単位かかることもある。
特徴:
- 推論の最中にツールを使う(「agentic reasoning」) — 推論中にweb検索し、code interpreterを呼び、その結果を再びthinkingに食わせる。
- hidden CoT — ユーザーにrawな推論は見せない。要約(summary)だけ。
- ARC-AGIで初めて人間水準に近づいた(high effort基準)。
3-2. o3-pro
「本当に難しい」問題用。同じモデルをさらに長く回す。価格は1桁倍高く、応答に数分かかる。研究·深層分析·複雑なデバッグに使う。
3-3. o4 / o4-mini
2025年後半にリリースされた次世代。マルチモーダル推論(画像·図表を見て推論)、ツール使用の推論統合がさらに滑らか。o4-miniは速いのにo3に近いコーディングスコアを出す — コーディングワークロードの新たなデフォルト。
| モデル | thinking | ツールin-loop | 強み |
|---|---|---|---|
| o3 | hidden、3段階dial | yes | 一般推論、ARC-AGI |
| o3-pro | hidden、非常に長い | yes | 本当に難しい問題 |
| o4 | hidden、マルチモーダル | yes | 複雑なmulti-step |
| o4-mini | hidden、短い | yes | コーディング、コスト効率 |
4章 · DeepSeek — R1 / R1-0528 / V3.1 reasoner
オープン重み陣営の爆弾。2025年1月にR1が公開されると、業界が止まった。
4-1. DeepSeek R1 (Jan 2025、MITライセンス)
- 671B MoE(active 37B)。baseはV3。
- RLVRだけで推論能力を伸ばしたR1-Zero、そして軽くSFTを足したR1。
\<think\>...\</think\>ブロックにrawなCoTをそのまま露出 — デバッグ·研究には天国、商用モデル側には悪夢(模倣リスク)。- AIME·MATH·コーディングでo1と似た曲線。
- 価格はclosedモデル対比1桁倍安い。
4-2. R1-0528 (May 2025 アップデート)
同じ重みサイズを維持してRLをさらに回した。複雑なコーディングと長文脈推論でもう一段階上がった。SWE-bench Verifiedのスコアが有意に上昇。
4-3. V3.1 reasoner (2026年初頭)
V3.1 baseの上にthinkingをトグルで埋め込んだ統合モデル。Claude 4.5のように1つの重みでthinking on/off — ただしthinking on時のみR1スタイルの\<think\>ブロックを生成する。オープン重み陣営で初めての「トグル可能な推論」。
なぜDeepSeekが重要か: 推論モデルがもうclosedモデルの独占的資産ではないことを示した。誰でも8xH100でself-host可能。regulated industryやon-prem要件がある場所では事実上のデフォルト。
5章 · Anthropic — Claude Sonnet 4.5 / Opus 4.5 extended thinking
Anthropicは別の道を選んだ。別のモデル系統ではなく、同じモデルの状態(mode)。
5-1. extended thinkingとは
Sonnet 4.5·Opus 4.5にリクエストごとのトグルがある。APIコールにthinkingパラメータを入れてトークン予算を指定する。モデルはその予算分の推論ブロックを作り、その後に答えを出す。
リクエスト:
thinking: { type: "enabled", budget_tokens: 16000 }
レスポンス:
- thinkingブロック (予算内で)
- 最終答え (assistantメッセージ)
5-2. 特徴
- 1つの重み、2つのモード — 運用がシンプル。
- interleaved thinking — 推論の途中でツールを呼び、結果を受けて推論を続ける。
- thinkingの中身はAPIレスポンスにそのまま入ってくる(rawテキスト)。hiddenではない。ただし次のターンで自動圧縮される。
- コーディング·SWE-bench Verifiedに強い。Sonnet 4.5 + extended thinkingは実PR自動化で非常に強い。
5-3. budgetの距離感
| タスク | 推奨budget |
|---|---|
| 即答できる質問 | thinking off |
| 1〜2ステップの推論 | 2k〜4k |
| 小さなコードパッチ | 8k〜16k |
| 複雑なバグデバッグ | 32k〜64k |
| 数学·証明·研究 | 64k以上 |
原則: budgetは難易度に比例させる。 thinkingを無条件にonにしない。
6章 · Google — Gemini 2.5 Pro / Deep Think
Gemini 2.5 Proは最初から「推論が組み込まれた」一般モデルとして登場した。
6-1. Gemini 2.5 Pro
- thinkingがデフォルトON。dynamic thinking — モデルが問題の難易度を見てthinkingの長さを自分で決める。
- 100万トークンコンテキスト + thinking — 長文書の上での推論に強い。
- マルチモーダル — 動画·音声·画像を推論に混ぜられる。
6-2. Deep Think (Gemini 2.5)
本当に難しい問題用。parallel thinking — 複数の仮説を同時に走らせて合わせる。IMO 2025(国際数学オリンピック)で初めて人間の金メダル水準に到達したモデルとして話題に。2025年後半にGA。
| モデル | thinking | コンテキスト | 強み |
|---|---|---|---|
| Gemini 2.5 Flash | dynamic、短い | 1M | 高速推論、コスト効率 |
| Gemini 2.5 Pro | dynamic、長い | 1M | 一般、マルチモーダル |
| Gemini 2.5 Deep Think | parallel、非常に長い | 1M | 難しい数学·証明 |
7章 · Alibaba — Qwen QwQ / QwQ-Plus
オープン重み陣営の2つ目の大きな流れ。R1とともにオープン推論モデルの両柱。
- QwQ-32B (2024年11月) — 32Bのオープンモデルが推論でo1-previewに肉薄。衝撃。
- QwQ-Plus (2025) — 次世代。コーディングと数学の両方でもう一段階上。
- Qwen3 reasoner — より大きなサイズ、Apache 2.0ライセンス。
QwQはR1と同様visible CoT。self-host親和的。日·韓·中·英の多言語に強い — アジア圏の社内利用で選好度が高い。
8章 · xAI — Grok 3 / 4 Heavy thinking
Grok 3 thinking·Grok 4·Grok 4 Heavyはthinkingモードを持つ。
- Grok 3 Thinking (2025年初頭) — chain-of-thoughtを長く回すモード。X(Twitter)データで学習した影響で「最新ニュース」に強い。
- Grok 4 / 4 Heavy (2025年後半) — Heavyはmulti-agent thinking、つまり複数のインスタンスが並列で推論し合わせる。**HLE(Humanity's Last Exam)**のような非常に難しい評価でトップスコア。
| モデル | thinking | 特徴 |
|---|---|---|
| Grok 3 thinking | 一部visible | Xのリアルタイムデータ |
| Grok 4 | hidden、長い | 一般 |
| Grok 4 Heavy | 並列multi-agent | HLEトップ |
9章 · 比較マトリクス — 1ページに
ベンチマーク数値はリリース·時期によって絶えず動く。下記は相対的な位置を示すスナップショットだ。
9-1. 推論モードの挙動
| モデル | thinking形式 | budget制御 | ツールin-thinking |
|---|---|---|---|
| OpenAI o3 | hidden(要約のみ) | low/med/high | yes |
| OpenAI o3-pro | hidden、非常に長い | 自動(非常に大) | yes |
| OpenAI o4 / o4-mini | hidden | low/med/high | yes |
| DeepSeek R1 / 0528 | visible (<think>) | 自動 | 一部 |
| DeepSeek V3.1 reasoner | visible、トグル | APIトグル | 一部 |
| Claude Sonnet 4.5 | visible、トグル | トークンbudget指定 | yes (interleaved) |
| Claude Opus 4.5 | visible、トグル | トークンbudget指定 | yes (interleaved) |
| Gemini 2.5 Pro | hidden、dynamic | dynamic自動 | yes |
| Gemini 2.5 Deep Think | hidden、parallel | dynamic自動 | yes |
| Qwen QwQ / QwQ-Plus | visible (<think>) | 自動 | 一部 |
| Grok 4 / 4 Heavy | hidden / parallel | モード選択 | yes |
9-2. 主要ベンチマークの位置(2026年初頭、相対表示)
| モデル | AIME系 数学 | LiveCodeBench | SWE-bench Verified | 費用/遅延 |
|---|---|---|---|---|
| o3 (high) | 最上位 | 最上位 | 最上位圏 | 高い、遅い |
| o3-pro | 最上位 | 最上位 | 最上位圏 | 非常に高い、非常に遅い |
| o4-mini | 上位 | 上位 | 上位 | 中程度、中程度 |
| R1-0528 | 上位 | 上位 | 上位圏 | 安い(open)、中程度 |
| Sonnet 4.5 thinking | 上位 | 最上位 | 最上位 | 中程度、中程度 |
| Opus 4.5 thinking | 最上位 | 最上位 | 最上位 | 高い、中程度 |
| Gemini 2.5 Pro | 上位 | 上位 | 上位 | 中程度、中程度 |
| Deep Think | 最上位(IMO) | 上位 | 上位 | 高い、非常に遅い |
| QwQ-Plus | 上位 | 上位 | 中上位 | 安い(open)、中程度 |
| Grok 4 Heavy | 最上位 | 上位 | 上位 | 高い、遅い |
絶対数値はリリース·評価方式により変わる。決定は自分の評価スイートで行うこと — 自分のデータ·自分のタスク·自分のSLAの上で。
10章 · 価格とthinking-tokenの経済
推論モデルのコスト構造は非推論モデルと違う。thinkingトークンが出力トークンに含まれて課金され、それは普通answerトークンの数〜数十倍だ。
リクエスト: "このコードのバグを見つけて (200トークン)"
レスポンス: [thinking: 8,000トークン] ← 出力価格で課金
[answer: 600トークン] ← 出力価格で課金
総コスト = input(200) + output(8,600)
意味: thinking budget自体が価格である。小さなタスクにthinkingを入れると平時の10〜50倍のコストになる。
10-1. モデルごとのおおよその1Mトークン出力単価(相対位置)
価格は頻繁に変わる。下記は相対比較用だ — 実際の金額は各プロバイダの公式ページで確認のこと。
| モデル | 入力/1M | 出力/1M | thinkingが出力に含まれる? |
|---|---|---|---|
| o3 | 中〜高 | 非常に高 | yes |
| o3-pro | 非常に高 | 非常に非常に高 | yes |
| o4-mini | 低〜中 | 中 | yes |
| R1 (DeepSeek API) | 非常に低 | 低 | yes |
| Sonnet 4.5 thinking | 中 | 高 | yes (thinkingが出力としてカウント) |
| Opus 4.5 thinking | 高 | 非常に高 | yes |
| Gemini 2.5 Pro | 中 | 高 | yes |
| Deep Think | 高 | 非常に高 | yes |
| QwQ-Plus (Alibaba API) | 非常に低 | 低 | yes |
| Grok 4 Heavy | 高 | 非常に高 | yes |
R1·QwQのようなオープンモデルはself-hostすれば0(インフラコストのみ)。大量·反復タスクでは圧倒的だ。
10-2. thinking budgetガイドライン
| タスク種類 | 推奨 |
|---|---|
| FAQ·要約·翻訳 | thinking off (非推論モデルで) |
| 短いコードスニペット | thinking off または minimal |
| 一般的なバグfix | thinking low / 4k |
| 複雑なデバッグ | thinking medium / 16k |
| 難しい数学·証明 | thinking high / 64k+ |
| 深い研究·深層分析 | o3-pro·Deep Think·Grok 4 Heavy |
11章 · 推論モデルが本当に必要な瞬間
推論モデルは万能ではない。入れるべき時は明確にあり、切るべき時の方が多い。
11-1. 推論モデルが輝く場合
- 数学·論理·証明 — multi-step推論が価値を作るところ。
- 複雑なコーディング — 大きなリポの上で複数ファイルを一緒に見て一貫した変更。SWE-benchの本質。
- エージェント計画 — どのツールをどの順番で呼ぶか分からない新しいタスク。
- デバッグ — 仮説を立て、証拠を集め、反証する。
- 研究·分析 — トレードオフ·反例·反論可能性を拾わなければならないタスク。
- 試験のような最後の決戦 — IMO·AIME·HLEのような「1回で当てなければならない」問題。
11-2. 推論モデルが損する場合
- 即答可能な事実検索 — 「今日は何日?」に16k thinkingトークンを使う理由はない。
- 高ボリュームの分類·タグ付け — 1件あたりのコストが掛け算される。
- UI応答性が重要なチャット — thinkingは遅い。ユーザーが離れる。
- 創作文章 — verifierが弱い。一般モデルの方が多様で自然。
- 雑談·感情対話 — overthinkingは気まずさ。
- 既に決まった形式のレポート — テンプレートの上で埋めるだけ。
原則: thinkingはコストである。そのコストを正当化する正解率上昇がある時だけ入れる。
11-3. ルーティングパターン
リクエスト到着
│
▼
複雑度分類器 (安価で速いモデル、例: Haiku·Flash·4o-mini)
│
├── "simple" → 高速な非推論モデル (即答)
├── "medium" → 推論モデル low budget
└── "hard" → 推論モデル high budget または pro/Heavy
これが2026年プロダクションAIシステムのデフォルト構造だ。すべてのリクエストに推論モデルを使うのはコスト·遅延の自殺。
12章 · 正解率·コスト·遅延の三角トレードオフ
同じ問題を同じ正解率で解いても、コスト·遅延が違えば違うシステムである。
12-1. 3軸の可視化
正解率 ▲
╱│╲
╱ │ ╲ ← Pareto frontier
╱ │ ╲
────────●───┼───●─────
高い │ 遅い
▼
遅延
Pareto frontier: 1つの軸を多く得るには別の軸を捨てる必要がある。o3-proは正解率·コスト·遅延の中で正解率だけを買う。R1 self-hostはコストを買う。Haiku/Flashは遅延を買う。
12-2. どの点を買うか
| プロダクト特性 | 推奨ポイント |
|---|---|
| インタラクティブなチャット(1秒未満) | 非推論モデルまたはthinking minimal |
| 非同期エージェント(分単位OK) | thinking medium / high |
| バッチ分析(夜通しOK) | 最も正確なモデル、コストだけ見る |
| 社内·オンプレム強制 | オープン重み(R1·QwQ) |
| 高精度な1回限りの決定 | Pro / Heavy / Deep Think |
12-3. budgetを動的に — 段階的thinking
進んだパターン: 失敗したらbudgetを増やしてリトライする。
1. thinking 2kで答えを受ける
2. self-consistency: 同じ答えが安定しているか?
3. 安定 → 終了
4. 不安定 → 4kでリトライ
5. それでも不安定 → 16k または別のモデル
このescalationパターンは平均コストを大きく下げる — 簡単な問題は安く、難しい問題だけ高く。
13章 · オープン vs クローズドの推論ラダー
2026年の推論モデル地形をオープン/クローズド軸で描くと:
クローズド (closed-weights)
│
o3-pro · Opus 4.5 thinking · Deep Think · Grok 4 Heavy
│ ← 「最強」だが高くて閉じ込められる
│
o3 · Sonnet 4.5 thinking · Gemini 2.5 Pro · Grok 4
│ ← 一般タスクの標準
│
o4-mini · Gemini 2.5 Flash · Grok 3 thinking
│ ← 高速推論
│
─────────┼─────────────────────────── 価格 / latency
│
QwQ-Plus · Qwen3 reasoner
│
DeepSeek R1-0528 · V3.1 reasoner
│
オープン (open-weights、self-host可能)
オープンを選ぶ理由
- データが外に出てはいけない — 医療·金融·防衛·政府。
- 大量の反復タスク — トークンあたりのコストが0になる。
- モデルをさらにfine-tuning — ドメインに合わせて。
- 再現性·監査 — 重みがあれば決定の出所が追跡可能。
クローズドを選ぶ理由
- 最高性能 — 一部のタスクでは1〜3%が決定的。
- 運用を外注 — モデルホスティング·更新·安全性。
- マルチモーダル統合 — 画像·動画·音声·ツールが1つのAPIの中で。
- モデル回転の速さ — 最新frontierに即時アクセス。
2026年の現実: 真剣な組織は両方使う。センシティブなデータはオープンself-host、公開可能な一般タスクはクローズドAPI。ルーティングが最も難しい決定だ。
14章 · 推論モデルの扱い方 — 実戦Tips
14-1. プロンプトは短く、コンテキストは豊かに
推論モデルは自分自身と考えるのが仕事。プロンプトで「step 1: ... step 2: ...」のような強制ステップ分離はむしろ邪魔。目標を明確に、制約を明確に与えて、あとはモデルに決めさせる。
14-2. CoT強制は非推論モデルでだけ
「think step by step」は非推論モデルで役に立った。推論モデルではそのトークンがthinkingの中で既に起きている。 明示的にまたやらせるとthinkingが重複したり短くなったりする。抜くこと。
14-3. ツール使用はモデルによって異なる
- o3/o4·Sonnet 4.5·Gemini 2.5 Pro: interleaved thinking — ツール結果が推論に自然に混ざる。
- R1·QwQ: ツール統合が弱い。外部ReActループで補強する。
14-4. self-consistency
同じ質問をN回呼んで多数決。推論モデルで特に効果が大きい。コストはN倍だが正解率は有意に上がる。医療·金融など高リスクな決定に有用。
14-5. thinkingトレースをログする(可能な場所だけで)
R1·QwQ·Claudeのようなvisible推論を出すモデルはログとして残す。デバッグ·改善·評価の金鉱だ。ただし、ユーザーにそのまま見せると危険な場合がある(誤った仮説を事実のように見せかねない)。
14-6. キャッシュ活用
system promptが長いとthinkingがその上で起きる。prompt caching(Anthropic·OpenAI·Geminiすべてサポート)で入力トークン価格を90%まで下げられる。ただし、thinkingトークンはキャッシュされない — 毎回再生成される。
エピローグ — 2行要約と次の記事
この記事の2行要約:
- 推論モデルはすべてのタスクに良いわけではない — 検証可能な問題でのみ圧倒的だ。
- 2026年の決定は「どのモデル」ではなく「どのモデル × どのthinkingモード × どのルーティング」だ。
12項目チェックリスト
- 推論をonにするかoffにするかをタスクごとに決めているか?
- thinking budgetをタスク難易度に比例させているか?
- ルーター(安価で速い分類器 + 高価な推論モデル)があるか?
- self-consistencyを高リスク決定に使っているか?
- thinkingが出力トークンとしてカウントされることをコストモデルに反映しているか?
- ツール使用パターンがinterleavedを上手く活用しているか?
- visible CoTモデルの推論をログしているか?
- 自分のデータで評価スイートを持っているか?(ベンダーベンチマークに依存していないか?)
- オープン重みのオプションを検討したか(regulated·high-volumeの場合)?
- prompt cachingで入力コストを下げたか?
- CoT強制(「think step by step」)を推論モデルから抜いているか?
- ユーザーにraw推論を露出しないようにしているか?
アンチパターン10個
- すべてのリクエストに推論モデル — コスト·遅延の自殺。
- CoTプロンプト強制 — 推論モデルでは逆効果。
- thinking budgetをデフォルト最大 — 課金爆弾。
- ベンダーベンチマークだけ見て決める — 自分のタスクと違う。
- visible推論をユーザーにそのまま露出 — 誤った仮説が事実のように見える。
- self-consistencyをあらゆる場所で — コストN倍。
- オープン/クローズドのどちらか1つだけ — ルーティングが答え。
- thinkingトークンを監視しない — コスト追跡不可能。
- センシティブなデータを外部推論APIへ — コンプライアンス違反。
- 推論モデルをチャットUXにそのまま — 1分待つユーザーはいない。
次の記事予告
候補: 推論モデル評価スイート — 自分のデータでthinkingを測定する、エージェント × 推論モデル — ツール使用とthinkingの統合パターン、オープン推論モデルのself-hostガイド — vLLM·SGLang·TGI比較。
"より大きなモデルではなく、より良く考えるモデル — そしてその次は、いつ考えないかを知るモデル。"
— 推論モデル 2026 ガイド、終わり。
参考 / References
- OpenAI, "Learning to reason with LLMs (o1)" — https://openai.com/index/learning-to-reason-with-llms/
- OpenAI, "Introducing o3 and o4-mini" — https://openai.com/index/introducing-o3-and-o4-mini/
- OpenAI, "OpenAI o3-mini" — https://openai.com/index/openai-o3-mini/
- DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948) — https://arxiv.org/abs/2501.12948
- DeepSeek, "DeepSeek-R1-0528 release notes" — https://api-docs.deepseek.com/news/news250528
- Anthropic, "Claude's extended thinking" — https://www.anthropic.com/news/visible-extended-thinking
- Anthropic, "Claude Sonnet 4.5" — https://www.anthropic.com/news/claude-sonnet-4-5
- Anthropic, "Extended thinking docs" — https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
- Google DeepMind, "Gemini 2.5: Our most intelligent AI model" — https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
- Google DeepMind, "Try Deep Think in the Gemini app" — https://blog.google/products/gemini/gemini-2-5-deep-think/
- Alibaba Qwen, "QwQ-32B: Reflect deeply on the boundaries of the unknown" — https://qwenlm.github.io/blog/qwq-32b-preview/
- Alibaba Qwen, "QwQ-Plus / Qwen3 reasoning" — https://qwenlm.github.io/blog/qwen3/
- xAI, "Grok 3 Beta" — https://x.ai/news/grok-3
- xAI, "Grok 4 and Grok 4 Heavy" — https://x.ai/news/grok-4
- Kimi/Moonshot, "Kimi k1.5: Scaling RL with LLMs" (RLVR比較参考) — https://arxiv.org/abs/2501.12599
- ARC Prize, "ARC-AGI-1 Leaderboard" — https://arcprize.org/
- SWE-bench Verified leaderboard — https://www.swebench.com/
- LiveCodeBench — https://livecodebench.github.io/
- HLE (Humanity's Last Exam) — https://lastexam.ai/
- AIME 2024/2025 評価議論 — https://artofproblemsolving.com/community/c3416_2024_aime_i
- Lilian Weng, "Why we think" — https://lilianweng.github.io/posts/2025-05-01-thinking/