Skip to content
Published on

推論モデル(reasoning models) 2026年ガイド — o3·o4·DeepSeek R1·Claude Thinking·Gemini Deep Think·QwQ 徹底比較

Authors

プロローグ — 「より長く考えて、より良く解く」

2024年9月、OpenAIはo1-previewを投下した。モデル自体は大きくない。新しかったのは一つ — モデルが答える前に、しばらく自分自身と対話する。

それ以前のLLMは「次のトークンをうまく予測する」ゲームだった。o1はもう一手加えた。答えを出力する前に、隠されたchain-of-thoughtトークンを大量に作り、そこで推論を整え、それからようやく答えを出す。より多くのトークンを使う — つまり長く「考える」 — ほど正解に近づく。これがtest-time compute scalingである。

この1行のアイデアが、2025〜2026年のモデル地形を丸ごと塗り替えた。o3がGAになり、DeepSeek R1が同じ曲線をオープン重みで再現してしまい、AnthropicはSonnet/Opus 4.5に「extended thinking」をトグルとして埋め込み、GoogleはGemini 2.5 ProとDeep ThinkをGAにした。AlibabaのQwQ·QwQ-Plusは、オープン重み陣営の2つ目の大きな流れを作った。

2024年の問い: 「どのモデルを使うか?」 2026年の問い: 「このタスクでthinkingを入れるか切るか、どれくらい?」

この記事は、推論モデルの2026年現在のスナップショットを整理する。6つの家族 × thinking挙動 × ベンチマーク × 価格を1ページに広げる。そして本当に重要な問い — 「推論モデルが必要な瞬間はいつか、高速な非推論モデルが勝つ瞬間はいつか?」 — に正直に答える。


1章 · Test-time computeとは何か

伝統的なLLMスケーリングは3つの軸だった。

意味
パラメータモデルを大きく
学習データより多く食わせる
学習計算量より長く学習

o1が追加した4つ目の軸がtest-time computeである。推論(inference)段階で使うトークン数を増やすと正解率が上がる。

       正解率
  R1 ────│              ╱── thinking ON
         │           ╱
  base ──│       ╱
         │   ╱──── thinking OFF (即答)
         └────────────────────────▶ 推論時のトークン予算

この曲線はモデルごとに違い、問題の種類ごとに違う。数学·コーディング·証明のようなverifiableな問題では曲線が急で、創作·要約·雑談ではほぼ平ら — 長く考えてもほとんど良くならない。

thinkingトークンの正体

推論モデルが「考える」間に作るトークンは、通常3つのうち1つである。

  1. 隠された(hidden) reasoning — o1·o3·o4が採用。ユーザーにrawなchain-of-thoughtは見せない。要約だけ。
  2. 見える(visible) reasoning — DeepSeek R1·QwQが採用。\<think\>...\</think\>ブロックに推論過程をそのまま露出。
  3. トグル可能 — Claude Sonnet/Opus 4.5のextended thinking。リクエストごとにon/off、予算調整可能。

hiddenかvisibleかは単なるUXの違いではない。 visibleはデバッグ·教育·信頼検証が楽だが、模倣·蒸留に弱い。DeepSeek R1がオープンで公開された途端、多数のdistillation試みが出たのもそのためだ。


2章 · RLVR — 推論モデルを作るレシピ

推論モデルはbaseモデルの上に2つのレイヤーを重ねて作る。

2-1. 長いCoTを作る能力

まずモデルがchain-of-thoughtを長く展開できる必要がある。baseモデルは普通、短く確信に満ちた答えを好む。長いCoTデータでSFT(supervised fine-tuning)を行い、「考えを長く展開する習慣」を教える。

2-2. RLVR — Reinforcement Learning with Verifiable Rewards

核心は2層目だ。RLVRは自動で採点可能な報酬を使う。

RLVRループ:
  1. 問題(数学·コード·論理)をモデルに与える
  2. モデルが長いCoT + 最終答えを生成
  3. verifier(検証器)が採点する:
     - 数学: 正解と一致するか?
     - コード: テストが通るか?
     - 形式推論: 証明が形式的に正しいか?
  4. 通ったtrajectoryに+1、失敗に0(または負)
  5. PPO/GRPOなどpolicy gradientでモデル更新
  6. 繰り返し

ポイントは**「検証可能な報酬」である。RLHF(人間のフィードバック)は人手で高くつき、一貫性も低い。RLVRはコンパイラ·テストランナー·数学採点器**が採点する — 無限に安く、一貫性も完璧。

DeepSeek R1論文(Jan 2025)の衝撃: ほぼcold-startからRLVRだけでR1-Zeroを作った。モデルが自発的に「待って、もう一度考えよう」のようなself-correctionパターンを発見した — emergent reasoning。人が教えていないのに。

RLVRがよく効く領域

領域検証方法RLVR効果
数学答え一致非常に大(AIME大幅上昇)
コードテスト通過大(LiveCodeBench·SWE-bench)
論理パズル形式検証
ツール使用意図したツール呼び出し
文章·要約人間評価が必要小(verifierが弱い)
安全性·正直性人間/モデル判定小(RLHFの方が適切)

だから推論モデルは万能ではない。 verifierが強い領域でのみ圧倒的だ。


3章 · OpenAI — o3 / o3-pro / o4

カテゴリーを作った会社らしく、2026年現在もっとも豊富なラインナップ。

3-1. o3 (GA、2025 Q2〜)

2024年12月に評価結果が公開され、2025年4月にGA。reasoning effort dial(low·medium·high)を提供 — 同じモデル、違うthinking budget。highは1応答に分単位かかることもある。

特徴:

  • 推論の最中にツールを使う(「agentic reasoning」) — 推論中にweb検索し、code interpreterを呼び、その結果を再びthinkingに食わせる。
  • hidden CoT — ユーザーにrawな推論は見せない。要約(summary)だけ。
  • ARC-AGIで初めて人間水準に近づいた(high effort基準)。

3-2. o3-pro

「本当に難しい」問題用。同じモデルをさらに長く回す。価格は1桁倍高く、応答に数分かかる。研究·深層分析·複雑なデバッグに使う。

3-3. o4 / o4-mini

2025年後半にリリースされた次世代。マルチモーダル推論(画像·図表を見て推論)、ツール使用の推論統合がさらに滑らか。o4-miniは速いのにo3に近いコーディングスコアを出す — コーディングワークロードの新たなデフォルト。

モデルthinkingツールin-loop強み
o3hidden、3段階dialyes一般推論、ARC-AGI
o3-prohidden、非常に長いyes本当に難しい問題
o4hidden、マルチモーダルyes複雑なmulti-step
o4-minihidden、短いyesコーディング、コスト効率

4章 · DeepSeek — R1 / R1-0528 / V3.1 reasoner

オープン重み陣営の爆弾。2025年1月にR1が公開されると、業界が止まった。

4-1. DeepSeek R1 (Jan 2025、MITライセンス)

  • 671B MoE(active 37B)。baseはV3。
  • RLVRだけで推論能力を伸ばしたR1-Zero、そして軽くSFTを足したR1。
  • \<think\>...\</think\>ブロックにrawなCoTをそのまま露出 — デバッグ·研究には天国、商用モデル側には悪夢(模倣リスク)。
  • AIME·MATH·コーディングでo1と似た曲線。
  • 価格はclosedモデル対比1桁倍安い。

4-2. R1-0528 (May 2025 アップデート)

同じ重みサイズを維持してRLをさらに回した。複雑なコーディングと長文脈推論でもう一段階上がった。SWE-bench Verifiedのスコアが有意に上昇。

4-3. V3.1 reasoner (2026年初頭)

V3.1 baseの上にthinkingをトグルで埋め込んだ統合モデル。Claude 4.5のように1つの重みでthinking on/off — ただしthinking on時のみR1スタイルの\<think\>ブロックを生成する。オープン重み陣営で初めての「トグル可能な推論」。

なぜDeepSeekが重要か: 推論モデルがもうclosedモデルの独占的資産ではないことを示した。誰でも8xH100でself-host可能。regulated industryやon-prem要件がある場所では事実上のデフォルト


5章 · Anthropic — Claude Sonnet 4.5 / Opus 4.5 extended thinking

Anthropicは別の道を選んだ。別のモデル系統ではなく、同じモデルの状態(mode)

5-1. extended thinkingとは

Sonnet 4.5·Opus 4.5にリクエストごとのトグルがある。APIコールにthinkingパラメータを入れてトークン予算を指定する。モデルはその予算分の推論ブロックを作り、その後に答えを出す。

リクエスト:
  thinking: { type: "enabled", budget_tokens: 16000 }

レスポンス:
  - thinkingブロック (予算内で)
  - 最終答え (assistantメッセージ)

5-2. 特徴

  • 1つの重み、2つのモード — 運用がシンプル。
  • interleaved thinking — 推論の途中でツールを呼び、結果を受けて推論を続ける。
  • thinkingの中身はAPIレスポンスにそのまま入ってくる(rawテキスト)。hiddenではない。ただし次のターンで自動圧縮される。
  • コーディング·SWE-bench Verifiedに強い。Sonnet 4.5 + extended thinkingは実PR自動化で非常に強い。

5-3. budgetの距離感

タスク推奨budget
即答できる質問thinking off
1〜2ステップの推論2k〜4k
小さなコードパッチ8k〜16k
複雑なバグデバッグ32k〜64k
数学·証明·研究64k以上

原則: budgetは難易度に比例させる。 thinkingを無条件にonにしない。


6章 · Google — Gemini 2.5 Pro / Deep Think

Gemini 2.5 Proは最初から「推論が組み込まれた」一般モデルとして登場した。

6-1. Gemini 2.5 Pro

  • thinkingがデフォルトON。dynamic thinking — モデルが問題の難易度を見てthinkingの長さを自分で決める。
  • 100万トークンコンテキスト + thinking — 長文書の上での推論に強い。
  • マルチモーダル — 動画·音声·画像を推論に混ぜられる。

6-2. Deep Think (Gemini 2.5)

本当に難しい問題用。parallel thinking — 複数の仮説を同時に走らせて合わせる。IMO 2025(国際数学オリンピック)で初めて人間の金メダル水準に到達したモデルとして話題に。2025年後半にGA。

モデルthinkingコンテキスト強み
Gemini 2.5 Flashdynamic、短い1M高速推論、コスト効率
Gemini 2.5 Prodynamic、長い1M一般、マルチモーダル
Gemini 2.5 Deep Thinkparallel、非常に長い1M難しい数学·証明

7章 · Alibaba — Qwen QwQ / QwQ-Plus

オープン重み陣営の2つ目の大きな流れ。R1とともにオープン推論モデルの両柱。

  • QwQ-32B (2024年11月) — 32Bのオープンモデルが推論でo1-previewに肉薄。衝撃。
  • QwQ-Plus (2025) — 次世代。コーディングと数学の両方でもう一段階上。
  • Qwen3 reasoner — より大きなサイズ、Apache 2.0ライセンス。

QwQはR1と同様visible CoT。self-host親和的。日·韓·中·英の多言語に強い — アジア圏の社内利用で選好度が高い。


8章 · xAI — Grok 3 / 4 Heavy thinking

Grok 3 thinking·Grok 4·Grok 4 Heavyはthinkingモードを持つ。

  • Grok 3 Thinking (2025年初頭) — chain-of-thoughtを長く回すモード。X(Twitter)データで学習した影響で「最新ニュース」に強い。
  • Grok 4 / 4 Heavy (2025年後半) — Heavyはmulti-agent thinking、つまり複数のインスタンスが並列で推論し合わせる。**HLE(Humanity's Last Exam)**のような非常に難しい評価でトップスコア。
モデルthinking特徴
Grok 3 thinking一部visibleXのリアルタイムデータ
Grok 4hidden、長い一般
Grok 4 Heavy並列multi-agentHLEトップ

9章 · 比較マトリクス — 1ページに

ベンチマーク数値はリリース·時期によって絶えず動く。下記は相対的な位置を示すスナップショットだ。

9-1. 推論モードの挙動

モデルthinking形式budget制御ツールin-thinking
OpenAI o3hidden(要約のみ)low/med/highyes
OpenAI o3-prohidden、非常に長い自動(非常に大)yes
OpenAI o4 / o4-minihiddenlow/med/highyes
DeepSeek R1 / 0528visible (<think>)自動一部
DeepSeek V3.1 reasonervisible、トグルAPIトグル一部
Claude Sonnet 4.5visible、トグルトークンbudget指定yes (interleaved)
Claude Opus 4.5visible、トグルトークンbudget指定yes (interleaved)
Gemini 2.5 Prohidden、dynamicdynamic自動yes
Gemini 2.5 Deep Thinkhidden、paralleldynamic自動yes
Qwen QwQ / QwQ-Plusvisible (<think>)自動一部
Grok 4 / 4 Heavyhidden / parallelモード選択yes

9-2. 主要ベンチマークの位置(2026年初頭、相対表示)

モデルAIME系 数学LiveCodeBenchSWE-bench Verified費用/遅延
o3 (high)最上位最上位最上位圏高い、遅い
o3-pro最上位最上位最上位圏非常に高い、非常に遅い
o4-mini上位上位上位中程度、中程度
R1-0528上位上位上位圏安い(open)、中程度
Sonnet 4.5 thinking上位最上位最上位中程度、中程度
Opus 4.5 thinking最上位最上位最上位高い、中程度
Gemini 2.5 Pro上位上位上位中程度、中程度
Deep Think最上位(IMO)上位上位高い、非常に遅い
QwQ-Plus上位上位中上位安い(open)、中程度
Grok 4 Heavy最上位上位上位高い、遅い

絶対数値はリリース·評価方式により変わる。決定は自分の評価スイートで行うこと — 自分のデータ·自分のタスク·自分のSLAの上で。


10章 · 価格とthinking-tokenの経済

推論モデルのコスト構造は非推論モデルと違う。thinkingトークンが出力トークンに含まれて課金され、それは普通answerトークンの数〜数十倍だ。

リクエスト: "このコードのバグを見つけて (200トークン)"

レスポンス: [thinking: 8,000トークン]  ← 出力価格で課金
            [answer:    600トークン]    ← 出力価格で課金

総コスト = input(200) + output(8,600)

意味: thinking budget自体が価格である。小さなタスクにthinkingを入れると平時の10〜50倍のコストになる。

10-1. モデルごとのおおよその1Mトークン出力単価(相対位置)

価格は頻繁に変わる。下記は相対比較用だ — 実際の金額は各プロバイダの公式ページで確認のこと。

モデル入力/1M出力/1Mthinkingが出力に含まれる?
o3中〜高非常に高yes
o3-pro非常に高非常に非常に高yes
o4-mini低〜中yes
R1 (DeepSeek API)非常に低yes
Sonnet 4.5 thinkingyes (thinkingが出力としてカウント)
Opus 4.5 thinking非常に高yes
Gemini 2.5 Proyes
Deep Think非常に高yes
QwQ-Plus (Alibaba API)非常に低yes
Grok 4 Heavy非常に高yes

R1·QwQのようなオープンモデルはself-hostすれば0(インフラコストのみ)。大量·反復タスクでは圧倒的だ。

10-2. thinking budgetガイドライン

タスク種類推奨
FAQ·要約·翻訳thinking off (非推論モデルで)
短いコードスニペットthinking off または minimal
一般的なバグfixthinking low / 4k
複雑なデバッグthinking medium / 16k
難しい数学·証明thinking high / 64k+
深い研究·深層分析o3-pro·Deep Think·Grok 4 Heavy

11章 · 推論モデルが本当に必要な瞬間

推論モデルは万能ではない。入れるべき時は明確にあり、切るべき時の方が多い。

11-1. 推論モデルが輝く場合

  1. 数学·論理·証明 — multi-step推論が価値を作るところ。
  2. 複雑なコーディング — 大きなリポの上で複数ファイルを一緒に見て一貫した変更。SWE-benchの本質。
  3. エージェント計画 — どのツールをどの順番で呼ぶか分からない新しいタスク。
  4. デバッグ — 仮説を立て、証拠を集め、反証する。
  5. 研究·分析 — トレードオフ·反例·反論可能性を拾わなければならないタスク。
  6. 試験のような最後の決戦 — IMO·AIME·HLEのような「1回で当てなければならない」問題。

11-2. 推論モデルが損する場合

  1. 即答可能な事実検索 — 「今日は何日?」に16k thinkingトークンを使う理由はない。
  2. 高ボリュームの分類·タグ付け — 1件あたりのコストが掛け算される。
  3. UI応答性が重要なチャット — thinkingは遅い。ユーザーが離れる。
  4. 創作文章 — verifierが弱い。一般モデルの方が多様で自然。
  5. 雑談·感情対話 — overthinkingは気まずさ。
  6. 既に決まった形式のレポート — テンプレートの上で埋めるだけ。

原則: thinkingはコストである。そのコストを正当化する正解率上昇がある時だけ入れる。

11-3. ルーティングパターン

リクエスト到着
複雑度分類器 (安価で速いモデル、例: Haiku·Flash·4o-mini)
  ├── "simple" → 高速な非推論モデル (即答)
  ├── "medium" → 推論モデル low budget
  └── "hard"   → 推論モデル high budget または pro/Heavy

これが2026年プロダクションAIシステムのデフォルト構造だ。すべてのリクエストに推論モデルを使うのはコスト·遅延の自殺。


12章 · 正解率·コスト·遅延の三角トレードオフ

同じ問題を同じ正解率で解いても、コスト·遅延が違えば違うシステムである。

12-1. 3軸の可視化

         正解率 ▲
              ╱│╲
             ╱ │ ╲    ← Pareto frontier
            ╱  │  ╲
   ────────●───┼───●─────
          高い  │  遅い
              遅延

Pareto frontier: 1つの軸を多く得るには別の軸を捨てる必要がある。o3-proは正解率·コスト·遅延の中で正解率だけを買う。R1 self-hostはコストを買う。Haiku/Flashは遅延を買う。

12-2. どの点を買うか

プロダクト特性推奨ポイント
インタラクティブなチャット(1秒未満)非推論モデルまたはthinking minimal
非同期エージェント(分単位OK)thinking medium / high
バッチ分析(夜通しOK)最も正確なモデル、コストだけ見る
社内·オンプレム強制オープン重み(R1·QwQ)
高精度な1回限りの決定Pro / Heavy / Deep Think

12-3. budgetを動的に — 段階的thinking

進んだパターン: 失敗したらbudgetを増やしてリトライする。

1. thinking 2kで答えを受ける
2. self-consistency: 同じ答えが安定しているか?
3. 安定 → 終了
4. 不安定 → 4kでリトライ
5. それでも不安定 → 16k または別のモデル

このescalationパターンは平均コストを大きく下げる — 簡単な問題は安く、難しい問題だけ高く。


13章 · オープン vs クローズドの推論ラダー

2026年の推論モデル地形をオープン/クローズド軸で描くと:

        クローズド (closed-weights)
o3-pro · Opus 4.5 thinking · Deep Think · Grok 4 Heavy
         │   ← 「最強」だが高くて閉じ込められる
   o3 · Sonnet 4.5 thinking · Gemini 2.5 Pro · Grok 4
         │   ← 一般タスクの標準
   o4-mini · Gemini 2.5 Flash · Grok 3 thinking
         │   ← 高速推論
─────────┼─────────────────────────── 価格 / latency
   QwQ-Plus · Qwen3 reasoner
   DeepSeek R1-0528 · V3.1 reasoner
        オープン (open-weights、self-host可能)

オープンを選ぶ理由

  • データが外に出てはいけない — 医療·金融·防衛·政府。
  • 大量の反復タスク — トークンあたりのコストが0になる。
  • モデルをさらにfine-tuning — ドメインに合わせて。
  • 再現性·監査 — 重みがあれば決定の出所が追跡可能。

クローズドを選ぶ理由

  • 最高性能 — 一部のタスクでは1〜3%が決定的。
  • 運用を外注 — モデルホスティング·更新·安全性。
  • マルチモーダル統合 — 画像·動画·音声·ツールが1つのAPIの中で。
  • モデル回転の速さ — 最新frontierに即時アクセス。

2026年の現実: 真剣な組織は両方使う。センシティブなデータはオープンself-host、公開可能な一般タスクはクローズドAPI。ルーティングが最も難しい決定だ。


14章 · 推論モデルの扱い方 — 実戦Tips

14-1. プロンプトは短く、コンテキストは豊かに

推論モデルは自分自身と考えるのが仕事。プロンプトで「step 1: ... step 2: ...」のような強制ステップ分離はむしろ邪魔。目標を明確に、制約を明確に与えて、あとはモデルに決めさせる。

14-2. CoT強制は非推論モデルでだけ

「think step by step」は非推論モデルで役に立った。推論モデルではそのトークンがthinkingの中で既に起きている。 明示的にまたやらせるとthinkingが重複したり短くなったりする。抜くこと。

14-3. ツール使用はモデルによって異なる

  • o3/o4·Sonnet 4.5·Gemini 2.5 Pro: interleaved thinking — ツール結果が推論に自然に混ざる。
  • R1·QwQ: ツール統合が弱い。外部ReActループで補強する。

14-4. self-consistency

同じ質問をN回呼んで多数決。推論モデルで特に効果が大きい。コストはN倍だが正解率は有意に上がる。医療·金融など高リスクな決定に有用。

14-5. thinkingトレースをログする(可能な場所だけで)

R1·QwQ·Claudeのようなvisible推論を出すモデルはログとして残す。デバッグ·改善·評価の金鉱だ。ただし、ユーザーにそのまま見せると危険な場合がある(誤った仮説を事実のように見せかねない)。

14-6. キャッシュ活用

system promptが長いとthinkingがその上で起きる。prompt caching(Anthropic·OpenAI·Geminiすべてサポート)で入力トークン価格を90%まで下げられる。ただし、thinkingトークンはキャッシュされない — 毎回再生成される。


エピローグ — 2行要約と次の記事

この記事の2行要約:

  1. 推論モデルはすべてのタスクに良いわけではない — 検証可能な問題でのみ圧倒的だ。
  2. 2026年の決定は「どのモデル」ではなく「どのモデル × どのthinkingモード × どのルーティング」だ。

12項目チェックリスト

  1. 推論をonにするかoffにするかをタスクごとに決めているか?
  2. thinking budgetをタスク難易度に比例させているか?
  3. ルーター(安価で速い分類器 + 高価な推論モデル)があるか?
  4. self-consistencyを高リスク決定に使っているか?
  5. thinkingが出力トークンとしてカウントされることをコストモデルに反映しているか?
  6. ツール使用パターンがinterleavedを上手く活用しているか?
  7. visible CoTモデルの推論をログしているか?
  8. 自分のデータで評価スイートを持っているか?(ベンダーベンチマークに依存していないか?)
  9. オープン重みのオプションを検討したか(regulated·high-volumeの場合)?
  10. prompt cachingで入力コストを下げたか?
  11. CoT強制(「think step by step」)を推論モデルから抜いているか?
  12. ユーザーにraw推論を露出しないようにしているか?

アンチパターン10個

  1. すべてのリクエストに推論モデル — コスト·遅延の自殺。
  2. CoTプロンプト強制 — 推論モデルでは逆効果。
  3. thinking budgetをデフォルト最大 — 課金爆弾。
  4. ベンダーベンチマークだけ見て決める — 自分のタスクと違う。
  5. visible推論をユーザーにそのまま露出 — 誤った仮説が事実のように見える。
  6. self-consistencyをあらゆる場所で — コストN倍。
  7. オープン/クローズドのどちらか1つだけ — ルーティングが答え。
  8. thinkingトークンを監視しない — コスト追跡不可能。
  9. センシティブなデータを外部推論APIへ — コンプライアンス違反。
  10. 推論モデルをチャットUXにそのまま — 1分待つユーザーはいない。

次の記事予告

候補: 推論モデル評価スイート — 自分のデータでthinkingを測定するエージェント × 推論モデル — ツール使用とthinkingの統合パターンオープン推論モデルのself-hostガイド — vLLM·SGLang·TGI比較

"より大きなモデルではなく、より良く考えるモデル — そしてその次は、いつ考えないかを知るモデル。"

— 推論モデル 2026 ガイド、終わり。


参考 / References