Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

프롤로그 — "더 오래 생각해서 더 잘 푼다"

2024년 9월, OpenAI는 o1-preview를 던졌다. 모델 자체는 크지 않았다. 새로운 건 한 가지였다 — 모델이 답하기 전에 한참 동안 자기 자신과 대화한다.

이전 LLM은 "다음 토큰을 잘 예측"하는 게임이었다. o1은 한 단계 더 나아갔다. 답을 출력하기 전에 hidden chain-of-thought 토큰을 잔뜩 만들고, 거기서 추론을 다듬은 뒤에 비로소 답을 낸다. 더 많은 토큰을 쓰면 — 즉 더 오래 "생각"하면 — 더 정답에 가까워진다. 이게 test-time compute scaling이다.

이 한 줄짜리 아이디어가 2025~2026년 모델 지형을 통째로 바꿨다. o3가 GA로 풀렸고, DeepSeek R1이 오픈 가중치로 같은 곡선을 재현해버렸고, Anthropic은 "extended thinking"을 Sonnet/Opus 4.5에 토글로 박아 넣었고, Google은 Gemini 2.5 Pro와 Deep Think를 GA로 풀었다. Alibaba의 QwQ·QwQ-Plus는 오픈 가중치 진영에서 두 번째 큰 흐름을 만들었다.

2024년의 질문: "어떤 모델을 쓸 것인가?" 2026년의 질문: "이 작업에 thinking을 켤 것인가, 끌 것인가, 얼마나?"

이 글은 추론 모델의 2026년 현재 상태를 정리한다. 6개 가족 × thinking 동작 × 벤치마크 × 가격을 한 장에 펼친다. 그리고 진짜 중요한 질문 — "언제 추론 모델이 필요하고, 언제 빠른 비추론 모델이 더 나은가?" — 에 솔직하게 답한다.

1장 · Test-time compute란 무엇인가

전통적 LLM 스케일링은 세 축이었다.

축	의미
파라미터	모델을 더 크게
학습 데이터	더 많이 먹이기
학습 컴퓨트	더 오래 학습

o1이 추가한 네 번째 축이 test-time compute다. 추론(inference) 단계에서 모델이 쓰는 토큰 수를 늘리면 정답률이 올라간다.

       정확도
         ▲
  R1 ────│              ╱── thinking ON
         │           ╱
  base ──│       ╱
         │   ╱──── thinking OFF (즉답)
         └────────────────────────▶ 추론 시 토큰 예산

이 곡선은 모델마다 다르고, 문제 종류마다 다르다. 수학·코딩·증명 같은 verifiable 문제에서는 곡선이 가파르다. 창작·요약·잡담에서는 거의 평평하다 — 더 오래 생각해도 별로 안 좋아진다.

thinking 토큰의 정체

추론 모델이 "생각"하는 동안 만드는 토큰은 보통 세 가지 중 하나다.

숨겨진(hidden) reasoning — o1·o3·o4가 채택. 사용자에게 raw chain-of-thought를 안 보여준다. 요약만 보여준다.
보이는(visible) reasoning — DeepSeek R1·QwQ가 채택. <think>...</think> 블록 안에 추론 과정을 그대로 노출.
토글 가능 — Claude Sonnet/Opus 4.5의 extended thinking. 요청별로 켜고 끄고, 예산 조절 가능.

hidden이냐 visible이냐는 단순한 UX 차이가 아니다. visible은 디버깅·교육·신뢰 검증이 쉽지만, 모방·증류에 취약하다. DeepSeek R1이 오픈으로 풀리자마자 수많은 distillation 시도가 나온 것도 그래서다.

2장 · RLVR — 추론 모델을 만드는 레시피

추론 모델은 base 모델 위에 두 가지 layer를 더 얹어서 만든다.

2-1. 긴 CoT를 만드는 능력

먼저 모델이 체인 오브 사고를 길게 만들 수 있어야 한다. base 모델은 보통 짧고 단정한 답을 좋아한다. 긴 CoT 데이터로 SFT(supervised fine-tuning)를 해서 "생각을 길게 펼치는 습관"을 가르친다.

2-2. RLVR — Reinforcement Learning with Verifiable Rewards

핵심은 두 번째 레이어다. RLVR은 자동으로 채점 가능한 보상을 쓴다.

RLVR 루프:
  1. 문제(수학·코딩·논리)를 모델에 준다
  2. 모델이 긴 CoT + 최종 답을 만든다
  3. 검증기(verifier)가 채점한다:
     - 수학: 정답과 일치하나?
     - 코딩: 테스트가 통과하나?
     - 형식 추론: 증명이 형식적으로 맞나?
  4. 통과한 trajectory에 +1, 실패한 trajectory에 0 (또는 음수)
  5. PPO/GRPO 같은 policy gradient로 모델 업데이트
  6. 반복

핵심은 **"검증 가능한 보상"**이다. RLHF(인간 피드백)는 사람이 비싸고 일관성도 떨어진다. RLVR은 컴파일러·테스트러너·수학 채점기가 채점한다 — 무한히 싸고, 일관성도 완벽하다.

DeepSeek R1 논문(Jan 2025)의 충격: 거의 cold-start에서 RLVR만으로 R1-Zero를 만들었다. 모델이 스스로 "아 잠깐, 다시 생각해보자" 같은 self-correction 패턴을 발견했다 — emergent reasoning. 사람이 가르치지 않았는데.

RLVR이 잘 통하는 영역

영역	검증 방식	RLVR 효과
수학	정답 일치	매우 큼 (AIME 대폭 상승)
코딩	테스트 통과	큼 (LiveCodeBench·SWE-bench)
논리 퍼즐	형식 검증	큼
도구 사용	의도된 도구 호출	중간
글쓰기·요약	인간 평가 필요	작음 (verifier가 약함)
안전성·정직성	인간/모델 평가	작음 (RLHF가 더 적합)

그래서 추론 모델은 모든 작업에 좋은 게 아니다. verifier가 강한 영역에서만 압도적이다.

3장 · OpenAI — o3 / o3-pro / o4

OpenAI는 추론 모델 카테고리를 만든 회사답게, 2026년 현재 가장 다양한 라인업을 갖고 있다.

3-1. o3 (GA, 2025 Q2~)

2024년 12월에 평가 결과만 공개되고, 2025년 4월에 GA. 추론 effort dial(low·medium·high)을 제공한다 — 같은 모델, 다른 thinking budget. high는 한 응답에 분 단위가 걸릴 수도 있다.

특징:

도구 사용을 추론 도중에 한다 ("agentic reasoning") — 추론 중에 web 검색하고, 코드 인터프리터를 부르고, 그 결과를 다시 추론에 먹인다.
hidden CoT — 사용자에게 raw 추론은 안 보여준다. 요약(summary)만.
ARC-AGI에서 처음으로 사람 수준에 근접 (high effort 기준).

3-2. o3-pro

"진짜 어려운" 문제용. 같은 모델을 더 오래 굴린다. 가격이 한 자릿수 배 비싸고, 응답까지 수 분 걸린다. 연구·심층 분석·복잡한 디버깅에 쓴다.

3-3. o4 / o4-mini

2025년 후반에 풀린 다음 세대. 멀티모달 추론(이미지·다이어그램을 보고 추론), 도구 사용의 추론 통합이 더 매끄럽다. o4-mini는 빠르면서도 o3에 가까운 코딩 점수를 낸다 — 코딩 워크로드의 새 디폴트.

모델	thinking	도구 in-loop	강점
o3	hidden, 3단계 dial	yes	일반 추론, ARC-AGI
o3-pro	hidden, 매우 김	yes	진짜 어려운 문제
o4	hidden, 멀티모달	yes	복잡한 멀티스텝
o4-mini	hidden, 짧음	yes	코딩, 비용 효율

4장 · DeepSeek — R1 / R1-0528 / V3.1 reasoner

오픈 가중치 진영의 폭탄. 2025년 1월에 R1이 풀리자 업계가 멈췄다.

4-1. DeepSeek R1 (Jan 2025, MIT license)

671B MoE (활성 37B). base는 V3.
RLVR만으로 추론 능력을 키운 R1-Zero, 그 다음 SFT를 살짝 섞은 R1.
<think>...</think> 블록 안에 raw CoT를 그대로 노출 — 디버깅·연구에 천국, 상용 모델 입장에선 악몽 (모방 위험).
AIME·MATH·코딩에서 o1과 비슷한 곡선.
가격은 closed 모델 대비 한 자릿수 배 싸다.

4-2. R1-0528 (May 2025 업데이트)

같은 가중치 사이즈를 유지하면서 RL을 더 돌렸다. 복잡한 코딩과 긴 컨텍스트 추론에서 한 단계 더 올라갔다. SWE-bench Verified 점수가 의미 있게 상승.

4-3. V3.1 reasoner (2026 초)

V3.1 base 위에 thinking을 토글로 박은 통합 모델. Claude 4.5처럼 하나의 가중치로 thinking on/off — 단 thinking on 때만 R1 스타일 <think> 블록을 만든다. 오픈 가중치 진영에서 처음으로 "토글 가능한 추론"이 등장했다.

왜 DeepSeek가 중요한가: 추론 모델이 더 이상 closed 모델의 독점적 자산이 아니라는 걸 보여줬다. 누구나 8xA100·H100으로 self-host 가능. regulated industry·on-prem 요구사항이 있는 곳에선 사실상의 디폴트.

5장 · Anthropic — Claude Sonnet 4.5 / Opus 4.5 extended thinking

Anthropic은 다른 길을 갔다. 별도 모델군이 아니라, 같은 모델의 상태(mode).

5-1. extended thinking이란

Sonnet 4.5·Opus 4.5에 요청별 토글이 있다. API 호출에 thinking 파라미터를 켜고 토큰 예산을 지정한다. 모델은 그 예산만큼 추론 블록을 만들고, 그 다음에 답을 낸다.

요청:
  thinking: { type: "enabled", budget_tokens: 16000 }

응답:
  - thinking 블록 (예산 안에서 만큼)
  - 최종 답변 (assistant 메시지)

5-2. 특징

하나의 가중치, 두 가지 모드 — 운영이 단순하다.
interleaved thinking — 추론 도중에 tool을 부르고, 결과를 받아 추론을 이어간다.
thinking 내용은 API 응답에 그대로 들어온다 (raw text). hidden은 아니다. 단, 다음 turn에 자동으로 압축된다.
코딩·SWE-bench Verified에서 강점. Sonnet 4.5 + extended thinking은 실제 PR 자동화에서 매우 강하다.

5-3. budget 디스턴스 감각

작업	권장 budget
즉답 가능한 질문	thinking off
한두 단계 추론	2k~4k
코딩 패치(작은)	8k~16k
복잡한 버그 디버깅	32k~64k
수학·증명·연구	64k 이상

원칙: budget은 작업의 어려움에 비례시킨다. thinking을 무조건 켜는 게 아니다.

6장 · Google — Gemini 2.5 Pro / Deep Think

Gemini 2.5 Pro는 처음부터 "추론이 내장된" 일반 모델로 풀렸다.

6-1. Gemini 2.5 Pro

thinking이 디폴트 ON. dynamic thinking — 모델이 문제 난이도를 보고 thinking 길이를 알아서 정한다.
백만 토큰 컨텍스트 + thinking — 긴 문서 위에서의 추론에 강하다.
멀티모달 — 비디오·오디오·이미지를 추론에 섞을 수 있다.

6-2. Deep Think (Gemini 2.5)

진짜 어려운 문제용. 병렬 thinking — 여러 가설을 동시에 굴리고 합친다. IMO 2025(국제수학올림피아드)에서 처음으로 인간 금메달 수준에 도달한 모델로 화제. 2025년 후반에 GA.

모델	thinking	컨텍스트	강점
Gemini 2.5 Flash	dynamic, 짧음	1M	빠른 추론, 비용 효율
Gemini 2.5 Pro	dynamic, 김	1M	일반, 멀티모달
Gemini 2.5 Deep Think	병렬, 매우 김	1M	어려운 수학·증명

7장 · Alibaba — Qwen QwQ / QwQ-Plus

오픈 가중치 진영의 두 번째 큰 흐름. R1과 함께 오픈 추론 모델의 양대 축.

QwQ-32B (2024년 11월) — 32B의 오픈 모델이 추론에서 o1-preview에 근접. 충격.
QwQ-Plus (2025) — 다음 세대. 코딩과 수학 모두에서 한 단계 위.
Qwen3 reasoner — 더 큰 사이즈, Apache 2.0 라이센스.

QwQ는 R1과 마찬가지로 visible CoT. self-host 친화적. 한·일·중·영 다국어에 강하다 — 아시아권 사내 사용에서 선호도가 높다.

8장 · xAI — Grok 3 / 4 Heavy thinking

Grok 3 thinking·Grok 4·Grok 4 Heavy는 thinking 모드를 갖고 있다.

Grok 3 Thinking (2025 초) — chain-of-thought를 길게 굴리는 모드. X(Twitter) 데이터로 학습한 영향으로 "최신 뉴스"에 강함.
Grok 4 / 4 Heavy (2025 후반) — Heavy는 multi-agent thinking, 즉 여러 인스턴스가 병렬로 추론하고 합친다. HLE(Humanity's Last Exam) 같은 매우 어려운 평가에서 최상위 점수.

모델	thinking	특징
Grok 3 thinking	visible 일부	X 실시간 데이터
Grok 4	hidden, 긴	일반
Grok 4 Heavy	병렬 multi-agent	HLE 최상위

9장 · 비교 매트릭스 — 한 장으로

벤치마크 숫자는 출시·시간에 따라 계속 바뀐다. 아래는 상대적 위치를 보여주는 스냅샷이다.

9-1. 추론 모드 동작

모델	thinking 형식	budget 제어	도구 in-thinking
OpenAI o3	hidden(요약만)	low/med/high	yes
OpenAI o3-pro	hidden, 매우 김	자동(매우 큼)	yes
OpenAI o4 / o4-mini	hidden	low/med/high	yes
DeepSeek R1 / 0528	visible (<think>)	자동	일부
DeepSeek V3.1 reasoner	visible, 토글	API 토글	일부
Claude Sonnet 4.5	visible, 토글	토큰 budget 지정	yes (interleaved)
Claude Opus 4.5	visible, 토글	토큰 budget 지정	yes (interleaved)
Gemini 2.5 Pro	hidden, dynamic	dynamic 자동	yes
Gemini 2.5 Deep Think	hidden, 병렬	dynamic 자동	yes
Qwen QwQ / QwQ-Plus	visible (<think>)	자동	일부
Grok 4 / 4 Heavy	hidden / 병렬	모드 선택	yes

9-2. 핵심 벤치마크 위치(2026 초 기준, 상대적 표시)

모델	AIME 류 수학	LiveCodeBench	SWE-bench Verified	비용/지연
o3 (high)	최상위	최상위	최상위권	비쌈, 느림
o3-pro	최상위	최상위	최상위권	매우 비쌈, 매우 느림
o4-mini	상위	상위	상위	보통, 보통
R1-0528	상위	상위	상위권	저렴(open), 보통
Sonnet 4.5 thinking	상위	최상위	최상위	보통, 보통
Opus 4.5 thinking	최상위	최상위	최상위	비쌈, 보통
Gemini 2.5 Pro	상위	상위	상위	보통, 보통
Deep Think	최상위(IMO)	상위	상위	비쌈, 매우 느림
QwQ-Plus	상위	상위	중상위	저렴(open), 보통
Grok 4 Heavy	최상위	상위	상위	비쌈, 느림

절대 수치는 출시·평가 방식에 따라 달라진다. 결정은 자기 평가 스위트로 하라 — 자기 데이터·자기 작업·자기 SLA 위에서.

10장 · 가격과 thinking-token

추론 모델의 비용 구조는 비추론 모델과 다르다. 출력 토큰 안에 thinking 토큰이 포함되고, 그게 보통 답변 토큰의 수~수십 배다.

요청:    "이 코드의 버그를 찾아줘 (200 토큰)"

응답:    [thinking: 8,000 토큰]  ← 출력 가격으로 청구됨
         [답변:    600 토큰]     ← 출력 가격으로 청구됨

총 비용 = 입력(200) + 출력(8,600)

의미: thinking budget 자체가 가격이다. 작은 작업에 thinking을 켜면 평소의 10~50배 비용이 든다.

10-1. 모델별 대략적 1M 토큰 출력 단가(상대적 위치)

가격은 자주 바뀐다. 아래는 상대 비교용이다 — 실제 금액은 각 제공자 공식 페이지에서 확인.

모델	입력/1M	출력/1M	thinking이 출력 포함?
o3	보통~높음	매우 높음	yes
o3-pro	매우 높음	매우 매우 높음	yes
o4-mini	낮음~보통	보통	yes
R1 (DeepSeek API)	매우 낮음	낮음	yes
Sonnet 4.5 thinking	보통	높음	yes (thinking이 출력으로 카운트)
Opus 4.5 thinking	높음	매우 높음	yes
Gemini 2.5 Pro	보통	높음	yes
Deep Think	높음	매우 높음	yes
QwQ-Plus (Alibaba API)	매우 낮음	낮음	yes
Grok 4 Heavy	높음	매우 높음	yes

R1·QwQ 같은 오픈 모델은 self-host하면 0(인프라 비용만). 대량·반복 작업에선 압도적이다.

10-2. thinking budget 가이드라인

작업 종류	권장
FAQ·요약·번역	thinking off (비추론 모델로)
짧은 코드 스니펫	thinking off 또는 minimal
일반 버그 픽스	thinking low/4k
복잡한 디버그	thinking medium/16k
어려운 수학·증명	thinking high/64k+
깊은 연구·심층 분석	o3-pro·Deep Think·Grok 4 Heavy

11장 · 언제 추론 모델이 진짜로 필요한가

추론 모델은 만능이 아니다. 켜야 할 때가 분명히 있고, 꺼야 할 때가 더 많다.

11-1. 추론 모델이 빛나는 경우

수학·논리·증명 — 다단계 추론이 가치를 만드는 곳.
복잡한 코딩 — 큰 리포 위에서 여러 파일을 함께 보고 일관된 변경. SWE-bench의 본질.
에이전트 계획 — 어떤 도구를 어떤 순서로 부를지 모르는 새 작업.
디버깅 — 가설을 세우고, 증거를 모으고, 반증하기.
연구·분석 — 트레이드오프·반례·반박 가능성을 챙겨야 하는 작업.
시험 같은 마지막 경연 — IMO·AIME·HLE 같은 "한 번에 맞춰야 하는" 문제.

11-2. 추론 모델이 손해인 경우

즉답 가능한 사실 조회 — "오늘이 며칠?"에 16k thinking 토큰을 쓸 이유 없다.
고볼륨 분류·태깅 — 한 건당 비용이 곱해진다.
UI 응답성이 중요한 채팅 — thinking은 느리다. 사용자가 떠난다.
창작 글쓰기 — verifier가 약하다. 일반 모델이 더 다양하고 자연스럽다.
잡담·감정 대화 — overthinking은 어색함.
이미 정해진 형식의 보고서 — 템플릿 위에서 채워 넣을 뿐.

원칙: thinking은 비용이다. 그 비용을 정당화하는 정답률 상승이 있을 때만 켠다.

11-3. 라우팅 패턴

요청 들어옴
  │
  ▼
복잡도 분류기 (싸고 빠른 모델, 예: Haiku·Flash·4o-mini)
  │
  ├── "simple" → 빠른 비추론 모델 (즉답)
  ├── "medium" → 추론 모델 low budget
  └── "hard"   → 추론 모델 high budget 또는 pro/Heavy

이게 2026년 production AI 시스템의 디폴트 구조다. 모든 요청에 추론 모델을 쓰는 건 비용·지연 자살.

12장 · 정확도·비용·지연의 삼각 트레이드오프

같은 문제를 같은 정답률로 풀어도, 비용·지연이 다르면 다른 시스템이다.

12-1. 세 축 시각화

         정확도 ▲
              ╱│╲
             ╱ │ ╲    ← Pareto frontier
            ╱  │  ╲
   ────────●───┼───●─────
          비싸  │  느림
                ▼
              지연

Pareto frontier: 한 축을 더 가지려면 다른 축을 포기해야 한다. o3-pro는 정확도·비용·지연 중에서 정확도만 산다. R1 self-host는 비용을 산다. Haiku/Flash는 지연을 산다.

12-2. 어떤 점을 살 것인가

제품 특성	추천 점
인터랙티브 채팅(<2s)	비추론 모델 또는 thinking minimal
비동기 에이전트(분 단위 OK)	thinking medium/high
배치 분석(밤새 OK)	가장 정확한 모델, 비용만 본다
사내·온프렘 강제	오픈 가중치(R1·QwQ)
고정밀 1회성 결정	Pro/Heavy/Deep Think

12-3. budget을 동적으로 — 점진적 thinking

진보된 패턴: 틀리면 budget을 늘려서 재시도한다.

1. thinking 2k로 답을 받는다
2. self-consistency: 같은 답이 안정적인가?
3. 안정적이면 → 끝
4. 불안정하면 → 4k로 재시도
5. 그래도 불안정 → 16k 또는 다른 모델

이 escalation 패턴은 평균 비용을 크게 낮춘다 — 쉬운 문제는 싸게, 어려운 문제만 비싸게.

13장 · 오픈 vs 클로즈드 추론 사다리

2026년의 추론 모델 지형을 오픈/클로즈드 축으로 그리면:

        클로즈드 (closed-weights)
         │
o3-pro · Opus 4.5 thinking · Deep Think · Grok 4 Heavy
         │   ← "최강"이지만 비싸고 가둠
         │
   o3 · Sonnet 4.5 thinking · Gemini 2.5 Pro · Grok 4
         │   ← 일반 작업의 표준
         │
   o4-mini · Gemini 2.5 Flash · Grok 3 thinking
         │   ← 빠른 추론
         │
─────────┼─────────────────────────── 가격 / latency
         │
   QwQ-Plus · Qwen3 reasoner
         │
   DeepSeek R1-0528 · V3.1 reasoner
         │
        오픈 (open-weights, self-host 가능)

오픈을 고르는 이유

데이터가 밖으로 나가면 안 됨 — 의료·금융·국방·정부.
대량 반복 작업 — 토큰당 비용이 0이 된다.
모델을 더 파인튜닝 — 도메인에 맞게.
재현 가능성·감사 — 가중치가 있으면 결정의 출처가 추적 가능.

클로즈드를 고르는 이유

최고 성능 — 일부 작업에선 1~3%가 결정적.
운영을 외주 — 모델 호스팅·업데이트·안전성.
멀티모달 통합 — 이미지·비디오·오디오·도구가 한 API 안에서.
빠른 모델 회전 — 최신 frontier에 즉시 액세스.

2026년 현실: 진지한 조직은 둘 다 쓴다. 민감한 데이터는 오픈 self-host, 공개 가능한 일반 작업은 클로즈드 API. 라우팅이 가장 어려운 결정이다.

14장 · 추론 모델 다루기 — 실전 팁

14-1. 프롬프트는 짧게, 컨텍스트는 풍부하게

추론 모델은 자기 자신과 생각하는 게 일이다. 프롬프트에서 "step 1: ... step 2: ..." 같은 강제 단계 분리는 오히려 방해다. 목표만 명확히, 제약만 분명히 주고 나머지는 모델이 결정하게 둔다.

14-2. CoT 강제는 비추론 모델에서만

"think step by step"은 비추론 모델에서 도움이 됐다. 추론 모델에선 그 토큰이 thinking 안에서 이미 일어난다. 명시적으로 또 시키면 thinking이 중복되거나 짧아진다. 빼라.

14-3. 도구 사용은 모델에 따라 다르다

o3/o4·Sonnet 4.5·Gemini 2.5 Pro: interleaved thinking — 도구 결과가 추론에 자연스럽게 섞인다.
R1·QwQ: 도구 통합이 약하다. 외부 ReAct 루프로 보강한다.

14-4. self-consistency

같은 질문을 N번 부르고 다수결. 추론 모델에서 특히 효과 큼. 비용은 N배지만 정답률은 의미 있게 올라간다. 의료·금융 같은 고위험 결정에 유용.

14-5. thinking 트레이스를 로깅하라 (가능한 곳에서만)

R1·QwQ·Claude처럼 visible 추론을 주는 모델은 로그로 남겨라. 디버깅·개선·평가의 금광이다. 단, 사용자에게 그대로 보여주면 위험할 수 있다 (잘못된 가설을 사실처럼 보일 수 있음).

14-6. 캐시 활용

system prompt가 길면 thinking이 그 위에서 일어난다. prompt caching(Anthropic·OpenAI·Gemini 모두 지원)으로 입력 토큰 가격을 90%까지 줄일 수 있다. 단, thinking 토큰은 캐시되지 않는다 — 매번 다시 생성된다.

에필로그 — 두 줄 요약과 다음 글

이 글의 두 줄 요약:

추론 모델은 모든 작업에 좋은 게 아니다 — 검증 가능한 문제에서만 압도적이다.
2026년의 결정은 "어떤 모델"이 아니라 "어떤 모델 × 어떤 thinking 모드 × 어떤 라우팅"이다.

12개 항목 체크리스트

추론을 켤지 끌지를 작업별로 결정하는가?
thinking budget을 작업 난이도에 비례시키는가?
라우터(싸고 빠른 분류기 + 비싼 추론 모델)가 있는가?
self-consistency를 고위험 결정에 쓰는가?
thinking이 출력 토큰으로 카운트된다는 걸 비용 모델에 반영했는가?
도구 사용 패턴이 interleaved를 잘 활용하는가?
visible CoT 모델의 추론을 로깅하는가?
자기 데이터로 평가 스위트를 가졌는가? (벤더 벤치마크에 의존하지 않는가?)
오픈 가중치 옵션을 검토했는가 (regulated·high-volume인 경우)?
prompt caching으로 입력 비용을 줄였는가?
CoT 강제 ("think step by step")를 추론 모델에서 빼는가?
사용자에게 raw 추론을 노출하지 않게 막았는가?

안티패턴 10가지

모든 요청에 추론 모델 — 비용·지연 자살.
CoT 프롬프트 강제 — 추론 모델에선 역효과.
thinking budget을 디폴트 최대 — 비용 폭탄.
벤더 벤치마크만 보고 결정 — 자기 작업과 다르다.
visible 추론을 사용자에게 그대로 노출 — 잘못된 가설을 사실처럼 보임.
self-consistency를 모든 곳에서 — 비용 N배.
오픈/클로즈드 둘 중 하나만 — 라우팅이 답.
thinking 토큰을 모니터링 안 함 — 비용 트래킹 불가능.
민감 데이터를 외부 추론 API로 — 컴플라이언스 위반.
추론 모델을 채팅 UX에 그대로 — 1분 기다리는 사용자는 없다.

다음 글 예고

다음 글 후보: 추론 모델 평가 스위트 — 자기 데이터로 thinking을 측정하기, 에이전트 × 추론 모델 — 도구 사용과 thinking의 통합 패턴, 오픈 추론 모델 self-host 가이드 — vLLM·SGLang·TGI 비교.

"더 큰 모델이 아니라 더 잘 생각하는 모델 — 그 다음에는, 언제 생각하지 말지를 아는 모델."

— 추론 모델 2026 가이드, 끝.

참고 / References

OpenAI, "Learning to reason with LLMs (o1)" — https://openai.com/index/learning-to-reason-with-llms/
OpenAI, "Introducing o3 and o4-mini" — https://openai.com/index/introducing-o3-and-o4-mini/
OpenAI, "OpenAI o3-mini" — https://openai.com/index/openai-o3-mini/
DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948) — https://arxiv.org/abs/2501.12948
DeepSeek, "DeepSeek-R1-0528 release notes" — https://api-docs.deepseek.com/news/news250528
Anthropic, "Claude's extended thinking" — https://www.anthropic.com/news/visible-extended-thinking
Anthropic, "Claude Sonnet 4.5" — https://www.anthropic.com/news/claude-sonnet-4-5
Anthropic Engineering, "Extended thinking tips" — https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
Google DeepMind, "Gemini 2.5: Our most intelligent AI model" — https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
Google DeepMind, "Try Deep Think in the Gemini app" — https://blog.google/products/gemini/gemini-2-5-deep-think/
Alibaba Qwen, "QwQ-32B: Reflect deeply on the boundaries of the unknown" — https://qwenlm.github.io/blog/qwq-32b-preview/
Alibaba Qwen, "QwQ-Plus / Qwen3 reasoning" — https://qwenlm.github.io/blog/qwen3/
xAI, "Grok 3 Beta" — https://x.ai/news/grok-3
xAI, "Grok 4 and Grok 4 Heavy" — https://x.ai/news/grok-4
Kimi/Moonshot, "Kimi k1.5: Scaling RL with LLMs" (RLVR 비교 참고) — https://arxiv.org/abs/2501.12599
ARC Prize, "ARC-AGI-1 Leaderboard" — https://arcprize.org/
SWE-bench Verified leaderboard — https://www.swebench.com/
LiveCodeBench — https://livecodebench.github.io/
HLE (Humanity's Last Exam) — https://lastexam.ai/
AIME 2024/2025 evaluation discussion — https://artofproblemsolving.com/community/c3416_2024_aime_i
Lilian Weng, "Why we think" — https://lilianweng.github.io/posts/2025-05-01-thinking/