필사 모드: 추론 모델(reasoning models) 2026 가이드 — o3·o4·DeepSeek R1·Claude Thinking·Gemini Deep Think·QwQ 심층 비교
한국어프롤로그 — "더 오래 생각해서 더 잘 푼다"
2024년 9월, OpenAI는 o1-preview를 던졌다. 모델 자체는 크지 않았다. 새로운 건 한 가지였다 — **모델이 답하기 전에 한참 동안 자기 자신과 대화한다.**
이전 LLM은 "다음 토큰을 잘 예측"하는 게임이었다. o1은 한 단계 더 나아갔다. **답을 출력하기 전에 hidden chain-of-thought 토큰을 잔뜩 만들고**, 거기서 추론을 다듬은 뒤에 비로소 답을 낸다. 더 많은 토큰을 쓰면 — 즉 더 오래 "생각"하면 — 더 정답에 가까워진다. 이게 **test-time compute scaling**이다.
이 한 줄짜리 아이디어가 2025~2026년 모델 지형을 통째로 바꿨다. o3가 GA로 풀렸고, DeepSeek R1이 오픈 가중치로 같은 곡선을 재현해버렸고, Anthropic은 "extended thinking"을 Sonnet/Opus 4.5에 토글로 박아 넣었고, Google은 Gemini 2.5 Pro와 Deep Think를 GA로 풀었다. Alibaba의 QwQ·QwQ-Plus는 오픈 가중치 진영에서 두 번째 큰 흐름을 만들었다.
> **2024년의 질문: "어떤 모델을 쓸 것인가?"**
> **2026년의 질문: "이 작업에 thinking을 켤 것인가, 끌 것인가, 얼마나?"**
이 글은 추론 모델의 2026년 현재 상태를 정리한다. **6개 가족 × thinking 동작 × 벤치마크 × 가격**을 한 장에 펼친다. 그리고 진짜 중요한 질문 — "언제 추론 모델이 필요하고, 언제 빠른 비추론 모델이 더 나은가?" — 에 솔직하게 답한다.
1장 · Test-time compute란 무엇인가
전통적 LLM 스케일링은 **세 축**이었다.
| 축 | 의미 |
| --- | --- |
| 파라미터 | 모델을 더 크게 |
| 학습 데이터 | 더 많이 먹이기 |
| 학습 컴퓨트 | 더 오래 학습 |
o1이 추가한 네 번째 축이 **test-time compute**다. **추론(inference) 단계에서 모델이 쓰는 토큰 수를 늘리면 정답률이 올라간다.**
정확도
▲
R1 ────│ ╱── thinking ON
│ ╱
base ──│ ╱
│ ╱──── thinking OFF (즉답)
└────────────────────────▶ 추론 시 토큰 예산
이 곡선은 모델마다 다르고, 문제 종류마다 다르다. 수학·코딩·증명 같은 verifiable 문제에서는 곡선이 가파르다. 창작·요약·잡담에서는 거의 평평하다 — 더 오래 생각해도 별로 안 좋아진다.
thinking 토큰의 정체
추론 모델이 "생각"하는 동안 만드는 토큰은 보통 **세 가지 중 하나**다.
1. **숨겨진(hidden) reasoning** — o1·o3·o4가 채택. 사용자에게 raw chain-of-thought를 안 보여준다. 요약만 보여준다.
2. **보이는(visible) reasoning** — DeepSeek R1·QwQ가 채택. `<think>...</think>` 블록 안에 추론 과정을 그대로 노출.
3. **토글 가능** — Claude Sonnet/Opus 4.5의 extended thinking. 요청별로 켜고 끄고, 예산 조절 가능.
**hidden이냐 visible이냐는 단순한 UX 차이가 아니다.** visible은 디버깅·교육·신뢰 검증이 쉽지만, **모방·증류**에 취약하다. DeepSeek R1이 오픈으로 풀리자마자 수많은 distillation 시도가 나온 것도 그래서다.
2장 · RLVR — 추론 모델을 만드는 레시피
추론 모델은 base 모델 위에 **두 가지 layer**를 더 얹어서 만든다.
2-1. 긴 CoT를 만드는 능력
먼저 모델이 **체인 오브 사고를 길게 만들 수 있어야** 한다. base 모델은 보통 짧고 단정한 답을 좋아한다. 긴 CoT 데이터로 SFT(supervised fine-tuning)를 해서 "생각을 길게 펼치는 습관"을 가르친다.
2-2. RLVR — Reinforcement Learning with Verifiable Rewards
핵심은 두 번째 레이어다. **RLVR**은 자동으로 채점 가능한 보상을 쓴다.
RLVR 루프:
1. 문제(수학·코딩·논리)를 모델에 준다
2. 모델이 긴 CoT + 최종 답을 만든다
3. 검증기(verifier)가 채점한다:
- 수학: 정답과 일치하나?
- 코딩: 테스트가 통과하나?
- 형식 추론: 증명이 형식적으로 맞나?
4. 통과한 trajectory에 +1, 실패한 trajectory에 0 (또는 음수)
5. PPO/GRPO 같은 policy gradient로 모델 업데이트
6. 반복
핵심은 **"검증 가능한 보상"**이다. RLHF(인간 피드백)는 사람이 비싸고 일관성도 떨어진다. RLVR은 **컴파일러·테스트러너·수학 채점기**가 채점한다 — 무한히 싸고, 일관성도 완벽하다.
> **DeepSeek R1 논문(Jan 2025)의 충격**: 거의 cold-start에서 RLVR만으로 R1-Zero를 만들었다. 모델이 스스로 "아 잠깐, 다시 생각해보자" 같은 self-correction 패턴을 발견했다 — emergent reasoning. 사람이 가르치지 않았는데.
RLVR이 잘 통하는 영역
| 영역 | 검증 방식 | RLVR 효과 |
| --- | --- | --- |
| 수학 | 정답 일치 | 매우 큼 (AIME 대폭 상승) |
| 코딩 | 테스트 통과 | 큼 (LiveCodeBench·SWE-bench) |
| 논리 퍼즐 | 형식 검증 | 큼 |
| 도구 사용 | 의도된 도구 호출 | 중간 |
| 글쓰기·요약 | 인간 평가 필요 | 작음 (verifier가 약함) |
| 안전성·정직성 | 인간/모델 평가 | 작음 (RLHF가 더 적합) |
**그래서 추론 모델은 모든 작업에 좋은 게 아니다.** verifier가 강한 영역에서만 압도적이다.
3장 · OpenAI — o3 / o3-pro / o4
OpenAI는 추론 모델 카테고리를 만든 회사답게, 2026년 현재 가장 다양한 라인업을 갖고 있다.
3-1. o3 (GA, 2025 Q2~)
2024년 12월에 평가 결과만 공개되고, 2025년 4월에 GA. **추론 effort dial**(low·medium·high)을 제공한다 — 같은 모델, 다른 thinking budget. high는 한 응답에 분 단위가 걸릴 수도 있다.
**특징**:
- 도구 사용을 추론 도중에 한다 ("agentic reasoning") — 추론 중에 web 검색하고, 코드 인터프리터를 부르고, 그 결과를 다시 추론에 먹인다.
- hidden CoT — 사용자에게 raw 추론은 안 보여준다. 요약(summary)만.
- ARC-AGI에서 처음으로 사람 수준에 근접 (high effort 기준).
3-2. o3-pro
"진짜 어려운" 문제용. 같은 모델을 더 오래 굴린다. 가격이 한 자릿수 배 비싸고, 응답까지 수 분 걸린다. **연구·심층 분석·복잡한 디버깅**에 쓴다.
3-3. o4 / o4-mini
2025년 후반에 풀린 다음 세대. **멀티모달 추론**(이미지·다이어그램을 보고 추론), **도구 사용의 추론 통합**이 더 매끄럽다. o4-mini는 빠르면서도 o3에 가까운 코딩 점수를 낸다 — 코딩 워크로드의 새 디폴트.
| 모델 | thinking | 도구 in-loop | 강점 |
| --- | --- | --- | --- |
| o3 | hidden, 3단계 dial | yes | 일반 추론, ARC-AGI |
| o3-pro | hidden, 매우 김 | yes | 진짜 어려운 문제 |
| o4 | hidden, 멀티모달 | yes | 복잡한 멀티스텝 |
| o4-mini | hidden, 짧음 | yes | 코딩, 비용 효율 |
4장 · DeepSeek — R1 / R1-0528 / V3.1 reasoner
**오픈 가중치 진영의 폭탄**. 2025년 1월에 R1이 풀리자 업계가 멈췄다.
4-1. DeepSeek R1 (Jan 2025, MIT license)
- 671B MoE (활성 37B). base는 V3.
- **RLVR만으로** 추론 능력을 키운 R1-Zero, 그 다음 SFT를 살짝 섞은 R1.
- `<think>...</think>` 블록 안에 raw CoT를 그대로 노출 — 디버깅·연구에 천국, 상용 모델 입장에선 악몽 (모방 위험).
- AIME·MATH·코딩에서 o1과 비슷한 곡선.
- 가격은 closed 모델 대비 한 자릿수 배 싸다.
4-2. R1-0528 (May 2025 업데이트)
같은 가중치 사이즈를 유지하면서 RL을 더 돌렸다. **복잡한 코딩과 긴 컨텍스트 추론**에서 한 단계 더 올라갔다. SWE-bench Verified 점수가 의미 있게 상승.
4-3. V3.1 reasoner (2026 초)
V3.1 base 위에 thinking을 토글로 박은 통합 모델. Claude 4.5처럼 **하나의 가중치로 thinking on/off** — 단 thinking on 때만 R1 스타일 `<think>` 블록을 만든다. 오픈 가중치 진영에서 처음으로 "토글 가능한 추론"이 등장했다.
**왜 DeepSeek가 중요한가**: 추론 모델이 더 이상 closed 모델의 독점적 자산이 아니라는 걸 보여줬다. 누구나 8xA100·H100으로 self-host 가능. **regulated industry·on-prem 요구사항이 있는 곳에선 사실상의 디폴트**.
5장 · Anthropic — Claude Sonnet 4.5 / Opus 4.5 extended thinking
Anthropic은 다른 길을 갔다. **별도 모델군이 아니라, 같은 모델의 상태(mode)**.
5-1. extended thinking이란
Sonnet 4.5·Opus 4.5에 **요청별 토글**이 있다. API 호출에 `thinking` 파라미터를 켜고 토큰 예산을 지정한다. 모델은 그 예산만큼 추론 블록을 만들고, 그 다음에 답을 낸다.
요청:
thinking: { type: "enabled", budget_tokens: 16000 }
응답:
- thinking 블록 (예산 안에서 만큼)
- 최종 답변 (assistant 메시지)
5-2. 특징
- **하나의 가중치, 두 가지 모드** — 운영이 단순하다.
- **interleaved thinking** — 추론 도중에 tool을 부르고, 결과를 받아 추론을 이어간다.
- thinking 내용은 API 응답에 그대로 들어온다 (raw text). hidden은 아니다. 단, 다음 turn에 자동으로 압축된다.
- 코딩·SWE-bench Verified에서 강점. Sonnet 4.5 + extended thinking은 실제 PR 자동화에서 매우 강하다.
5-3. budget 디스턴스 감각
| 작업 | 권장 budget |
| --- | --- |
| 즉답 가능한 질문 | thinking off |
| 한두 단계 추론 | 2k~4k |
| 코딩 패치(작은) | 8k~16k |
| 복잡한 버그 디버깅 | 32k~64k |
| 수학·증명·연구 | 64k 이상 |
**원칙: budget은 작업의 어려움에 비례시킨다.** thinking을 무조건 켜는 게 아니다.
6장 · Google — Gemini 2.5 Pro / Deep Think
Gemini 2.5 Pro는 처음부터 "추론이 내장된" 일반 모델로 풀렸다.
6-1. Gemini 2.5 Pro
- thinking이 디폴트 ON. **dynamic thinking** — 모델이 문제 난이도를 보고 thinking 길이를 알아서 정한다.
- 백만 토큰 컨텍스트 + thinking — 긴 문서 위에서의 추론에 강하다.
- 멀티모달 — 비디오·오디오·이미지를 추론에 섞을 수 있다.
6-2. Deep Think (Gemini 2.5)
진짜 어려운 문제용. **병렬 thinking** — 여러 가설을 동시에 굴리고 합친다. **IMO 2025**(국제수학올림피아드)에서 처음으로 인간 금메달 수준에 도달한 모델로 화제. 2025년 후반에 GA.
| 모델 | thinking | 컨텍스트 | 강점 |
| --- | --- | --- | --- |
| Gemini 2.5 Flash | dynamic, 짧음 | 1M | 빠른 추론, 비용 효율 |
| Gemini 2.5 Pro | dynamic, 김 | 1M | 일반, 멀티모달 |
| Gemini 2.5 Deep Think | 병렬, 매우 김 | 1M | 어려운 수학·증명 |
7장 · Alibaba — Qwen QwQ / QwQ-Plus
**오픈 가중치 진영의 두 번째 큰 흐름**. R1과 함께 오픈 추론 모델의 양대 축.
- **QwQ-32B** (2024년 11월) — 32B의 오픈 모델이 추론에서 o1-preview에 근접. 충격.
- **QwQ-Plus** (2025) — 다음 세대. 코딩과 수학 모두에서 한 단계 위.
- **Qwen3 reasoner** — 더 큰 사이즈, Apache 2.0 라이센스.
QwQ는 R1과 마찬가지로 **visible CoT**. self-host 친화적. 한·일·중·영 다국어에 강하다 — 아시아권 사내 사용에서 선호도가 높다.
8장 · xAI — Grok 3 / 4 Heavy thinking
Grok 3 thinking·Grok 4·Grok 4 Heavy는 thinking 모드를 갖고 있다.
- **Grok 3 Thinking** (2025 초) — chain-of-thought를 길게 굴리는 모드. X(Twitter) 데이터로 학습한 영향으로 "최신 뉴스"에 강함.
- **Grok 4 / 4 Heavy** (2025 후반) — Heavy는 multi-agent thinking, 즉 여러 인스턴스가 병렬로 추론하고 합친다. **HLE(Humanity's Last Exam)** 같은 매우 어려운 평가에서 최상위 점수.
| 모델 | thinking | 특징 |
| --- | --- | --- |
| Grok 3 thinking | visible 일부 | X 실시간 데이터 |
| Grok 4 | hidden, 긴 | 일반 |
| Grok 4 Heavy | 병렬 multi-agent | HLE 최상위 |
9장 · 비교 매트릭스 — 한 장으로
벤치마크 숫자는 출시·시간에 따라 계속 바뀐다. 아래는 **상대적 위치**를 보여주는 스냅샷이다.
9-1. 추론 모드 동작
| 모델 | thinking 형식 | budget 제어 | 도구 in-thinking |
| --- | --- | --- | --- |
| OpenAI o3 | hidden(요약만) | low/med/high | yes |
| OpenAI o3-pro | hidden, 매우 김 | 자동(매우 큼) | yes |
| OpenAI o4 / o4-mini | hidden | low/med/high | yes |
| DeepSeek R1 / 0528 | visible (\<think\>) | 자동 | 일부 |
| DeepSeek V3.1 reasoner | visible, 토글 | API 토글 | 일부 |
| Claude Sonnet 4.5 | visible, 토글 | 토큰 budget 지정 | yes (interleaved) |
| Claude Opus 4.5 | visible, 토글 | 토큰 budget 지정 | yes (interleaved) |
| Gemini 2.5 Pro | hidden, dynamic | dynamic 자동 | yes |
| Gemini 2.5 Deep Think | hidden, 병렬 | dynamic 자동 | yes |
| Qwen QwQ / QwQ-Plus | visible (\<think\>) | 자동 | 일부 |
| Grok 4 / 4 Heavy | hidden / 병렬 | 모드 선택 | yes |
9-2. 핵심 벤치마크 위치(2026 초 기준, 상대적 표시)
| 모델 | AIME 류 수학 | LiveCodeBench | SWE-bench Verified | 비용/지연 |
| --- | --- | --- | --- | --- |
| o3 (high) | 최상위 | 최상위 | 최상위권 | 비쌈, 느림 |
| o3-pro | 최상위 | 최상위 | 최상위권 | 매우 비쌈, 매우 느림 |
| o4-mini | 상위 | 상위 | 상위 | 보통, 보통 |
| R1-0528 | 상위 | 상위 | 상위권 | 저렴(open), 보통 |
| Sonnet 4.5 thinking | 상위 | 최상위 | 최상위 | 보통, 보통 |
| Opus 4.5 thinking | 최상위 | 최상위 | 최상위 | 비쌈, 보통 |
| Gemini 2.5 Pro | 상위 | 상위 | 상위 | 보통, 보통 |
| Deep Think | 최상위(IMO) | 상위 | 상위 | 비쌈, 매우 느림 |
| QwQ-Plus | 상위 | 상위 | 중상위 | 저렴(open), 보통 |
| Grok 4 Heavy | 최상위 | 상위 | 상위 | 비쌈, 느림 |
> 절대 수치는 출시·평가 방식에 따라 달라진다. 결정은 **자기 평가 스위트**로 하라 — 자기 데이터·자기 작업·자기 SLA 위에서.
10장 · 가격과 thinking-token
추론 모델의 비용 구조는 비추론 모델과 다르다. **출력 토큰 안에 thinking 토큰이 포함**되고, 그게 보통 답변 토큰의 수~수십 배다.
요청: "이 코드의 버그를 찾아줘 (200 토큰)"
응답: [thinking: 8,000 토큰] ← 출력 가격으로 청구됨
[답변: 600 토큰] ← 출력 가격으로 청구됨
총 비용 = 입력(200) + 출력(8,600)
**의미**: thinking budget 자체가 가격이다. 작은 작업에 thinking을 켜면 평소의 10~50배 비용이 든다.
10-1. 모델별 대략적 1M 토큰 출력 단가(상대적 위치)
가격은 자주 바뀐다. 아래는 **상대 비교용**이다 — 실제 금액은 각 제공자 공식 페이지에서 확인.
| 모델 | 입력/1M | 출력/1M | thinking이 출력 포함? |
| --- | --- | --- | --- |
| o3 | 보통~높음 | 매우 높음 | yes |
| o3-pro | 매우 높음 | 매우 매우 높음 | yes |
| o4-mini | 낮음~보통 | 보통 | yes |
| R1 (DeepSeek API) | 매우 낮음 | 낮음 | yes |
| Sonnet 4.5 thinking | 보통 | 높음 | yes (thinking이 출력으로 카운트) |
| Opus 4.5 thinking | 높음 | 매우 높음 | yes |
| Gemini 2.5 Pro | 보통 | 높음 | yes |
| Deep Think | 높음 | 매우 높음 | yes |
| QwQ-Plus (Alibaba API) | 매우 낮음 | 낮음 | yes |
| Grok 4 Heavy | 높음 | 매우 높음 | yes |
`R1·QwQ` 같은 오픈 모델은 **self-host하면 0**(인프라 비용만). 대량·반복 작업에선 압도적이다.
10-2. thinking budget 가이드라인
| 작업 종류 | 권장 |
| --- | --- |
| FAQ·요약·번역 | thinking off (비추론 모델로) |
| 짧은 코드 스니펫 | thinking off 또는 minimal |
| 일반 버그 픽스 | thinking low/4k |
| 복잡한 디버그 | thinking medium/16k |
| 어려운 수학·증명 | thinking high/64k+ |
| 깊은 연구·심층 분석 | o3-pro·Deep Think·Grok 4 Heavy |
11장 · 언제 추론 모델이 진짜로 필요한가
추론 모델은 만능이 아니다. **켜야 할 때**가 분명히 있고, **꺼야 할 때**가 더 많다.
11-1. 추론 모델이 빛나는 경우
1. **수학·논리·증명** — 다단계 추론이 가치를 만드는 곳.
2. **복잡한 코딩** — 큰 리포 위에서 여러 파일을 함께 보고 일관된 변경. SWE-bench의 본질.
3. **에이전트 계획** — 어떤 도구를 어떤 순서로 부를지 모르는 새 작업.
4. **디버깅** — 가설을 세우고, 증거를 모으고, 반증하기.
5. **연구·분석** — 트레이드오프·반례·반박 가능성을 챙겨야 하는 작업.
6. **시험 같은 마지막 경연** — IMO·AIME·HLE 같은 "한 번에 맞춰야 하는" 문제.
11-2. 추론 모델이 손해인 경우
1. **즉답 가능한 사실 조회** — "오늘이 며칠?"에 16k thinking 토큰을 쓸 이유 없다.
2. **고볼륨 분류·태깅** — 한 건당 비용이 곱해진다.
3. **UI 응답성이 중요한 채팅** — thinking은 느리다. 사용자가 떠난다.
4. **창작 글쓰기** — verifier가 약하다. 일반 모델이 더 다양하고 자연스럽다.
5. **잡담·감정 대화** — overthinking은 어색함.
6. **이미 정해진 형식의 보고서** — 템플릿 위에서 채워 넣을 뿐.
> **원칙: thinking은 비용이다. 그 비용을 정당화하는 정답률 상승이 있을 때만 켠다.**
11-3. 라우팅 패턴
요청 들어옴
│
▼
복잡도 분류기 (싸고 빠른 모델, 예: Haiku·Flash·4o-mini)
│
├── "simple" → 빠른 비추론 모델 (즉답)
├── "medium" → 추론 모델 low budget
└── "hard" → 추론 모델 high budget 또는 pro/Heavy
이게 2026년 production AI 시스템의 디폴트 구조다. **모든 요청에 추론 모델을 쓰는 건 비용·지연 자살.**
12장 · 정확도·비용·지연의 삼각 트레이드오프
같은 문제를 같은 정답률로 풀어도, **비용·지연이 다르면 다른 시스템**이다.
12-1. 세 축 시각화
정확도 ▲
╱│╲
╱ │ ╲ ← Pareto frontier
╱ │ ╲
────────●───┼───●─────
비싸 │ 느림
▼
지연
**Pareto frontier**: 한 축을 더 가지려면 다른 축을 포기해야 한다. o3-pro는 정확도·비용·지연 중에서 **정확도만** 산다. R1 self-host는 비용을 산다. Haiku/Flash는 지연을 산다.
12-2. 어떤 점을 살 것인가
| 제품 특성 | 추천 점 |
| --- | --- |
| 인터랙티브 채팅(\<2s) | 비추론 모델 또는 thinking minimal |
| 비동기 에이전트(분 단위 OK) | thinking medium/high |
| 배치 분석(밤새 OK) | 가장 정확한 모델, 비용만 본다 |
| 사내·온프렘 강제 | 오픈 가중치(R1·QwQ) |
| 고정밀 1회성 결정 | Pro/Heavy/Deep Think |
12-3. budget을 동적으로 — 점진적 thinking
진보된 패턴: **틀리면 budget을 늘려서 재시도**한다.
1. thinking 2k로 답을 받는다
2. self-consistency: 같은 답이 안정적인가?
3. 안정적이면 → 끝
4. 불안정하면 → 4k로 재시도
5. 그래도 불안정 → 16k 또는 다른 모델
이 escalation 패턴은 평균 비용을 크게 낮춘다 — 쉬운 문제는 싸게, 어려운 문제만 비싸게.
13장 · 오픈 vs 클로즈드 추론 사다리
2026년의 추론 모델 지형을 **오픈/클로즈드 축**으로 그리면:
클로즈드 (closed-weights)
│
o3-pro · Opus 4.5 thinking · Deep Think · Grok 4 Heavy
│ ← "최강"이지만 비싸고 가둠
│
o3 · Sonnet 4.5 thinking · Gemini 2.5 Pro · Grok 4
│ ← 일반 작업의 표준
│
o4-mini · Gemini 2.5 Flash · Grok 3 thinking
│ ← 빠른 추론
│
─────────┼─────────────────────────── 가격 / latency
│
QwQ-Plus · Qwen3 reasoner
│
DeepSeek R1-0528 · V3.1 reasoner
│
오픈 (open-weights, self-host 가능)
오픈을 고르는 이유
- **데이터가 밖으로 나가면 안 됨** — 의료·금융·국방·정부.
- **대량 반복 작업** — 토큰당 비용이 0이 된다.
- **모델을 더 파인튜닝** — 도메인에 맞게.
- **재현 가능성·감사** — 가중치가 있으면 결정의 출처가 추적 가능.
클로즈드를 고르는 이유
- **최고 성능** — 일부 작업에선 1~3%가 결정적.
- **운영을 외주** — 모델 호스팅·업데이트·안전성.
- **멀티모달 통합** — 이미지·비디오·오디오·도구가 한 API 안에서.
- **빠른 모델 회전** — 최신 frontier에 즉시 액세스.
**2026년 현실**: 진지한 조직은 **둘 다** 쓴다. 민감한 데이터는 오픈 self-host, 공개 가능한 일반 작업은 클로즈드 API. 라우팅이 가장 어려운 결정이다.
14장 · 추론 모델 다루기 — 실전 팁
14-1. 프롬프트는 짧게, 컨텍스트는 풍부하게
추론 모델은 **자기 자신과 생각하는 게 일**이다. 프롬프트에서 "step 1: ... step 2: ..." 같은 강제 단계 분리는 오히려 방해다. **목표만 명확히, 제약만 분명히** 주고 나머지는 모델이 결정하게 둔다.
14-2. CoT 강제는 비추론 모델에서만
"think step by step"은 비추론 모델에서 도움이 됐다. 추론 모델에선 **그 토큰이 thinking 안에서 이미 일어난다.** 명시적으로 또 시키면 thinking이 중복되거나 짧아진다. 빼라.
14-3. 도구 사용은 모델에 따라 다르다
- o3/o4·Sonnet 4.5·Gemini 2.5 Pro: **interleaved thinking** — 도구 결과가 추론에 자연스럽게 섞인다.
- R1·QwQ: 도구 통합이 약하다. 외부 ReAct 루프로 보강한다.
14-4. self-consistency
**같은 질문을 N번 부르고 다수결**. 추론 모델에서 특히 효과 큼. 비용은 N배지만 정답률은 의미 있게 올라간다. 의료·금융 같은 고위험 결정에 유용.
14-5. thinking 트레이스를 로깅하라 (가능한 곳에서만)
R1·QwQ·Claude처럼 visible 추론을 주는 모델은 **로그로 남겨라**. 디버깅·개선·평가의 금광이다. 단, **사용자에게 그대로 보여주면 위험**할 수 있다 (잘못된 가설을 사실처럼 보일 수 있음).
14-6. 캐시 활용
system prompt가 길면 thinking이 그 위에서 일어난다. **prompt caching**(Anthropic·OpenAI·Gemini 모두 지원)으로 입력 토큰 가격을 90%까지 줄일 수 있다. 단, thinking 토큰은 캐시되지 않는다 — 매번 다시 생성된다.
에필로그 — 두 줄 요약과 다음 글
이 글의 두 줄 요약:
1. **추론 모델은 모든 작업에 좋은 게 아니다 — 검증 가능한 문제에서만 압도적이다.**
2. **2026년의 결정은 "어떤 모델"이 아니라 "어떤 모델 × 어떤 thinking 모드 × 어떤 라우팅"이다.**
12개 항목 체크리스트
1. 추론을 켤지 끌지를 작업별로 결정하는가?
2. thinking budget을 작업 난이도에 비례시키는가?
3. 라우터(싸고 빠른 분류기 + 비싼 추론 모델)가 있는가?
4. self-consistency를 고위험 결정에 쓰는가?
5. thinking이 출력 토큰으로 카운트된다는 걸 비용 모델에 반영했는가?
6. 도구 사용 패턴이 interleaved를 잘 활용하는가?
7. visible CoT 모델의 추론을 로깅하는가?
8. 자기 데이터로 평가 스위트를 가졌는가? (벤더 벤치마크에 의존하지 않는가?)
9. 오픈 가중치 옵션을 검토했는가 (regulated·high-volume인 경우)?
10. prompt caching으로 입력 비용을 줄였는가?
11. CoT 강제 ("think step by step")를 추론 모델에서 빼는가?
12. 사용자에게 raw 추론을 노출하지 않게 막았는가?
안티패턴 10가지
1. **모든 요청에 추론 모델** — 비용·지연 자살.
2. **CoT 프롬프트 강제** — 추론 모델에선 역효과.
3. **thinking budget을 디폴트 최대** — 비용 폭탄.
4. **벤더 벤치마크만 보고 결정** — 자기 작업과 다르다.
5. **visible 추론을 사용자에게 그대로 노출** — 잘못된 가설을 사실처럼 보임.
6. **self-consistency를 모든 곳에서** — 비용 N배.
7. **오픈/클로즈드 둘 중 하나만** — 라우팅이 답.
8. **thinking 토큰을 모니터링 안 함** — 비용 트래킹 불가능.
9. **민감 데이터를 외부 추론 API로** — 컴플라이언스 위반.
10. **추론 모델을 채팅 UX에 그대로** — 1분 기다리는 사용자는 없다.
다음 글 예고
다음 글 후보: **추론 모델 평가 스위트 — 자기 데이터로 thinking을 측정하기**, **에이전트 × 추론 모델 — 도구 사용과 thinking의 통합 패턴**, **오픈 추론 모델 self-host 가이드 — vLLM·SGLang·TGI 비교**.
> "더 큰 모델이 아니라 더 잘 생각하는 모델 — 그 다음에는, 언제 생각하지 말지를 아는 모델."
— 추론 모델 2026 가이드, 끝.
참고 / References
- OpenAI, "Learning to reason with LLMs (o1)" — https://openai.com/index/learning-to-reason-with-llms/
- OpenAI, "Introducing o3 and o4-mini" — https://openai.com/index/introducing-o3-and-o4-mini/
- OpenAI, "OpenAI o3-mini" — https://openai.com/index/openai-o3-mini/
- DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948) — https://arxiv.org/abs/2501.12948
- DeepSeek, "DeepSeek-R1-0528 release notes" — https://api-docs.deepseek.com/news/news250528
- Anthropic, "Claude's extended thinking" — https://www.anthropic.com/news/visible-extended-thinking
- Anthropic, "Claude Sonnet 4.5" — https://www.anthropic.com/news/claude-sonnet-4-5
- Anthropic Engineering, "Extended thinking tips" — https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
- Google DeepMind, "Gemini 2.5: Our most intelligent AI model" — https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
- Google DeepMind, "Try Deep Think in the Gemini app" — https://blog.google/products/gemini/gemini-2-5-deep-think/
- Alibaba Qwen, "QwQ-32B: Reflect deeply on the boundaries of the unknown" — https://qwenlm.github.io/blog/qwq-32b-preview/
- Alibaba Qwen, "QwQ-Plus / Qwen3 reasoning" — https://qwenlm.github.io/blog/qwen3/
- xAI, "Grok 3 Beta" — https://x.ai/news/grok-3
- xAI, "Grok 4 and Grok 4 Heavy" — https://x.ai/news/grok-4
- Kimi/Moonshot, "Kimi k1.5: Scaling RL with LLMs" (RLVR 비교 참고) — https://arxiv.org/abs/2501.12599
- ARC Prize, "ARC-AGI-1 Leaderboard" — https://arcprize.org/
- SWE-bench Verified leaderboard — https://www.swebench.com/
- LiveCodeBench — https://livecodebench.github.io/
- HLE (Humanity's Last Exam) — https://lastexam.ai/
- AIME 2024/2025 evaluation discussion — https://artofproblemsolving.com/community/c3416_2024_aime_i
- Lilian Weng, "Why we think" — https://lilianweng.github.io/posts/2025-05-01-thinking/
현재 단락 (1/295)
2024년 9월, OpenAI는 o1-preview를 던졌다. 모델 자체는 크지 않았다. 새로운 건 한 가지였다 — **모델이 답하기 전에 한참 동안 자기 자신과 대화한다.**