Skip to content

필사 모드: 추론 모델(reasoning models) 2026 가이드 — o3·o4·DeepSeek R1·Claude Thinking·Gemini Deep Think·QwQ 심층 비교

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — "더 오래 생각해서 더 잘 푼다"

2024년 9월, OpenAI는 o1-preview를 던졌다. 모델 자체는 크지 않았다. 새로운 건 한 가지였다 — **모델이 답하기 전에 한참 동안 자기 자신과 대화한다.**

이전 LLM은 "다음 토큰을 잘 예측"하는 게임이었다. o1은 한 단계 더 나아갔다. **답을 출력하기 전에 hidden chain-of-thought 토큰을 잔뜩 만들고**, 거기서 추론을 다듬은 뒤에 비로소 답을 낸다. 더 많은 토큰을 쓰면 — 즉 더 오래 "생각"하면 — 더 정답에 가까워진다. 이게 **test-time compute scaling**이다.

이 한 줄짜리 아이디어가 2025~2026년 모델 지형을 통째로 바꿨다. o3가 GA로 풀렸고, DeepSeek R1이 오픈 가중치로 같은 곡선을 재현해버렸고, Anthropic은 "extended thinking"을 Sonnet/Opus 4.5에 토글로 박아 넣었고, Google은 Gemini 2.5 Pro와 Deep Think를 GA로 풀었다. Alibaba의 QwQ·QwQ-Plus는 오픈 가중치 진영에서 두 번째 큰 흐름을 만들었다.

> **2024년의 질문: "어떤 모델을 쓸 것인가?"**

> **2026년의 질문: "이 작업에 thinking을 켤 것인가, 끌 것인가, 얼마나?"**

이 글은 추론 모델의 2026년 현재 상태를 정리한다. **6개 가족 × thinking 동작 × 벤치마크 × 가격**을 한 장에 펼친다. 그리고 진짜 중요한 질문 — "언제 추론 모델이 필요하고, 언제 빠른 비추론 모델이 더 나은가?" — 에 솔직하게 답한다.

1장 · Test-time compute란 무엇인가

전통적 LLM 스케일링은 **세 축**이었다.

| 축 | 의미 |

| --- | --- |

| 파라미터 | 모델을 더 크게 |

| 학습 데이터 | 더 많이 먹이기 |

| 학습 컴퓨트 | 더 오래 학습 |

o1이 추가한 네 번째 축이 **test-time compute**다. **추론(inference) 단계에서 모델이 쓰는 토큰 수를 늘리면 정답률이 올라간다.**

정확도

R1 ────│ ╱── thinking ON

│ ╱

base ──│ ╱

│ ╱──── thinking OFF (즉답)

└────────────────────────▶ 추론 시 토큰 예산

이 곡선은 모델마다 다르고, 문제 종류마다 다르다. 수학·코딩·증명 같은 verifiable 문제에서는 곡선이 가파르다. 창작·요약·잡담에서는 거의 평평하다 — 더 오래 생각해도 별로 안 좋아진다.

thinking 토큰의 정체

추론 모델이 "생각"하는 동안 만드는 토큰은 보통 **세 가지 중 하나**다.

1. **숨겨진(hidden) reasoning** — o1·o3·o4가 채택. 사용자에게 raw chain-of-thought를 안 보여준다. 요약만 보여준다.

2. **보이는(visible) reasoning** — DeepSeek R1·QwQ가 채택. `<think>...</think>` 블록 안에 추론 과정을 그대로 노출.

3. **토글 가능** — Claude Sonnet/Opus 4.5의 extended thinking. 요청별로 켜고 끄고, 예산 조절 가능.

**hidden이냐 visible이냐는 단순한 UX 차이가 아니다.** visible은 디버깅·교육·신뢰 검증이 쉽지만, **모방·증류**에 취약하다. DeepSeek R1이 오픈으로 풀리자마자 수많은 distillation 시도가 나온 것도 그래서다.

2장 · RLVR — 추론 모델을 만드는 레시피

추론 모델은 base 모델 위에 **두 가지 layer**를 더 얹어서 만든다.

2-1. 긴 CoT를 만드는 능력

먼저 모델이 **체인 오브 사고를 길게 만들 수 있어야** 한다. base 모델은 보통 짧고 단정한 답을 좋아한다. 긴 CoT 데이터로 SFT(supervised fine-tuning)를 해서 "생각을 길게 펼치는 습관"을 가르친다.

2-2. RLVR — Reinforcement Learning with Verifiable Rewards

핵심은 두 번째 레이어다. **RLVR**은 자동으로 채점 가능한 보상을 쓴다.

RLVR 루프:

1. 문제(수학·코딩·논리)를 모델에 준다

2. 모델이 긴 CoT + 최종 답을 만든다

3. 검증기(verifier)가 채점한다:

- 수학: 정답과 일치하나?

- 코딩: 테스트가 통과하나?

- 형식 추론: 증명이 형식적으로 맞나?

4. 통과한 trajectory에 +1, 실패한 trajectory에 0 (또는 음수)

5. PPO/GRPO 같은 policy gradient로 모델 업데이트

6. 반복

핵심은 **"검증 가능한 보상"**이다. RLHF(인간 피드백)는 사람이 비싸고 일관성도 떨어진다. RLVR은 **컴파일러·테스트러너·수학 채점기**가 채점한다 — 무한히 싸고, 일관성도 완벽하다.

> **DeepSeek R1 논문(Jan 2025)의 충격**: 거의 cold-start에서 RLVR만으로 R1-Zero를 만들었다. 모델이 스스로 "아 잠깐, 다시 생각해보자" 같은 self-correction 패턴을 발견했다 — emergent reasoning. 사람이 가르치지 않았는데.

RLVR이 잘 통하는 영역

| 영역 | 검증 방식 | RLVR 효과 |

| --- | --- | --- |

| 수학 | 정답 일치 | 매우 큼 (AIME 대폭 상승) |

| 코딩 | 테스트 통과 | 큼 (LiveCodeBench·SWE-bench) |

| 논리 퍼즐 | 형식 검증 | 큼 |

| 도구 사용 | 의도된 도구 호출 | 중간 |

| 글쓰기·요약 | 인간 평가 필요 | 작음 (verifier가 약함) |

| 안전성·정직성 | 인간/모델 평가 | 작음 (RLHF가 더 적합) |

**그래서 추론 모델은 모든 작업에 좋은 게 아니다.** verifier가 강한 영역에서만 압도적이다.

3장 · OpenAI — o3 / o3-pro / o4

OpenAI는 추론 모델 카테고리를 만든 회사답게, 2026년 현재 가장 다양한 라인업을 갖고 있다.

3-1. o3 (GA, 2025 Q2~)

2024년 12월에 평가 결과만 공개되고, 2025년 4월에 GA. **추론 effort dial**(low·medium·high)을 제공한다 — 같은 모델, 다른 thinking budget. high는 한 응답에 분 단위가 걸릴 수도 있다.

**특징**:

- 도구 사용을 추론 도중에 한다 ("agentic reasoning") — 추론 중에 web 검색하고, 코드 인터프리터를 부르고, 그 결과를 다시 추론에 먹인다.

- hidden CoT — 사용자에게 raw 추론은 안 보여준다. 요약(summary)만.

- ARC-AGI에서 처음으로 사람 수준에 근접 (high effort 기준).

3-2. o3-pro

"진짜 어려운" 문제용. 같은 모델을 더 오래 굴린다. 가격이 한 자릿수 배 비싸고, 응답까지 수 분 걸린다. **연구·심층 분석·복잡한 디버깅**에 쓴다.

3-3. o4 / o4-mini

2025년 후반에 풀린 다음 세대. **멀티모달 추론**(이미지·다이어그램을 보고 추론), **도구 사용의 추론 통합**이 더 매끄럽다. o4-mini는 빠르면서도 o3에 가까운 코딩 점수를 낸다 — 코딩 워크로드의 새 디폴트.

| 모델 | thinking | 도구 in-loop | 강점 |

| --- | --- | --- | --- |

| o3 | hidden, 3단계 dial | yes | 일반 추론, ARC-AGI |

| o3-pro | hidden, 매우 김 | yes | 진짜 어려운 문제 |

| o4 | hidden, 멀티모달 | yes | 복잡한 멀티스텝 |

| o4-mini | hidden, 짧음 | yes | 코딩, 비용 효율 |

4장 · DeepSeek — R1 / R1-0528 / V3.1 reasoner

**오픈 가중치 진영의 폭탄**. 2025년 1월에 R1이 풀리자 업계가 멈췄다.

4-1. DeepSeek R1 (Jan 2025, MIT license)

- 671B MoE (활성 37B). base는 V3.

- **RLVR만으로** 추론 능력을 키운 R1-Zero, 그 다음 SFT를 살짝 섞은 R1.

- `<think>...</think>` 블록 안에 raw CoT를 그대로 노출 — 디버깅·연구에 천국, 상용 모델 입장에선 악몽 (모방 위험).

- AIME·MATH·코딩에서 o1과 비슷한 곡선.

- 가격은 closed 모델 대비 한 자릿수 배 싸다.

4-2. R1-0528 (May 2025 업데이트)

같은 가중치 사이즈를 유지하면서 RL을 더 돌렸다. **복잡한 코딩과 긴 컨텍스트 추론**에서 한 단계 더 올라갔다. SWE-bench Verified 점수가 의미 있게 상승.

4-3. V3.1 reasoner (2026 초)

V3.1 base 위에 thinking을 토글로 박은 통합 모델. Claude 4.5처럼 **하나의 가중치로 thinking on/off** — 단 thinking on 때만 R1 스타일 `<think>` 블록을 만든다. 오픈 가중치 진영에서 처음으로 "토글 가능한 추론"이 등장했다.

**왜 DeepSeek가 중요한가**: 추론 모델이 더 이상 closed 모델의 독점적 자산이 아니라는 걸 보여줬다. 누구나 8xA100·H100으로 self-host 가능. **regulated industry·on-prem 요구사항이 있는 곳에선 사실상의 디폴트**.

5장 · Anthropic — Claude Sonnet 4.5 / Opus 4.5 extended thinking

Anthropic은 다른 길을 갔다. **별도 모델군이 아니라, 같은 모델의 상태(mode)**.

5-1. extended thinking이란

Sonnet 4.5·Opus 4.5에 **요청별 토글**이 있다. API 호출에 `thinking` 파라미터를 켜고 토큰 예산을 지정한다. 모델은 그 예산만큼 추론 블록을 만들고, 그 다음에 답을 낸다.

요청:

thinking: { type: "enabled", budget_tokens: 16000 }

응답:

- thinking 블록 (예산 안에서 만큼)

- 최종 답변 (assistant 메시지)

5-2. 특징

- **하나의 가중치, 두 가지 모드** — 운영이 단순하다.

- **interleaved thinking** — 추론 도중에 tool을 부르고, 결과를 받아 추론을 이어간다.

- thinking 내용은 API 응답에 그대로 들어온다 (raw text). hidden은 아니다. 단, 다음 turn에 자동으로 압축된다.

- 코딩·SWE-bench Verified에서 강점. Sonnet 4.5 + extended thinking은 실제 PR 자동화에서 매우 강하다.

5-3. budget 디스턴스 감각

| 작업 | 권장 budget |

| --- | --- |

| 즉답 가능한 질문 | thinking off |

| 한두 단계 추론 | 2k~4k |

| 코딩 패치(작은) | 8k~16k |

| 복잡한 버그 디버깅 | 32k~64k |

| 수학·증명·연구 | 64k 이상 |

**원칙: budget은 작업의 어려움에 비례시킨다.** thinking을 무조건 켜는 게 아니다.

6장 · Google — Gemini 2.5 Pro / Deep Think

Gemini 2.5 Pro는 처음부터 "추론이 내장된" 일반 모델로 풀렸다.

6-1. Gemini 2.5 Pro

- thinking이 디폴트 ON. **dynamic thinking** — 모델이 문제 난이도를 보고 thinking 길이를 알아서 정한다.

- 백만 토큰 컨텍스트 + thinking — 긴 문서 위에서의 추론에 강하다.

- 멀티모달 — 비디오·오디오·이미지를 추론에 섞을 수 있다.

6-2. Deep Think (Gemini 2.5)

진짜 어려운 문제용. **병렬 thinking** — 여러 가설을 동시에 굴리고 합친다. **IMO 2025**(국제수학올림피아드)에서 처음으로 인간 금메달 수준에 도달한 모델로 화제. 2025년 후반에 GA.

| 모델 | thinking | 컨텍스트 | 강점 |

| --- | --- | --- | --- |

| Gemini 2.5 Flash | dynamic, 짧음 | 1M | 빠른 추론, 비용 효율 |

| Gemini 2.5 Pro | dynamic, 김 | 1M | 일반, 멀티모달 |

| Gemini 2.5 Deep Think | 병렬, 매우 김 | 1M | 어려운 수학·증명 |

7장 · Alibaba — Qwen QwQ / QwQ-Plus

**오픈 가중치 진영의 두 번째 큰 흐름**. R1과 함께 오픈 추론 모델의 양대 축.

- **QwQ-32B** (2024년 11월) — 32B의 오픈 모델이 추론에서 o1-preview에 근접. 충격.

- **QwQ-Plus** (2025) — 다음 세대. 코딩과 수학 모두에서 한 단계 위.

- **Qwen3 reasoner** — 더 큰 사이즈, Apache 2.0 라이센스.

QwQ는 R1과 마찬가지로 **visible CoT**. self-host 친화적. 한·일·중·영 다국어에 강하다 — 아시아권 사내 사용에서 선호도가 높다.

8장 · xAI — Grok 3 / 4 Heavy thinking

Grok 3 thinking·Grok 4·Grok 4 Heavy는 thinking 모드를 갖고 있다.

- **Grok 3 Thinking** (2025 초) — chain-of-thought를 길게 굴리는 모드. X(Twitter) 데이터로 학습한 영향으로 "최신 뉴스"에 강함.

- **Grok 4 / 4 Heavy** (2025 후반) — Heavy는 multi-agent thinking, 즉 여러 인스턴스가 병렬로 추론하고 합친다. **HLE(Humanity's Last Exam)** 같은 매우 어려운 평가에서 최상위 점수.

| 모델 | thinking | 특징 |

| --- | --- | --- |

| Grok 3 thinking | visible 일부 | X 실시간 데이터 |

| Grok 4 | hidden, 긴 | 일반 |

| Grok 4 Heavy | 병렬 multi-agent | HLE 최상위 |

9장 · 비교 매트릭스 — 한 장으로

벤치마크 숫자는 출시·시간에 따라 계속 바뀐다. 아래는 **상대적 위치**를 보여주는 스냅샷이다.

9-1. 추론 모드 동작

| 모델 | thinking 형식 | budget 제어 | 도구 in-thinking |

| --- | --- | --- | --- |

| OpenAI o3 | hidden(요약만) | low/med/high | yes |

| OpenAI o3-pro | hidden, 매우 김 | 자동(매우 큼) | yes |

| OpenAI o4 / o4-mini | hidden | low/med/high | yes |

| DeepSeek R1 / 0528 | visible (\<think\>) | 자동 | 일부 |

| DeepSeek V3.1 reasoner | visible, 토글 | API 토글 | 일부 |

| Claude Sonnet 4.5 | visible, 토글 | 토큰 budget 지정 | yes (interleaved) |

| Claude Opus 4.5 | visible, 토글 | 토큰 budget 지정 | yes (interleaved) |

| Gemini 2.5 Pro | hidden, dynamic | dynamic 자동 | yes |

| Gemini 2.5 Deep Think | hidden, 병렬 | dynamic 자동 | yes |

| Qwen QwQ / QwQ-Plus | visible (\<think\>) | 자동 | 일부 |

| Grok 4 / 4 Heavy | hidden / 병렬 | 모드 선택 | yes |

9-2. 핵심 벤치마크 위치(2026 초 기준, 상대적 표시)

| 모델 | AIME 류 수학 | LiveCodeBench | SWE-bench Verified | 비용/지연 |

| --- | --- | --- | --- | --- |

| o3 (high) | 최상위 | 최상위 | 최상위권 | 비쌈, 느림 |

| o3-pro | 최상위 | 최상위 | 최상위권 | 매우 비쌈, 매우 느림 |

| o4-mini | 상위 | 상위 | 상위 | 보통, 보통 |

| R1-0528 | 상위 | 상위 | 상위권 | 저렴(open), 보통 |

| Sonnet 4.5 thinking | 상위 | 최상위 | 최상위 | 보통, 보통 |

| Opus 4.5 thinking | 최상위 | 최상위 | 최상위 | 비쌈, 보통 |

| Gemini 2.5 Pro | 상위 | 상위 | 상위 | 보통, 보통 |

| Deep Think | 최상위(IMO) | 상위 | 상위 | 비쌈, 매우 느림 |

| QwQ-Plus | 상위 | 상위 | 중상위 | 저렴(open), 보통 |

| Grok 4 Heavy | 최상위 | 상위 | 상위 | 비쌈, 느림 |

> 절대 수치는 출시·평가 방식에 따라 달라진다. 결정은 **자기 평가 스위트**로 하라 — 자기 데이터·자기 작업·자기 SLA 위에서.

10장 · 가격과 thinking-token

추론 모델의 비용 구조는 비추론 모델과 다르다. **출력 토큰 안에 thinking 토큰이 포함**되고, 그게 보통 답변 토큰의 수~수십 배다.

요청: "이 코드의 버그를 찾아줘 (200 토큰)"

응답: [thinking: 8,000 토큰] ← 출력 가격으로 청구됨

[답변: 600 토큰] ← 출력 가격으로 청구됨

총 비용 = 입력(200) + 출력(8,600)

**의미**: thinking budget 자체가 가격이다. 작은 작업에 thinking을 켜면 평소의 10~50배 비용이 든다.

10-1. 모델별 대략적 1M 토큰 출력 단가(상대적 위치)

가격은 자주 바뀐다. 아래는 **상대 비교용**이다 — 실제 금액은 각 제공자 공식 페이지에서 확인.

| 모델 | 입력/1M | 출력/1M | thinking이 출력 포함? |

| --- | --- | --- | --- |

| o3 | 보통~높음 | 매우 높음 | yes |

| o3-pro | 매우 높음 | 매우 매우 높음 | yes |

| o4-mini | 낮음~보통 | 보통 | yes |

| R1 (DeepSeek API) | 매우 낮음 | 낮음 | yes |

| Sonnet 4.5 thinking | 보통 | 높음 | yes (thinking이 출력으로 카운트) |

| Opus 4.5 thinking | 높음 | 매우 높음 | yes |

| Gemini 2.5 Pro | 보통 | 높음 | yes |

| Deep Think | 높음 | 매우 높음 | yes |

| QwQ-Plus (Alibaba API) | 매우 낮음 | 낮음 | yes |

| Grok 4 Heavy | 높음 | 매우 높음 | yes |

`R1·QwQ` 같은 오픈 모델은 **self-host하면 0**(인프라 비용만). 대량·반복 작업에선 압도적이다.

10-2. thinking budget 가이드라인

| 작업 종류 | 권장 |

| --- | --- |

| FAQ·요약·번역 | thinking off (비추론 모델로) |

| 짧은 코드 스니펫 | thinking off 또는 minimal |

| 일반 버그 픽스 | thinking low/4k |

| 복잡한 디버그 | thinking medium/16k |

| 어려운 수학·증명 | thinking high/64k+ |

| 깊은 연구·심층 분석 | o3-pro·Deep Think·Grok 4 Heavy |

11장 · 언제 추론 모델이 진짜로 필요한가

추론 모델은 만능이 아니다. **켜야 할 때**가 분명히 있고, **꺼야 할 때**가 더 많다.

11-1. 추론 모델이 빛나는 경우

1. **수학·논리·증명** — 다단계 추론이 가치를 만드는 곳.

2. **복잡한 코딩** — 큰 리포 위에서 여러 파일을 함께 보고 일관된 변경. SWE-bench의 본질.

3. **에이전트 계획** — 어떤 도구를 어떤 순서로 부를지 모르는 새 작업.

4. **디버깅** — 가설을 세우고, 증거를 모으고, 반증하기.

5. **연구·분석** — 트레이드오프·반례·반박 가능성을 챙겨야 하는 작업.

6. **시험 같은 마지막 경연** — IMO·AIME·HLE 같은 "한 번에 맞춰야 하는" 문제.

11-2. 추론 모델이 손해인 경우

1. **즉답 가능한 사실 조회** — "오늘이 며칠?"에 16k thinking 토큰을 쓸 이유 없다.

2. **고볼륨 분류·태깅** — 한 건당 비용이 곱해진다.

3. **UI 응답성이 중요한 채팅** — thinking은 느리다. 사용자가 떠난다.

4. **창작 글쓰기** — verifier가 약하다. 일반 모델이 더 다양하고 자연스럽다.

5. **잡담·감정 대화** — overthinking은 어색함.

6. **이미 정해진 형식의 보고서** — 템플릿 위에서 채워 넣을 뿐.

> **원칙: thinking은 비용이다. 그 비용을 정당화하는 정답률 상승이 있을 때만 켠다.**

11-3. 라우팅 패턴

요청 들어옴

복잡도 분류기 (싸고 빠른 모델, 예: Haiku·Flash·4o-mini)

├── "simple" → 빠른 비추론 모델 (즉답)

├── "medium" → 추론 모델 low budget

└── "hard" → 추론 모델 high budget 또는 pro/Heavy

이게 2026년 production AI 시스템의 디폴트 구조다. **모든 요청에 추론 모델을 쓰는 건 비용·지연 자살.**

12장 · 정확도·비용·지연의 삼각 트레이드오프

같은 문제를 같은 정답률로 풀어도, **비용·지연이 다르면 다른 시스템**이다.

12-1. 세 축 시각화

정확도 ▲

╱│╲

╱ │ ╲ ← Pareto frontier

╱ │ ╲

────────●───┼───●─────

비싸 │ 느림

지연

**Pareto frontier**: 한 축을 더 가지려면 다른 축을 포기해야 한다. o3-pro는 정확도·비용·지연 중에서 **정확도만** 산다. R1 self-host는 비용을 산다. Haiku/Flash는 지연을 산다.

12-2. 어떤 점을 살 것인가

| 제품 특성 | 추천 점 |

| --- | --- |

| 인터랙티브 채팅(\<2s) | 비추론 모델 또는 thinking minimal |

| 비동기 에이전트(분 단위 OK) | thinking medium/high |

| 배치 분석(밤새 OK) | 가장 정확한 모델, 비용만 본다 |

| 사내·온프렘 강제 | 오픈 가중치(R1·QwQ) |

| 고정밀 1회성 결정 | Pro/Heavy/Deep Think |

12-3. budget을 동적으로 — 점진적 thinking

진보된 패턴: **틀리면 budget을 늘려서 재시도**한다.

1. thinking 2k로 답을 받는다

2. self-consistency: 같은 답이 안정적인가?

3. 안정적이면 → 끝

4. 불안정하면 → 4k로 재시도

5. 그래도 불안정 → 16k 또는 다른 모델

이 escalation 패턴은 평균 비용을 크게 낮춘다 — 쉬운 문제는 싸게, 어려운 문제만 비싸게.

13장 · 오픈 vs 클로즈드 추론 사다리

2026년의 추론 모델 지형을 **오픈/클로즈드 축**으로 그리면:

클로즈드 (closed-weights)

o3-pro · Opus 4.5 thinking · Deep Think · Grok 4 Heavy

│ ← "최강"이지만 비싸고 가둠

o3 · Sonnet 4.5 thinking · Gemini 2.5 Pro · Grok 4

│ ← 일반 작업의 표준

o4-mini · Gemini 2.5 Flash · Grok 3 thinking

│ ← 빠른 추론

─────────┼─────────────────────────── 가격 / latency

QwQ-Plus · Qwen3 reasoner

DeepSeek R1-0528 · V3.1 reasoner

오픈 (open-weights, self-host 가능)

오픈을 고르는 이유

- **데이터가 밖으로 나가면 안 됨** — 의료·금융·국방·정부.

- **대량 반복 작업** — 토큰당 비용이 0이 된다.

- **모델을 더 파인튜닝** — 도메인에 맞게.

- **재현 가능성·감사** — 가중치가 있으면 결정의 출처가 추적 가능.

클로즈드를 고르는 이유

- **최고 성능** — 일부 작업에선 1~3%가 결정적.

- **운영을 외주** — 모델 호스팅·업데이트·안전성.

- **멀티모달 통합** — 이미지·비디오·오디오·도구가 한 API 안에서.

- **빠른 모델 회전** — 최신 frontier에 즉시 액세스.

**2026년 현실**: 진지한 조직은 **둘 다** 쓴다. 민감한 데이터는 오픈 self-host, 공개 가능한 일반 작업은 클로즈드 API. 라우팅이 가장 어려운 결정이다.

14장 · 추론 모델 다루기 — 실전 팁

14-1. 프롬프트는 짧게, 컨텍스트는 풍부하게

추론 모델은 **자기 자신과 생각하는 게 일**이다. 프롬프트에서 "step 1: ... step 2: ..." 같은 강제 단계 분리는 오히려 방해다. **목표만 명확히, 제약만 분명히** 주고 나머지는 모델이 결정하게 둔다.

14-2. CoT 강제는 비추론 모델에서만

"think step by step"은 비추론 모델에서 도움이 됐다. 추론 모델에선 **그 토큰이 thinking 안에서 이미 일어난다.** 명시적으로 또 시키면 thinking이 중복되거나 짧아진다. 빼라.

14-3. 도구 사용은 모델에 따라 다르다

- o3/o4·Sonnet 4.5·Gemini 2.5 Pro: **interleaved thinking** — 도구 결과가 추론에 자연스럽게 섞인다.

- R1·QwQ: 도구 통합이 약하다. 외부 ReAct 루프로 보강한다.

14-4. self-consistency

**같은 질문을 N번 부르고 다수결**. 추론 모델에서 특히 효과 큼. 비용은 N배지만 정답률은 의미 있게 올라간다. 의료·금융 같은 고위험 결정에 유용.

14-5. thinking 트레이스를 로깅하라 (가능한 곳에서만)

R1·QwQ·Claude처럼 visible 추론을 주는 모델은 **로그로 남겨라**. 디버깅·개선·평가의 금광이다. 단, **사용자에게 그대로 보여주면 위험**할 수 있다 (잘못된 가설을 사실처럼 보일 수 있음).

14-6. 캐시 활용

system prompt가 길면 thinking이 그 위에서 일어난다. **prompt caching**(Anthropic·OpenAI·Gemini 모두 지원)으로 입력 토큰 가격을 90%까지 줄일 수 있다. 단, thinking 토큰은 캐시되지 않는다 — 매번 다시 생성된다.

에필로그 — 두 줄 요약과 다음 글

이 글의 두 줄 요약:

1. **추론 모델은 모든 작업에 좋은 게 아니다 — 검증 가능한 문제에서만 압도적이다.**

2. **2026년의 결정은 "어떤 모델"이 아니라 "어떤 모델 × 어떤 thinking 모드 × 어떤 라우팅"이다.**

12개 항목 체크리스트

1. 추론을 켤지 끌지를 작업별로 결정하는가?

2. thinking budget을 작업 난이도에 비례시키는가?

3. 라우터(싸고 빠른 분류기 + 비싼 추론 모델)가 있는가?

4. self-consistency를 고위험 결정에 쓰는가?

5. thinking이 출력 토큰으로 카운트된다는 걸 비용 모델에 반영했는가?

6. 도구 사용 패턴이 interleaved를 잘 활용하는가?

7. visible CoT 모델의 추론을 로깅하는가?

8. 자기 데이터로 평가 스위트를 가졌는가? (벤더 벤치마크에 의존하지 않는가?)

9. 오픈 가중치 옵션을 검토했는가 (regulated·high-volume인 경우)?

10. prompt caching으로 입력 비용을 줄였는가?

11. CoT 강제 ("think step by step")를 추론 모델에서 빼는가?

12. 사용자에게 raw 추론을 노출하지 않게 막았는가?

안티패턴 10가지

1. **모든 요청에 추론 모델** — 비용·지연 자살.

2. **CoT 프롬프트 강제** — 추론 모델에선 역효과.

3. **thinking budget을 디폴트 최대** — 비용 폭탄.

4. **벤더 벤치마크만 보고 결정** — 자기 작업과 다르다.

5. **visible 추론을 사용자에게 그대로 노출** — 잘못된 가설을 사실처럼 보임.

6. **self-consistency를 모든 곳에서** — 비용 N배.

7. **오픈/클로즈드 둘 중 하나만** — 라우팅이 답.

8. **thinking 토큰을 모니터링 안 함** — 비용 트래킹 불가능.

9. **민감 데이터를 외부 추론 API로** — 컴플라이언스 위반.

10. **추론 모델을 채팅 UX에 그대로** — 1분 기다리는 사용자는 없다.

다음 글 예고

다음 글 후보: **추론 모델 평가 스위트 — 자기 데이터로 thinking을 측정하기**, **에이전트 × 추론 모델 — 도구 사용과 thinking의 통합 패턴**, **오픈 추론 모델 self-host 가이드 — vLLM·SGLang·TGI 비교**.

> "더 큰 모델이 아니라 더 잘 생각하는 모델 — 그 다음에는, 언제 생각하지 말지를 아는 모델."

— 추론 모델 2026 가이드, 끝.

참고 / References

- OpenAI, "Learning to reason with LLMs (o1)" — https://openai.com/index/learning-to-reason-with-llms/

- OpenAI, "Introducing o3 and o4-mini" — https://openai.com/index/introducing-o3-and-o4-mini/

- OpenAI, "OpenAI o3-mini" — https://openai.com/index/openai-o3-mini/

- DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948) — https://arxiv.org/abs/2501.12948

- DeepSeek, "DeepSeek-R1-0528 release notes" — https://api-docs.deepseek.com/news/news250528

- Anthropic, "Claude's extended thinking" — https://www.anthropic.com/news/visible-extended-thinking

- Anthropic, "Claude Sonnet 4.5" — https://www.anthropic.com/news/claude-sonnet-4-5

- Anthropic Engineering, "Extended thinking tips" — https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking

- Google DeepMind, "Gemini 2.5: Our most intelligent AI model" — https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

- Google DeepMind, "Try Deep Think in the Gemini app" — https://blog.google/products/gemini/gemini-2-5-deep-think/

- Alibaba Qwen, "QwQ-32B: Reflect deeply on the boundaries of the unknown" — https://qwenlm.github.io/blog/qwq-32b-preview/

- Alibaba Qwen, "QwQ-Plus / Qwen3 reasoning" — https://qwenlm.github.io/blog/qwen3/

- xAI, "Grok 3 Beta" — https://x.ai/news/grok-3

- xAI, "Grok 4 and Grok 4 Heavy" — https://x.ai/news/grok-4

- Kimi/Moonshot, "Kimi k1.5: Scaling RL with LLMs" (RLVR 비교 참고) — https://arxiv.org/abs/2501.12599

- ARC Prize, "ARC-AGI-1 Leaderboard" — https://arcprize.org/

- SWE-bench Verified leaderboard — https://www.swebench.com/

- LiveCodeBench — https://livecodebench.github.io/

- HLE (Humanity's Last Exam) — https://lastexam.ai/

- AIME 2024/2025 evaluation discussion — https://artofproblemsolving.com/community/c3416_2024_aime_i

- Lilian Weng, "Why we think" — https://lilianweng.github.io/posts/2025-05-01-thinking/

현재 단락 (1/295)

2024년 9월, OpenAI는 o1-preview를 던졌다. 모델 자체는 크지 않았다. 새로운 건 한 가지였다 — **모델이 답하기 전에 한참 동안 자기 자신과 대화한다.**

작성 글자: 0원문 글자: 13,121작성 단락: 0/295