Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

프롤로그 — 필드가 몇 개의 진지한 하니스로 정리됐다

2023년의 AI 코딩 도구 시장은 카오스였다. 매주 새 익스텐션이 나왔고, 데모는 화려했고, 실무에서 살아남는 건 거의 없었다. 2026년 봄의 풍경은 다르다. **필드가 정리됐다.** 진지하게 프로덕션 코드를 맡길 만한 "하니스(harness)"는 이제 손에 꼽는다.

여기서 하니스라는 단어를 의도적으로 쓴다. 우리가 비교하는 건 모델이 아니다. Claude, GPT, Gemini는 다 좋다. 우리가 비교하는 건 **모델을 코드베이스·터미널·CI에 연결하는 런타임** — 컨텍스트를 어떻게 모으고, 툴을 어떻게 호출하고, 변경을 어떻게 적용하고, 안전장치를 어디에 두는가다. 같은 Claude Opus를 써도 Claude Code와 Cursor와 Aider는 전혀 다른 경험을 준다. 하니스가 차이를 만든다.

이 글은 커리어 생존기가 아니다. "AI가 개발자를 대체하느냐" 같은 질문은 다루지 않는다. 이건 **실무자의 바이어 가이드**다. 6개 도구 — Claude Code, Cursor, GitHub Copilot, OpenAI Codex, Aider, OpenClaw — 를 같은 축으로 정면 비교하고, 어떤 상황에 어떤 도구를 써야 하는지, 그리고 무엇보다 **당신 코드베이스에서 직접 검증하는 방법**을 제시한다.

왜 이 6개인가. 기준은 단순하다. (1) 2026년 봄 현재 실제로 유지보수되고 업데이트되는가, (2) 토이가 아니라 프로덕션 코드를 맡길 만한 자율성이 있는가, (3) 서로 다른 워크플로를 대표하는가. 이 셋을 만족하는 도구를 추렸다. Windsurf, JetBrains AI, Cline, Antigravity, Kiro 같은 도구도 진지하지만, 이 6개가 "surface × 자율성 × 가격 모델"의 디자인 공간을 거의 다 덮는다. 6개를 이해하면 나머지는 변주로 읽힌다.

가격·기능 수치는 빠르게 바뀐다. 2026년 초만 해도 세 도구가 가격 모델을 바꿨다. 구체적 숫자는 "2026년 초 기준"으로 못 박고, 6개월 뒤에도 유효할 **의사결정에 영향을 주는 구조적 차이**에 집중하겠다. 숫자는 직접 확인하되, 구조를 이해하면 숫자가 바뀌어도 판단이 흔들리지 않는다.

> 모델은 상품이 되어 가고, 하니스가 해자가 되어 간다. 도구를 고른다는 건 모델이 아니라 워크플로를 고른다는 뜻이다.

1장 · 비교 축 — 무엇을 보고 골라야 하는가

도구를 "느낌"으로 고르면 3개월 뒤 후회한다. 다음 7개 축으로 분해해서 보라.

**축 1 · Surface (어디서 도는가)**

CLI인가, IDE인가, 클라우드인가. 이건 취향이 아니라 워크플로 결정이다. CLI 하니스는 터미널·Git·CI에 자연스럽게 붙고 스크립트로 묶기 쉽다. IDE 하니스는 인라인 보기·탭 보완·디버거 통합이 강하다. 클라우드 하니스는 비동기 — 티켓을 던지고 다른 일을 하다 PR을 받는다.

**축 2 · 자율성 레벨**

보완(다음 줄 제안) → 인라인 편집(블록 단위) → 에이전트(멀티파일, 멀티스텝, 스스로 테스트 실행) → 비동기 에이전트(사람 없이 끝까지). 도구마다 "기본 모드"가 다르다. Copilot은 보완에서 출발했고, Claude Code와 Codex는 에이전트에서 출발했다.

**축 3 · 컨텍스트 처리**

모델 컨텍스트 윈도가 크다는 것과 하니스가 그걸 잘 채운다는 건 다른 얘기다. 핵심 질문: 관련 파일을 어떻게 찾는가(임베딩 인덱스인가, grep인가, 둘 다인가), 큰 저장소를 어떻게 압축하는가, 긴 세션에서 컨텍스트를 어떻게 관리하는가. 2026년 초 기준 일부 하니스는 1M 토큰 윈도를 실험적으로 지원한다 — 약 2.5만~3만 줄을 청킹 없이 한 번에 본다.

**축 4 · 툴 / MCP 지원**

에이전트는 툴이 있어야 일한다. Bash, 파일 편집, Git은 기본. 그 위에 **MCP(Model Context Protocol)** 지원 여부가 갈린다. MCP는 외부 도구 — DB, 이슈 트래커, 브라우저, 사내 API — 를 표준 방식으로 붙이는 프로토콜이고, 2026년 현재 사실상 업계 표준이 됐다. MCP를 지원하면 생태계 전체를 빌려 쓴다.

**축 5 · 가격 모델**

세 가지 패턴이 있다. (a) 정액 구독 — 예측 가능, 헤비 유저에게 유리. (b) 토큰/크레딧 기반 — 쓴 만큼 낸다, 라이트 유저에게 유리하지만 변동성 큼. (c) 시트 기반 — 팀 단위. 2026년 초 기준 업계가 전반적으로 토큰 기반으로 이동 중이라 "월 얼마"라는 답이 점점 어려워졌다. 헤비 유저의 실제 월 비용을 반드시 추정하라.

**축 6 · 샌드박스 모델**

에이전트가 `rm -rf`를 칠 수 있는가? 권한 모델이 핵심이다. (a) 승인 게이트 — 위험한 명령마다 사람이 yes/no. (b) 샌드박스 — 격리된 환경(컨테이너·VM)에서 실행 후 diff만 보여줌. (c) 풀 액세스 — 빠르지만 위험. 클라우드 하니스는 보통 (b), CLI 하니스는 (a)와 (c)를 옵션으로 준다.

**축 7 · 생태계와 거버넌스**

SSO, 감사 로그, 팀 정책, 서드파티 확장, 커뮤니티 크기. 솔로 개발자에겐 사소하지만 50명 팀에겐 결정적이다. 누가 어떤 코드에 에이전트를 돌렸는지 추적되는가, 비용을 팀·프로젝트별로 쪼갤 수 있는가, 보안팀이 승인할 만한 데이터 처리 정책이 있는가. 이 질문에 답이 없으면 엔터프라이즈 도입은 막힌다.

**축을 어떻게 쓰는가**

이 7개를 체크리스트로 쓰지 마라 — 가중치를 매겨라. 솔로 IC라면 축 1·2·3·5가 중요하고 축 7은 거의 무의미하다. 50명 팀의 플랫폼 엔지니어라면 축 5·6·7이 결정적이고 축 2의 미세한 차이는 노이즈다. 같은 표를 봐도 역할에 따라 다른 도구가 1등이 된다. 그래서 "최고의 AI 코딩 도구" 같은 헤드라인은 의미가 없다 — 질문이 틀렸다.

이 7개 축을 머리에 넣고, 이제 도구를 하나씩 보자. 각 장은 같은 틀 — Surface, 강점, 자율성·샌드박스, 가격, 약점, 한 줄 요약 — 으로 정리한다. 틀을 고정해야 공정한 비교가 된다.

2장 · Claude Code — 터미널 네이티브 에이전트의 기준점

**Surface**: CLI 우선. 터미널에서 도는 에이전트이고, IDE 확장(VS Code 등)도 있지만 정체성은 CLI다.

**무엇을 잘하나**

Claude Code는 "에이전트가 기본"인 하니스의 기준점이다. 파일시스템·Git·Bash를 툴로 쥐고, 멀티파일 리팩터링과 대규모 코드베이스 탐색에 강하다. 2026년 초 기준 Claude Opus 4.6이 1M 토큰 컨텍스트를 처리한다 — 큰 저장소를 청킹 없이 통째로 읽는다는 뜻이고, "이 패턴이 어디서 깨지는지 다 찾아줘" 같은 작업에서 체감 차이가 크다.

MCP를 1급 시민으로 다룬다. 사내 DB, 이슈 트래커, 브라우저 자동화를 표준 프로토콜로 붙인다. 스킬(skill)·서브에이전트 개념으로 큰 작업을 작은 단위로 쪼개고, `CLAUDE.md` 같은 프로젝트 메모리로 컨벤션을 주입한다.

**자율성과 샌드박스**

승인 게이트가 기본 — 위험한 명령은 사람이 확인한다. 권한을 미리 허용 목록에 넣어 마찰을 줄일 수 있다. 신뢰가 쌓이면 더 풀어주고, 모르는 코드베이스에선 조여라.

**가격**

2026년 초 기준 Claude Pro 구독($20/월 수준)에 Claude Code가 포함되고, 헤비 유저용 Max 플랜($100/월, $200/월 수준)이 별도로 있다. 사용량이 많으면 상위 플랜이 사실상 필수다.

**약점**

순수 인라인 편집·탭 보완 경험은 IDE 네이티브 도구보다 약하다. 터미널이 1차 인터페이스라 GUI 디버거 통합을 기대하면 안 된다. 헤비하게 쓰면 비용이 빠르게 올라 상위 플랜으로 밀려난다 — 라이트 유저에겐 과한 선택일 수 있다.

**언제 안 쓰나**

일과의 대부분이 "한 파일 안에서 함수 몇 개 빠르게 짜기"라면 Claude Code는 오버킬이다. 그 루프는 IDE 탭 보완이 더 빠르다. Claude Code의 가치는 멀티파일·대규모·탐색형 작업에서 나온다 — 그런 작업이 적으면 다른 도구가 낫다.

**한 줄 요약**: 멀티파일 작업과 큰 저장소 탐색의 품질 기준점. 터미널 워크플로를 쓰는 사람에게 첫 후보.

3장 · Cursor — AI 네이티브 IDE의 속도

**Surface**: IDE. VS Code를 포크한 독립 에디터다.

**무엇을 잘하나**

Cursor의 정체성은 **속도**다. 탭 보완(다음 편집 예측)이 업계에서 가장 매끄럽고, 멀티파일 편집은 Agent/Composer 모드로 처리한다. 인라인으로 보면서 즉시 받아들이거나 거절하는 루프가 빠르다 — "에디터에서 손을 떼지 않는" 경험.

여러 백엔드 모델을 고를 수 있고, 코드베이스 임베딩 인덱스로 관련 파일을 찾는다. 일상적인 편집 — 함수 작성, 작은 리팩터링, 보일러플레이트 — 의 회전 속도가 핵심 강점이다.

**자율성과 샌드박스**

보완·인라인 편집이 스위트 스폿이지만 Agent 모드로 멀티스텝 자율 실행도 한다. 터미널 명령 실행은 승인 게이트를 거친다. CLI 하니스만큼 깊은 샌드박스 격리는 아니다.

**가격**

2026년 초 기준 개인 플랜은 Hobby(무료), Pro($20/월 수준), Pro+($60/월 수준), Ultra($200/월 수준)다. 다만 Cursor 스스로 "Agent를 매일 쓰면 월 60~100달러어치 사용량이 보통, 파워 유저는 200달러 이상"이라고 안내한다 — 정액으로 보고 들어왔다가 사용량 청구에 놀랄 수 있으니 주의.

**약점**

독립 에디터라 VS Code를 떠나야 한다(익숙하면 장점, 아니면 단점). 비동기 티켓 작업에는 약하다. 헤비 유저의 실제 비용이 표면 가격보다 높다 — 이게 가장 자주 듣는 불만이다.

**언제 안 쓰나**

"이슈를 던지고 자리를 뜨는" 비동기 워크플로가 주력이면 Cursor는 맞지 않는다. Cursor의 강점은 사람이 에디터 앞에 앉아 있을 때 나온다. 또 비용 변동성을 견디기 힘든 환경(예산이 빡빡한 팀)이라면 정액으로 예측되는 도구가 낫다.

**한 줄 요약**: 에디터 안에서의 속도가 최우선이라면 Cursor. 단, 실사용 비용을 미리 추정하라.

4장 · GitHub Copilot — 가성비와 통합

**Surface**: 멀티 IDE 확장. VS Code, JetBrains, CLI에 붙는다. 독립 앱이 아니라 "당신이 이미 쓰는 에디터" 위에 얹힌다.

**무엇을 잘하나**

Copilot은 보완에서 출발해 **agent mode(에이전트 모드)** 와 **coding agent(코딩 에이전트)** 로 확장됐다. 강점은 두 가지. 첫째, **가성비** — 가장 저렴한 진지한 옵션이다. 둘째, **GitHub 통합** — 이슈·PR·Actions와의 결합, 그리고 성숙한 엔터프라이즈 라이선싱·SSO·정책 관리.

coding agent는 GitHub 이슈를 할당하면 백그라운드에서 브랜치를 만들고 PR을 올리는 비동기 워크플로다. 팀이 이미 GitHub에 살고 있다면 마찰이 가장 적다.

**자율성과 샌드박스**

보완·인라인이 여전히 핵심이지만 agent mode로 멀티파일 작업, coding agent로 비동기 작업을 한다. 클라우드 에이전트는 격리 환경에서 실행 후 PR로 결과를 낸다.

**가격**

2026년 초 기준 Free(제한적), Pro($10/월 수준), Pro+($39/월 수준), Business($19/사용자/월 수준), Enterprise($39/사용자/월 수준). 단, 2026년 6월 1일부로 요청 기반 과금에서 사용량 기반 과금으로 전환된다고 안내됐으니 청구 구조 변경을 염두에 두라.

**약점**

에이전트 자율성의 "깊이"는 Claude Code나 Codex의 풀 에이전트 경험에 아직 못 미친다는 평이 많다. 멀티 IDE 확장이라 가장 공격적인 에이전트 워크플로보다는 "에디터 보강"에 무게가 있다.

**언제 안 쓰나**

"에이전트가 알아서 끝까지" 하는 가장 공격적인 자율 워크플로가 핵심 가치라면 Copilot의 에이전트 깊이가 아쉬울 수 있다. 또 GitHub를 안 쓰는 조직(GitLab·Bitbucket 중심)이라면 가장 큰 강점인 통합이 사라진다.

**한 줄 요약**: 이미 GitHub에 살고, 가성비와 엔터프라이즈 관리가 중요하면 Copilot. 팀의 안전한 기본값.

5장 · OpenAI Codex — CLI와 클라우드 양손잡이

**Surface**: CLI + 클라우드 + 데스크톱 앱. 오픈소스 CLI 도구, ChatGPT 구독에 묶인 클라우드 에이전트, 그리고 2026년 2월 출시된 macOS 데스크톱 앱까지 세 갈래다.

**무엇을 잘하나**

Codex의 강점은 **CLI와 클라우드를 한 흐름으로 묶는다**는 점이다. `codex cloud` 명령으로 터미널을 떠나지 않고 클라우드 태스크를 띄우고 분류하고, 활성·완료 태스크를 인터랙티브 피커로 본다. 태스크에 `--attempts`(1~4)를 줘서 best-of-N 실행을 요청할 수도 있다 — 같은 작업을 여러 번 돌려 제일 나은 걸 고른다.

2026년 초 기준 GPT-5.4가 네이티브 컴퓨터 사용 능력과 1M 컨텍스트 윈도 실험 지원을 갖췄고, 강화된 툴 사용·툴 검색으로 에이전트가 알맞은 도구를 더 효율적으로 찾는다. `codex remote-control`로 헤드리스·원격 제어 가능한 앱 서버를 띄우는 등 원격 워크플로도 다듬어졌다.

**자율성과 샌드박스**

에이전트가 기본. 로컬 CLI는 승인 게이트와 샌드박스 모드를 옵션으로 주고, 클라우드는 격리 환경에서 실행 후 결과를 낸다. `/goal` 워크플로로 장기 목표를 만들고 일시정지·재개·정리한다.

**가격**

2026년 초 기준 ChatGPT Plus·Pro·Business·Enterprise/Edu에 Codex가 포함되고, 한시적 Free·Go 접근도 있다. 다만 2026년 4월 2일부로 대부분의 Plus·Pro·Business·Enterprise 고객 대상 Codex 가격이 토큰 기반 크레딧으로 전환됐다 — 사용량 추적이 필수다.

**약점**

세 갈래 surface(CLI/클라우드/데스크톱)가 강점이자 학습 곡선이다. 토큰 기반 전환으로 비용 예측이 어려워졌다. OpenAI 생태계에 묶인다.

**언제 안 쓰나**

모델 벤더에 묶이기 싫다면 Codex는 맞지 않는다 — OpenAI 모델 전제다. 또 단순한 인라인 편집만 원하는데 CLI·클라우드·데스크톱 세 갈래의 개념을 다 익혀야 한다면 학습 비용이 과하다.

**한 줄 요약**: 비동기 클라우드 작업과 터미널 작업을 한 도구로 오가고 싶고, ChatGPT를 이미 쓴다면 Codex.

6장 · Aider — Git 퍼스트, 모델 중립

**Surface**: CLI. 터미널에서 도는 페어 프로그래밍 도구이고, 오픈소스다.

**무엇을 잘하나**

Aider의 철학은 **Git 퍼스트**다. 모든 변경을 의미 있는 단위로 자동 커밋한다 — 에이전트가 뭘 했는지 `git log`로 완벽히 추적되고, 마음에 안 들면 `git revert` 한 번이다. 이건 작은 디테일이 아니라 신뢰 모델 전체를 바꾼다.

두 번째 강점은 **모델 중립**이다. GPT, Claude, Gemini, 로컬 모델 — 무엇이든 붙인다. **architect 모드**가 특히 영리하다: 강한(비싼) 모델이 "어떻게 풀지"를 설계하고, 싸고 빠른 editor 모델이 그 설계를 구체적 파일 편집으로 번역한다. 2026년 워크플로 권장안은 GPT-5 architect + 저렴한 editor 조합이고, 멀티파일 리팩터링에서 단일 모델보다 오류가 측정 가능하게 줄고 비용은 30~50% 낮다.

watch 모드(코드 주석으로 지시), 프롬프트 캐싱, `/web`·`/voice`, `.aider.conf.yml` 설정 모델, 폴리글랏 리더보드 등 실무 기능이 탄탄하다. 오픈소스라 구독 비용이 없다 — 모델 API 비용만 낸다.

**자율성과 샌드박스**

인라인 편집 + 자동 커밋이 핵심 루프. 큰 자율 에이전트보다는 "추적 가능한 페어 프로그래머"에 가깝다. 안전장치는 Git 그 자체 — 모든 게 커밋되니 되돌리기 쉽다.

**가격**

도구 자체는 무료(오픈소스). 비용은 전적으로 모델 API 사용량. architect 모드가 비용을 크게 낮춰준다.

**약점**

MCP·서드파티 확장 생태계는 상업 도구보다 얇다. IDE 통합·GUI는 없다(CLI가 전부). 가장 공격적인 비동기 에이전트 워크플로에는 약하다.

**한 줄 요약**: Git 추적성과 모델 선택의 자유, 그리고 비용 통제가 최우선이면 Aider. 오픈소스 미니멀리스트의 선택.

7장 · OpenClaw — 메시징 인터페이스의 자율 에이전트

**Surface**: 메시징 앱. Signal, Telegram, Discord, WhatsApp 안의 챗봇으로 작동하고, 로컬에서 돈다. 오픈소스다.

**무엇을 잘하나**

OpenClaw는 이 목록에서 가장 결이 다른 도구다. 원래 코딩 전용 IDE 에이전트가 아니라 **범용 개인 AI 에이전트**다 — 2025년 11월 Clawdbot이라는 이름으로 처음 공개됐고, 2026년 초 두 번 개명(Moltbot → OpenClaw)을 거쳤다. PSPDFKit 창업자 Peter Steinberger가 만들었고, 2026년 초 GitHub 스타가 10만을 넘으며 현상이 됐다.

핵심 특징은 **자기 개선**이다. 원하는 작업을 위해 스스로 코드를 짜서 새 스킬을 만들고, 능동적 자동화를 구현하고, 사용자 선호의 장기 기억을 유지한다. coding-agent 스킬을 통해 코딩 작업도 한다. 외부 LLM(Claude, DeepSeek, OpenAI GPT 등)에 붙여 쓰는 구조라 모델 중립적이다.

진짜 매력은 **인터페이스**다. IDE도 터미널도 아닌 메신저에서 산다 — 출근길에 Signal로 "어제 그 버그 고쳐서 PR 올려줘"라고 보내는 식의 비동기·앰비언트 워크플로가 가능하다.

**자율성과 샌드박스**

높은 자율성을 지향한다 — "self-improving"이라 불리는 이유다. 로컬에서 돌기 때문에 샌드박스·권한 관리는 사용자가 직접 설계해야 한다. 자율성이 높은 만큼 신중한 셋업이 필요하다.

**가격**

오픈소스이고 로컬 실행. 도구 비용은 없고, 붙이는 LLM API 비용만 낸다.

**약점**

순수 코딩 하니스로서의 성숙도는 Claude Code·Codex·Cursor에 못 미친다 — 본질이 범용 어시스턴트다. 메시징 인터페이스는 빠른 인라인 코드 리뷰에 불편하다. 자율성이 높은 만큼 로컬 보안·권한 설계 부담이 크다. 2026년 초 기준 거버넌스 구조(비영리 재단)가 막 자리잡는 중이다.

**한 줄 요약**: 코딩만이 아니라 삶 전체를 자동화하는 앰비언트 에이전트를 원하고, 로컬 셋업을 직접 관리할 수 있으면 OpenClaw. 가장 실험적인 선택.

8장 · 거대 비교 표

7개 축으로 6개 도구를 한눈에. 모든 수치는 2026년 초 기준이며 빠르게 바뀐다.

|---|---|---|---|---|---|---|

| 비동기 티켓 작업 | 보통 | 약함 | 강함 (coding agent) | 강함 (cloud) | 약함 | 강함 (메신저) |

| 솔로 IC 적합도 | 높음 | 매우 높음 | 높음 | 높음 | 높음 | 중간 |

| 팀·거버넌스 적합도 | 높음 | 중간 | 매우 높음 | 높음 | 중간 | 낮음 |

| 비용 예측성 | 중간 | 낮음 | 중간 | 낮음 | 높음 (architect로 통제) | 높음 |

표만 보고 고르지 마라. 표는 후보를 좁히는 도구일 뿐, 결정은 다음 두 장에서 한다.

9장 · 결정 매트릭스 — 어떤 상황에 어떤 도구

도구는 "최고"가 없다. "이 상황에 맞는"이 있을 뿐이다.

**상황 1 · 솔로 IC, 일상 편집 중심**

에디터에서 손을 안 떼고 함수 짜고 작은 리팩터링을 빠르게 돌리는 게 일과의 80%라면 → **Cursor**. 단, 헤비 유저라면 월 비용을 미리 추정하라. 비용을 빡빡하게 통제하고 싶고 터미널이 편하면 → **Aider**(architect 모드).

**상황 2 · 솔로 IC, 큰 리팩터링·탐색 중심**

"이 패턴 어디서 깨지는지 다 찾아줘", "이 모듈 전체를 새 API로 마이그레이션해줘" 같은 멀티파일·대규모 작업이 많으면 → **Claude Code**. 1M 컨텍스트로 청킹 없이 본다. **Codex CLI**도 강력한 대안.

**상황 3 · 비동기 티켓 작업**

이슈를 던지고 다른 일 하다 PR을 받고 싶으면 → **GitHub Copilot coding agent**(이미 GitHub에 살 때) 또는 **OpenAI Codex cloud**. 메신저 기반 앰비언트 워크플로가 끌리면 → **OpenClaw**.

**상황 4 · 팀, 거버넌스가 중요**

SSO, 감사 로그, 시트 관리, 정책이 필요하면 → **GitHub Copilot**이 가장 안전한 기본값. Claude Code도 팀 적합도가 높다. Cursor는 가능하지만 비용 변동성을, OpenClaw는 거버넌스 성숙도를 따져라.

**상황 5 · 비용을 한 푼까지 통제**

구독 없이 모델 API 비용만, 그것도 architect 모드로 최소화하고 싶으면 → **Aider**. **OpenClaw**도 오픈소스·로컬이라 도구 비용은 0.

**상황 6 · 모델 선택의 자유가 필요**

특정 벤더에 묶이기 싫고 GPT·Claude·Gemini·로컬 모델을 자유롭게 바꾸고 싶으면 → **Aider** 또는 **OpenClaw**. 둘 다 모델 중립.

**현실적인 조합**

2026년 흔한 셋업은 단일 도구가 아니라 조합이다 — 일상 편집은 Cursor 또는 Copilot(IDE), 복잡한 멀티파일 작업은 Claude Code 또는 Codex(터미널). 도구 하나에 종교를 갖지 말고, 작업 유형에 맞춰 손을 바꿔라.

10장 · 당신 코드베이스에서 직접 평가하는 법

리뷰 글·벤치마크·리더보드는 출발점일 뿐이다. **당신 저장소에서의 성능이 유일하게 의미 있는 데이터**다. 다음 프로토콜로 1~2주 안에 검증하라.

**1단계 · 대표 태스크 5개를 고른다**

실제 백로그에서 뽑아라. 데모용 토이 문제가 아니라: (a) 작은 버그 수정 1개, (b) 새 기능 1개, (c) 멀티파일 리팩터링 1개, (d) 테스트 추가 1개, (e) 낯선 코드 영역 이해·설명 1개. 이 5개가 당신 일의 분포를 대표해야 한다.

**2단계 · 같은 태스크를 후보 2~3개로 돌린다**

9장에서 후보를 2~3개로 좁혔을 것이다. 같은 태스크, 같은 프롬프트, 같은 출발 커밋으로 각각 돌려라. 공정한 비교는 통제된 입력에서 나온다.

**3단계 · 정량 지표를 기록한다**

태스크당 측정: (a) 첫 시도 정확도(human 개입 없이 통과했나), (b) 벽시계 시간, (c) 토큰/비용, (d) 사람 수정 라운드 수, (e) 최종 diff의 깔끔함(불필요한 변경이 섞였나).

**4단계 · 정성 신호를 본다**

숫자가 못 잡는 것들: 컨벤션을 따르는가, 안전장치(테스트·타입·검증)를 스스로 추가하는가, 막혔을 때 솔직히 막혔다고 하는가 아니면 그럴듯한 거짓을 내는가, 컨텍스트 처리가 매끄러운가.

**5단계 · 마찰 비용을 계산한다**

승인 게이트가 너무 많아 흐름이 끊기는가? 너무 적어 불안한가? 셋업·설정·MCP 연결에 든 시간은? 도구를 매일 쓸 때의 누적 마찰이 일회성 인상보다 중요하다.

**6단계 · 결정하고, 3개월 뒤 재평가한다**

이 필드는 빠르다. "지금 최선"이 6개월 뒤에도 최선이라는 보장은 없다. 분기마다 짧게 재검증하라 — 5개 태스크 프로토콜이면 반나절이면 된다.

**평가 기록은 단순한 표로**

거창한 도구는 필요 없다. 스프레드시트 한 장이면 된다. 한 가지 흔한 함정만 피하라 — 첫인상에 휘둘리는 것. 도구 A가 첫 태스크를 화려하게 끝내면 나머지 4개를 후하게 보게 된다. 그래서 **5개를 다 돌린 뒤 한꺼번에 채점**하라. 평가 기록 골격은 이렇게 단순하다.

태스크 | 도구 | 첫시도통과 | 벽시계(분) | 비용($) | 수정라운드 | diff깔끔함(1-5) | 메모

T1버그 | A | Y | 4 | 0.12 | 0 | 5 | 컨벤션 따름

T1버그 | B | N | 9 | 0.21 | 2 | 3 | 무관한 변경 섞임

...

5개 태스크 × 후보 3개 = 15행. 다 채우면 패턴이 눈에 보인다 — 어떤 도구가 어떤 유형에서 강한지. 평균만 보지 말고 **분산**도 보라. 평균은 좋은데 가끔 크게 헛짚는 도구는 신뢰가 안 간다.

> 남의 벤치마크는 남의 코드베이스 얘기다. 반나절을 들여 당신 저장소에서 직접 재면, 6개월의 잘못된 도구 선택을 막는다.

에필로그 — 체크리스트 · 안티패턴 · 다음 글 예고

2026년 봄, AI 코딩 에이전트 필드는 정리됐다. 6개 도구는 각자 다른 워크플로를 위해 존재하고, "최고"는 없다. 당신 일의 분포에 맞는 도구가 있을 뿐이다.

**도구 선택 체크리스트 (번호순)**

1. 내 일의 분포를 먼저 안다 — 일상 편집 vs 큰 리팩터링 vs 비동기 티켓, 비율을 적어라.

2. Surface를 결정한다 — CLI / IDE / 클라우드 / 메신저 중 워크플로에 맞는 것.

3. 필요한 자율성 레벨을 정한다 — 보완으로 충분한가, 풀 에이전트가 필요한가.

4. 컨텍스트 요구를 본다 — 큰 저장소를 통째로 봐야 하는 작업이 많은가.

5. MCP·툴 생태계 필요성을 따진다 — 사내 도구를 붙여야 하는가.

6. 가격 모델을 이해한다 — 정액 / 토큰 / 시트, 그리고 헤비 유저 실비용을 추정한다.

7. 샌드박스·권한 모델을 확인한다 — 팀이면 거버넌스(SSO·감사 로그)까지.

8. 후보를 2~3개로 좁힌다 — 표는 좁히는 도구, 결정 도구가 아니다.

9. 내 코드베이스에서 5개 태스크 프로토콜로 검증한다 — 정량+정성.

10. 결정하고, 분기마다 반나절씩 재평가한다 — 이 필드는 빠르다.

**안티패턴 (하지 마라)**

- **벤치마크·리더보드만 보고 결정** — 남의 코드베이스 얘기다. 당신 저장소에서 재라.

- **표면 가격만 보고 정액이라 안심** — 토큰·사용량 기반으로 이동 중이다. 헤비 유저 실비용을 추정하라.

- **도구 하나에 종교 갖기** — 일상 편집과 멀티파일 작업은 다른 도구가 낫다. 조합을 쓰라.

- **모르는 코드베이스에 권한 풀개방** — 신뢰가 쌓이기 전엔 승인 게이트를 조여라.

- **컨벤션 주입 생략** — `CLAUDE.md`·`.aider.conf.yml` 같은 프로젝트 메모리 없이 돌리면 에이전트가 당신 스타일을 모른다.

- **자율성과 추적성을 맞바꾸기** — 자율성이 높을수록 Git 커밋·diff 리뷰·샌드박스로 추적성을 보강하라.

- **한 번 고르고 영영 안 본다** — 분기 재평가를 건너뛰면 6개월 뒤 한물간 도구를 쓰고 있다.

- **셋업 마찰을 무시** — 일회성 인상보다 매일의 누적 마찰이 더 중요하다.

**다음 글 예고**

다음 글에서는 도구 선택의 다음 단계 — **에이전트 워크플로 엔지니어링** — 을 다룬다. 도구를 골랐으면 이제 그 도구를 잘 쓰는 법이다. 프로젝트 메모리(`CLAUDE.md`, 룰 파일) 설계, MCP 서버를 직접 만들어 사내 도구 붙이기, 서브에이전트로 큰 작업 분해하기, 그리고 에이전트가 만든 PR을 안전하게 리뷰·머지하는 팀 프로세스까지. 도구는 시작일 뿐이고, 워크플로가 결과를 만든다.