2026 AI 코딩 에이전트 정면 비교 — Claude Code · Cursor · GitHub Copilot · OpenAI Codex · Aider · OpenClaw 실전 바이어 가이드

프롤로그 — 필드가 몇 개의 진지한 하니스로 정리됐다

2023년의 AI 코딩 도구 시장은 카오스였다. 매주 새 익스텐션이 나왔고, 데모는 화려했고, 실무에서 살아남는 건 거의 없었다. 2026년 봄의 풍경은 다르다. 필드가 정리됐다. 진지하게 프로덕션 코드를 맡길 만한 "하니스(harness)"는 이제 손에 꼽는다.

여기서 하니스라는 단어를 의도적으로 쓴다. 우리가 비교하는 건 모델이 아니다. Claude, GPT, Gemini는 다 좋다. 우리가 비교하는 건 모델을 코드베이스·터미널·CI에 연결하는 런타임 — 컨텍스트를 어떻게 모으고, 툴을 어떻게 호출하고, 변경을 어떻게 적용하고, 안전장치를 어디에 두는가다. 같은 Claude Opus를 써도 Claude Code와 Cursor와 Aider는 전혀 다른 경험을 준다. 하니스가 차이를 만든다.

이 글은 커리어 생존기가 아니다. "AI가 개발자를 대체하느냐" 같은 질문은 다루지 않는다. 이건 실무자의 바이어 가이드다. 6개 도구 — Claude Code, Cursor, GitHub Copilot, OpenAI Codex, Aider, OpenClaw — 를 같은 축으로 정면 비교하고, 어떤 상황에 어떤 도구를 써야 하는지, 그리고 무엇보다 당신 코드베이스에서 직접 검증하는 방법을 제시한다.

왜 이 6개인가. 기준은 단순하다. (1) 2026년 봄 현재 실제로 유지보수되고 업데이트되는가, (2) 토이가 아니라 프로덕션 코드를 맡길 만한 자율성이 있는가, (3) 서로 다른 워크플로를 대표하는가. 이 셋을 만족하는 도구를 추렸다. Windsurf, JetBrains AI, Cline, Antigravity, Kiro 같은 도구도 진지하지만, 이 6개가 "surface × 자율성 × 가격 모델"의 디자인 공간을 거의 다 덮는다. 6개를 이해하면 나머지는 변주로 읽힌다.

가격·기능 수치는 빠르게 바뀐다. 2026년 초만 해도 세 도구가 가격 모델을 바꿨다. 구체적 숫자는 "2026년 초 기준"으로 못 박고, 6개월 뒤에도 유효할 의사결정에 영향을 주는 구조적 차이에 집중하겠다. 숫자는 직접 확인하되, 구조를 이해하면 숫자가 바뀌어도 판단이 흔들리지 않는다.

모델은 상품이 되어 가고, 하니스가 해자가 되어 간다. 도구를 고른다는 건 모델이 아니라 워크플로를 고른다는 뜻이다.

1장 · 비교 축 — 무엇을 보고 골라야 하는가

도구를 "느낌"으로 고르면 3개월 뒤 후회한다. 다음 7개 축으로 분해해서 보라.

축 1 · Surface (어디서 도는가) CLI인가, IDE인가, 클라우드인가. 이건 취향이 아니라 워크플로 결정이다. CLI 하니스는 터미널·Git·CI에 자연스럽게 붙고 스크립트로 묶기 쉽다. IDE 하니스는 인라인 보기·탭 보완·디버거 통합이 강하다. 클라우드 하니스는 비동기 — 티켓을 던지고 다른 일을 하다 PR을 받는다.

축 2 · 자율성 레벨 보완(다음 줄 제안) → 인라인 편집(블록 단위) → 에이전트(멀티파일, 멀티스텝, 스스로 테스트 실행) → 비동기 에이전트(사람 없이 끝까지). 도구마다 "기본 모드"가 다르다. Copilot은 보완에서 출발했고, Claude Code와 Codex는 에이전트에서 출발했다.

축 3 · 컨텍스트 처리 모델 컨텍스트 윈도가 크다는 것과 하니스가 그걸 잘 채운다는 건 다른 얘기다. 핵심 질문: 관련 파일을 어떻게 찾는가(임베딩 인덱스인가, grep인가, 둘 다인가), 큰 저장소를 어떻게 압축하는가, 긴 세션에서 컨텍스트를 어떻게 관리하는가. 2026년 초 기준 일부 하니스는 1M 토큰 윈도를 실험적으로 지원한다 — 약 2.5만~3만 줄을 청킹 없이 한 번에 본다.

축 4 · 툴 / MCP 지원 에이전트는 툴이 있어야 일한다. Bash, 파일 편집, Git은 기본. 그 위에 MCP(Model Context Protocol) 지원 여부가 갈린다. MCP는 외부 도구 — DB, 이슈 트래커, 브라우저, 사내 API — 를 표준 방식으로 붙이는 프로토콜이고, 2026년 현재 사실상 업계 표준이 됐다. MCP를 지원하면 생태계 전체를 빌려 쓴다.

축 5 · 가격 모델 세 가지 패턴이 있다. (a) 정액 구독 — 예측 가능, 헤비 유저에게 유리. (b) 토큰/크레딧 기반 — 쓴 만큼 낸다, 라이트 유저에게 유리하지만 변동성 큼. (c) 시트 기반 — 팀 단위. 2026년 초 기준 업계가 전반적으로 토큰 기반으로 이동 중이라 "월 얼마"라는 답이 점점 어려워졌다. 헤비 유저의 실제 월 비용을 반드시 추정하라.

축 6 · 샌드박스 모델 에이전트가 rm -rf를 칠 수 있는가? 권한 모델이 핵심이다. (a) 승인 게이트 — 위험한 명령마다 사람이 yes/no. (b) 샌드박스 — 격리된 환경(컨테이너·VM)에서 실행 후 diff만 보여줌. (c) 풀 액세스 — 빠르지만 위험. 클라우드 하니스는 보통 (b), CLI 하니스는 (a)와 (c)를 옵션으로 준다.

축 7 · 생태계와 거버넌스 SSO, 감사 로그, 팀 정책, 서드파티 확장, 커뮤니티 크기. 솔로 개발자에겐 사소하지만 50명 팀에겐 결정적이다. 누가 어떤 코드에 에이전트를 돌렸는지 추적되는가, 비용을 팀·프로젝트별로 쪼갤 수 있는가, 보안팀이 승인할 만한 데이터 처리 정책이 있는가. 이 질문에 답이 없으면 엔터프라이즈 도입은 막힌다.

축을 어떻게 쓰는가 이 7개를 체크리스트로 쓰지 마라 — 가중치를 매겨라. 솔로 IC라면 축 1·2·3·5가 중요하고 축 7은 거의 무의미하다. 50명 팀의 플랫폼 엔지니어라면 축 5·6·7이 결정적이고 축 2의 미세한 차이는 노이즈다. 같은 표를 봐도 역할에 따라 다른 도구가 1등이 된다. 그래서 "최고의 AI 코딩 도구" 같은 헤드라인은 의미가 없다 — 질문이 틀렸다.

이 7개 축을 머리에 넣고, 이제 도구를 하나씩 보자. 각 장은 같은 틀 — Surface, 강점, 자율성·샌드박스, 가격, 약점, 한 줄 요약 — 으로 정리한다. 틀을 고정해야 공정한 비교가 된다.

2장 · Claude Code — 터미널 네이티브 에이전트의 기준점

Surface: CLI 우선. 터미널에서 도는 에이전트이고, IDE 확장(VS Code 등)도 있지만 정체성은 CLI다.

무엇을 잘하나 Claude Code는 "에이전트가 기본"인 하니스의 기준점이다. 파일시스템·Git·Bash를 툴로 쥐고, 멀티파일 리팩터링과 대규모 코드베이스 탐색에 강하다. 2026년 초 기준 Claude Opus 4.6이 1M 토큰 컨텍스트를 처리한다 — 큰 저장소를 청킹 없이 통째로 읽는다는 뜻이고, "이 패턴이 어디서 깨지는지 다 찾아줘" 같은 작업에서 체감 차이가 크다.

MCP를 1급 시민으로 다룬다. 사내 DB, 이슈 트래커, 브라우저 자동화를 표준 프로토콜로 붙인다. 스킬(skill)·서브에이전트 개념으로 큰 작업을 작은 단위로 쪼개고, CLAUDE.md 같은 프로젝트 메모리로 컨벤션을 주입한다.

자율성과 샌드박스 승인 게이트가 기본 — 위험한 명령은 사람이 확인한다. 권한을 미리 허용 목록에 넣어 마찰을 줄일 수 있다. 신뢰가 쌓이면 더 풀어주고, 모르는 코드베이스에선 조여라.

가격 2026년 초 기준 Claude Pro 구독( $20/월 수준)에 Claude Code가 포함되고, 헤비 유저용 Max 플랜($ 100/월, $200/월 수준)이 별도로 있다. 사용량이 많으면 상위 플랜이 사실상 필수다.

약점 순수 인라인 편집·탭 보완 경험은 IDE 네이티브 도구보다 약하다. 터미널이 1차 인터페이스라 GUI 디버거 통합을 기대하면 안 된다. 헤비하게 쓰면 비용이 빠르게 올라 상위 플랜으로 밀려난다 — 라이트 유저에겐 과한 선택일 수 있다.

언제 안 쓰나 일과의 대부분이 "한 파일 안에서 함수 몇 개 빠르게 짜기"라면 Claude Code는 오버킬이다. 그 루프는 IDE 탭 보완이 더 빠르다. Claude Code의 가치는 멀티파일·대규모·탐색형 작업에서 나온다 — 그런 작업이 적으면 다른 도구가 낫다.

한 줄 요약: 멀티파일 작업과 큰 저장소 탐색의 품질 기준점. 터미널 워크플로를 쓰는 사람에게 첫 후보.

3장 · Cursor — AI 네이티브 IDE의 속도

Surface: IDE. VS Code를 포크한 독립 에디터다.

무엇을 잘하나 Cursor의 정체성은 속도다. 탭 보완(다음 편집 예측)이 업계에서 가장 매끄럽고, 멀티파일 편집은 Agent/Composer 모드로 처리한다. 인라인으로 보면서 즉시 받아들이거나 거절하는 루프가 빠르다 — "에디터에서 손을 떼지 않는" 경험.

여러 백엔드 모델을 고를 수 있고, 코드베이스 임베딩 인덱스로 관련 파일을 찾는다. 일상적인 편집 — 함수 작성, 작은 리팩터링, 보일러플레이트 — 의 회전 속도가 핵심 강점이다.

자율성과 샌드박스 보완·인라인 편집이 스위트 스폿이지만 Agent 모드로 멀티스텝 자율 실행도 한다. 터미널 명령 실행은 승인 게이트를 거친다. CLI 하니스만큼 깊은 샌드박스 격리는 아니다.

가격 2026년 초 기준 개인 플랜은 Hobby(무료), Pro( $20/월 수준), Pro+($ 60/월 수준), Ultra($200/월 수준)다. 다만 Cursor 스스로 "Agent를 매일 쓰면 월 60~100달러어치 사용량이 보통, 파워 유저는 200달러 이상"이라고 안내한다 — 정액으로 보고 들어왔다가 사용량 청구에 놀랄 수 있으니 주의.

약점 독립 에디터라 VS Code를 떠나야 한다(익숙하면 장점, 아니면 단점). 비동기 티켓 작업에는 약하다. 헤비 유저의 실제 비용이 표면 가격보다 높다 — 이게 가장 자주 듣는 불만이다.

언제 안 쓰나 "이슈를 던지고 자리를 뜨는" 비동기 워크플로가 주력이면 Cursor는 맞지 않는다. Cursor의 강점은 사람이 에디터 앞에 앉아 있을 때 나온다. 또 비용 변동성을 견디기 힘든 환경(예산이 빡빡한 팀)이라면 정액으로 예측되는 도구가 낫다.

한 줄 요약: 에디터 안에서의 속도가 최우선이라면 Cursor. 단, 실사용 비용을 미리 추정하라.

4장 · GitHub Copilot — 가성비와 통합

Surface: 멀티 IDE 확장. VS Code, JetBrains, CLI에 붙는다. 독립 앱이 아니라 "당신이 이미 쓰는 에디터" 위에 얹힌다.

무엇을 잘하나 Copilot은 보완에서 출발해 agent mode(에이전트 모드) 와 coding agent(코딩 에이전트) 로 확장됐다. 강점은 두 가지. 첫째, 가성비 — 가장 저렴한 진지한 옵션이다. 둘째, GitHub 통합 — 이슈·PR·Actions와의 결합, 그리고 성숙한 엔터프라이즈 라이선싱·SSO·정책 관리.

coding agent는 GitHub 이슈를 할당하면 백그라운드에서 브랜치를 만들고 PR을 올리는 비동기 워크플로다. 팀이 이미 GitHub에 살고 있다면 마찰이 가장 적다.

자율성과 샌드박스 보완·인라인이 여전히 핵심이지만 agent mode로 멀티파일 작업, coding agent로 비동기 작업을 한다. 클라우드 에이전트는 격리 환경에서 실행 후 PR로 결과를 낸다.

가격 2026년 초 기준 Free(제한적), Pro( $10/월 수준), Pro+($ 39/월 수준), Business( $19/사용자/월 수준), Enterprise($ 39/사용자/월 수준). 단, 2026년 6월 1일부로 요청 기반 과금에서 사용량 기반 과금으로 전환된다고 안내됐으니 청구 구조 변경을 염두에 두라.

약점 에이전트 자율성의 "깊이"는 Claude Code나 Codex의 풀 에이전트 경험에 아직 못 미친다는 평이 많다. 멀티 IDE 확장이라 가장 공격적인 에이전트 워크플로보다는 "에디터 보강"에 무게가 있다.

언제 안 쓰나 "에이전트가 알아서 끝까지" 하는 가장 공격적인 자율 워크플로가 핵심 가치라면 Copilot의 에이전트 깊이가 아쉬울 수 있다. 또 GitHub를 안 쓰는 조직(GitLab·Bitbucket 중심)이라면 가장 큰 강점인 통합이 사라진다.

한 줄 요약: 이미 GitHub에 살고, 가성비와 엔터프라이즈 관리가 중요하면 Copilot. 팀의 안전한 기본값.

5장 · OpenAI Codex — CLI와 클라우드 양손잡이

Surface: CLI + 클라우드 + 데스크톱 앱. 오픈소스 CLI 도구, ChatGPT 구독에 묶인 클라우드 에이전트, 그리고 2026년 2월 출시된 macOS 데스크톱 앱까지 세 갈래다.

무엇을 잘하나 Codex의 강점은 CLI와 클라우드를 한 흐름으로 묶는다는 점이다. codex cloud 명령으로 터미널을 떠나지 않고 클라우드 태스크를 띄우고 분류하고, 활성·완료 태스크를 인터랙티브 피커로 본다. 태스크에 --attempts(1~4)를 줘서 best-of-N 실행을 요청할 수도 있다 — 같은 작업을 여러 번 돌려 제일 나은 걸 고른다.

2026년 초 기준 GPT-5.4가 네이티브 컴퓨터 사용 능력과 1M 컨텍스트 윈도 실험 지원을 갖췄고, 강화된 툴 사용·툴 검색으로 에이전트가 알맞은 도구를 더 효율적으로 찾는다. codex remote-control로 헤드리스·원격 제어 가능한 앱 서버를 띄우는 등 원격 워크플로도 다듬어졌다.

자율성과 샌드박스 에이전트가 기본. 로컬 CLI는 승인 게이트와 샌드박스 모드를 옵션으로 주고, 클라우드는 격리 환경에서 실행 후 결과를 낸다. /goal 워크플로로 장기 목표를 만들고 일시정지·재개·정리한다.

가격 2026년 초 기준 ChatGPT Plus·Pro·Business·Enterprise/Edu에 Codex가 포함되고, 한시적 Free·Go 접근도 있다. 다만 2026년 4월 2일부로 대부분의 Plus·Pro·Business·Enterprise 고객 대상 Codex 가격이 토큰 기반 크레딧으로 전환됐다 — 사용량 추적이 필수다.

약점 세 갈래 surface(CLI/클라우드/데스크톱)가 강점이자 학습 곡선이다. 토큰 기반 전환으로 비용 예측이 어려워졌다. OpenAI 생태계에 묶인다.

언제 안 쓰나 모델 벤더에 묶이기 싫다면 Codex는 맞지 않는다 — OpenAI 모델 전제다. 또 단순한 인라인 편집만 원하는데 CLI·클라우드·데스크톱 세 갈래의 개념을 다 익혀야 한다면 학습 비용이 과하다.

한 줄 요약: 비동기 클라우드 작업과 터미널 작업을 한 도구로 오가고 싶고, ChatGPT를 이미 쓴다면 Codex.

6장 · Aider — Git 퍼스트, 모델 중립

Surface: CLI. 터미널에서 도는 페어 프로그래밍 도구이고, 오픈소스다.

무엇을 잘하나 Aider의 철학은 Git 퍼스트다. 모든 변경을 의미 있는 단위로 자동 커밋한다 — 에이전트가 뭘 했는지 git log로 완벽히 추적되고, 마음에 안 들면 git revert 한 번이다. 이건 작은 디테일이 아니라 신뢰 모델 전체를 바꾼다.

두 번째 강점은 모델 중립이다. GPT, Claude, Gemini, 로컬 모델 — 무엇이든 붙인다. architect 모드가 특히 영리하다: 강한(비싼) 모델이 "어떻게 풀지"를 설계하고, 싸고 빠른 editor 모델이 그 설계를 구체적 파일 편집으로 번역한다. 2026년 워크플로 권장안은 GPT-5 architect + 저렴한 editor 조합이고, 멀티파일 리팩터링에서 단일 모델보다 오류가 측정 가능하게 줄고 비용은 30~50% 낮다.

watch 모드(코드 주석으로 지시), 프롬프트 캐싱, /web·/voice, .aider.conf.yml 설정 모델, 폴리글랏 리더보드 등 실무 기능이 탄탄하다. 오픈소스라 구독 비용이 없다 — 모델 API 비용만 낸다.

자율성과 샌드박스 인라인 편집 + 자동 커밋이 핵심 루프. 큰 자율 에이전트보다는 "추적 가능한 페어 프로그래머"에 가깝다. 안전장치는 Git 그 자체 — 모든 게 커밋되니 되돌리기 쉽다.

가격 도구 자체는 무료(오픈소스). 비용은 전적으로 모델 API 사용량. architect 모드가 비용을 크게 낮춰준다.

약점 MCP·서드파티 확장 생태계는 상업 도구보다 얇다. IDE 통합·GUI는 없다(CLI가 전부). 가장 공격적인 비동기 에이전트 워크플로에는 약하다.

한 줄 요약: Git 추적성과 모델 선택의 자유, 그리고 비용 통제가 최우선이면 Aider. 오픈소스 미니멀리스트의 선택.

7장 · OpenClaw — 메시징 인터페이스의 자율 에이전트

Surface: 메시징 앱. Signal, Telegram, Discord, WhatsApp 안의 챗봇으로 작동하고, 로컬에서 돈다. 오픈소스다.

무엇을 잘하나 OpenClaw는 이 목록에서 가장 결이 다른 도구다. 원래 코딩 전용 IDE 에이전트가 아니라 범용 개인 AI 에이전트다 — 2025년 11월 Clawdbot이라는 이름으로 처음 공개됐고, 2026년 초 두 번 개명(Moltbot → OpenClaw)을 거쳤다. PSPDFKit 창업자 Peter Steinberger가 만들었고, 2026년 초 GitHub 스타가 10만을 넘으며 현상이 됐다.

핵심 특징은 자기 개선이다. 원하는 작업을 위해 스스로 코드를 짜서 새 스킬을 만들고, 능동적 자동화를 구현하고, 사용자 선호의 장기 기억을 유지한다. coding-agent 스킬을 통해 코딩 작업도 한다. 외부 LLM(Claude, DeepSeek, OpenAI GPT 등)에 붙여 쓰는 구조라 모델 중립적이다.

진짜 매력은 인터페이스다. IDE도 터미널도 아닌 메신저에서 산다 — 출근길에 Signal로 "어제 그 버그 고쳐서 PR 올려줘"라고 보내는 식의 비동기·앰비언트 워크플로가 가능하다.

자율성과 샌드박스 높은 자율성을 지향한다 — "self-improving"이라 불리는 이유다. 로컬에서 돌기 때문에 샌드박스·권한 관리는 사용자가 직접 설계해야 한다. 자율성이 높은 만큼 신중한 셋업이 필요하다.

가격 오픈소스이고 로컬 실행. 도구 비용은 없고, 붙이는 LLM API 비용만 낸다.

약점 순수 코딩 하니스로서의 성숙도는 Claude Code·Codex·Cursor에 못 미친다 — 본질이 범용 어시스턴트다. 메시징 인터페이스는 빠른 인라인 코드 리뷰에 불편하다. 자율성이 높은 만큼 로컬 보안·권한 설계 부담이 크다. 2026년 초 기준 거버넌스 구조(비영리 재단)가 막 자리잡는 중이다.

한 줄 요약: 코딩만이 아니라 삶 전체를 자동화하는 앰비언트 에이전트를 원하고, 로컬 셋업을 직접 관리할 수 있으면 OpenClaw. 가장 실험적인 선택.

8장 · 거대 비교 표

7개 축으로 6개 도구를 한눈에. 모든 수치는 2026년 초 기준이며 빠르게 바뀐다.

축	Claude Code	Cursor	GitHub Copilot	OpenAI Codex	Aider	OpenClaw
Surface	CLI 우선 (+IDE 확장)	AI 네이티브 IDE	멀티 IDE 확장 +CLI	CLI +클라우드 +데스크톱	CLI	메시징 앱
기본 자율성	에이전트	보완·인라인 (+에이전트)	보완·인라인 (+에이전트)	에이전트 (+비동기)	인라인 +자동 커밋	고자율 범용
컨텍스트 처리	1M 윈도, 큰 저장소 통째	임베딩 인덱스	저장소 인지	1M 윈도 실험, 툴 검색	리포맵 +수동 추가	장기 기억
MCP / 툴	MCP 1급 시민	툴 지원	툴 +GitHub 통합	강화 툴 사용·검색	얇은 확장	자기 작성 스킬
가격 모델	구독 (Pro/Max)	구독+사용량 (놀람 주의)	시트+사용량 전환 예정	토큰 크레딧 전환됨	무료 (API 비용만)	무료 (API 비용만)
샌드박스	승인 게이트	승인 게이트	클라우드 격리	게이트+샌드박스, 클라우드 격리	Git = 안전장치	사용자 설계
생태계·거버넌스	MCP 생태계, 빠름	에디터 생태계	성숙한 엔터프라이즈·SSO	OpenAI 생태계	오픈소스, 얇음	신생 재단, 거대 커뮤니티
비동기 티켓 작업	보통	약함	강함 (coding agent)	강함 (cloud)	약함	강함 (메신저)
솔로 IC 적합도	높음	매우 높음	높음	높음	높음	중간
팀·거버넌스 적합도	높음	중간	매우 높음	높음	중간	낮음
비용 예측성	중간	낮음	중간	낮음	높음 (architect로 통제)	높음
한 줄 정체성	멀티파일 품질 기준점	에디터 속도	가성비·통합	CLI·클라우드 양손잡이	Git 퍼스트·모델 중립	앰비언트 자율 에이전트

표만 보고 고르지 마라. 표는 후보를 좁히는 도구일 뿐, 결정은 다음 두 장에서 한다.

9장 · 결정 매트릭스 — 어떤 상황에 어떤 도구

도구는 "최고"가 없다. "이 상황에 맞는"이 있을 뿐이다.

상황 1 · 솔로 IC, 일상 편집 중심 에디터에서 손을 안 떼고 함수 짜고 작은 리팩터링을 빠르게 돌리는 게 일과의 80%라면 → Cursor. 단, 헤비 유저라면 월 비용을 미리 추정하라. 비용을 빡빡하게 통제하고 싶고 터미널이 편하면 → Aider(architect 모드).

상황 2 · 솔로 IC, 큰 리팩터링·탐색 중심 "이 패턴 어디서 깨지는지 다 찾아줘", "이 모듈 전체를 새 API로 마이그레이션해줘" 같은 멀티파일·대규모 작업이 많으면 → Claude Code. 1M 컨텍스트로 청킹 없이 본다. Codex CLI도 강력한 대안.

상황 3 · 비동기 티켓 작업 이슈를 던지고 다른 일 하다 PR을 받고 싶으면 → GitHub Copilot coding agent(이미 GitHub에 살 때) 또는 OpenAI Codex cloud. 메신저 기반 앰비언트 워크플로가 끌리면 → OpenClaw.

상황 4 · 팀, 거버넌스가 중요 SSO, 감사 로그, 시트 관리, 정책이 필요하면 → GitHub Copilot이 가장 안전한 기본값. Claude Code도 팀 적합도가 높다. Cursor는 가능하지만 비용 변동성을, OpenClaw는 거버넌스 성숙도를 따져라.

상황 5 · 비용을 한 푼까지 통제 구독 없이 모델 API 비용만, 그것도 architect 모드로 최소화하고 싶으면 → Aider. OpenClaw도 오픈소스·로컬이라 도구 비용은 0.

상황 6 · 모델 선택의 자유가 필요 특정 벤더에 묶이기 싫고 GPT·Claude·Gemini·로컬 모델을 자유롭게 바꾸고 싶으면 → Aider 또는 OpenClaw. 둘 다 모델 중립.

현실적인 조합 2026년 흔한 셋업은 단일 도구가 아니라 조합이다 — 일상 편집은 Cursor 또는 Copilot(IDE), 복잡한 멀티파일 작업은 Claude Code 또는 Codex(터미널). 도구 하나에 종교를 갖지 말고, 작업 유형에 맞춰 손을 바꿔라.

10장 · 당신 코드베이스에서 직접 평가하는 법

리뷰 글·벤치마크·리더보드는 출발점일 뿐이다. 당신 저장소에서의 성능이 유일하게 의미 있는 데이터다. 다음 프로토콜로 1~2주 안에 검증하라.

1단계 · 대표 태스크 5개를 고른다 실제 백로그에서 뽑아라. 데모용 토이 문제가 아니라: (a) 작은 버그 수정 1개, (b) 새 기능 1개, (c) 멀티파일 리팩터링 1개, (d) 테스트 추가 1개, (e) 낯선 코드 영역 이해·설명 1개. 이 5개가 당신 일의 분포를 대표해야 한다.

2단계 · 같은 태스크를 후보 2~3개로 돌린다 9장에서 후보를 2~3개로 좁혔을 것이다. 같은 태스크, 같은 프롬프트, 같은 출발 커밋으로 각각 돌려라. 공정한 비교는 통제된 입력에서 나온다.

3단계 · 정량 지표를 기록한다 태스크당 측정: (a) 첫 시도 정확도(human 개입 없이 통과했나), (b) 벽시계 시간, (c) 토큰/비용, (d) 사람 수정 라운드 수, (e) 최종 diff의 깔끔함(불필요한 변경이 섞였나).

4단계 · 정성 신호를 본다 숫자가 못 잡는 것들: 컨벤션을 따르는가, 안전장치(테스트·타입·검증)를 스스로 추가하는가, 막혔을 때 솔직히 막혔다고 하는가 아니면 그럴듯한 거짓을 내는가, 컨텍스트 처리가 매끄러운가.

5단계 · 마찰 비용을 계산한다 승인 게이트가 너무 많아 흐름이 끊기는가? 너무 적어 불안한가? 셋업·설정·MCP 연결에 든 시간은? 도구를 매일 쓸 때의 누적 마찰이 일회성 인상보다 중요하다.

6단계 · 결정하고, 3개월 뒤 재평가한다 이 필드는 빠르다. "지금 최선"이 6개월 뒤에도 최선이라는 보장은 없다. 분기마다 짧게 재검증하라 — 5개 태스크 프로토콜이면 반나절이면 된다.

평가 기록은 단순한 표로 거창한 도구는 필요 없다. 스프레드시트 한 장이면 된다. 한 가지 흔한 함정만 피하라 — 첫인상에 휘둘리는 것. 도구 A가 첫 태스크를 화려하게 끝내면 나머지 4개를 후하게 보게 된다. 그래서 5개를 다 돌린 뒤 한꺼번에 채점하라. 평가 기록 골격은 이렇게 단순하다.

태스크 | 도구 | 첫시도통과 | 벽시계(분) | 비용($) | 수정라운드 | diff깔끔함(1-5) | 메모
T1버그  | A    | Y         | 4          | 0.12    | 0          | 5              | 컨벤션 따름
T1버그  | B    | N         | 9          | 0.21    | 2          | 3              | 무관한 변경 섞임
...

5개 태스크 × 후보 3개 = 15행. 다 채우면 패턴이 눈에 보인다 — 어떤 도구가 어떤 유형에서 강한지. 평균만 보지 말고 분산도 보라. 평균은 좋은데 가끔 크게 헛짚는 도구는 신뢰가 안 간다.

남의 벤치마크는 남의 코드베이스 얘기다. 반나절을 들여 당신 저장소에서 직접 재면, 6개월의 잘못된 도구 선택을 막는다.

에필로그 — 체크리스트 · 안티패턴 · 다음 글 예고

2026년 봄, AI 코딩 에이전트 필드는 정리됐다. 6개 도구는 각자 다른 워크플로를 위해 존재하고, "최고"는 없다. 당신 일의 분포에 맞는 도구가 있을 뿐이다.

도구 선택 체크리스트 (번호순)

내 일의 분포를 먼저 안다 — 일상 편집 vs 큰 리팩터링 vs 비동기 티켓, 비율을 적어라.
Surface를 결정한다 — CLI / IDE / 클라우드 / 메신저 중 워크플로에 맞는 것.
필요한 자율성 레벨을 정한다 — 보완으로 충분한가, 풀 에이전트가 필요한가.
컨텍스트 요구를 본다 — 큰 저장소를 통째로 봐야 하는 작업이 많은가.
MCP·툴 생태계 필요성을 따진다 — 사내 도구를 붙여야 하는가.
가격 모델을 이해한다 — 정액 / 토큰 / 시트, 그리고 헤비 유저 실비용을 추정한다.
샌드박스·권한 모델을 확인한다 — 팀이면 거버넌스(SSO·감사 로그)까지.
후보를 2~3개로 좁힌다 — 표는 좁히는 도구, 결정 도구가 아니다.
내 코드베이스에서 5개 태스크 프로토콜로 검증한다 — 정량+정성.
결정하고, 분기마다 반나절씩 재평가한다 — 이 필드는 빠르다.

안티패턴 (하지 마라)

벤치마크·리더보드만 보고 결정 — 남의 코드베이스 얘기다. 당신 저장소에서 재라.
표면 가격만 보고 정액이라 안심 — 토큰·사용량 기반으로 이동 중이다. 헤비 유저 실비용을 추정하라.
도구 하나에 종교 갖기 — 일상 편집과 멀티파일 작업은 다른 도구가 낫다. 조합을 쓰라.
모르는 코드베이스에 권한 풀개방 — 신뢰가 쌓이기 전엔 승인 게이트를 조여라.
컨벤션 주입 생략 — CLAUDE.md·.aider.conf.yml 같은 프로젝트 메모리 없이 돌리면 에이전트가 당신 스타일을 모른다.
자율성과 추적성을 맞바꾸기 — 자율성이 높을수록 Git 커밋·diff 리뷰·샌드박스로 추적성을 보강하라.
한 번 고르고 영영 안 본다 — 분기 재평가를 건너뛰면 6개월 뒤 한물간 도구를 쓰고 있다.
셋업 마찰을 무시 — 일회성 인상보다 매일의 누적 마찰이 더 중요하다.

다음 글 예고

다음 글에서는 도구 선택의 다음 단계 — 에이전트 워크플로 엔지니어링 — 을 다룬다. 도구를 골랐으면 이제 그 도구를 잘 쓰는 법이다. 프로젝트 메모리(CLAUDE.md, 룰 파일) 설계, MCP 서버를 직접 만들어 사내 도구 붙이기, 서브에이전트로 큰 작업 분해하기, 그리고 에이전트가 만든 PR을 안전하게 리뷰·머지하는 팀 프로세스까지. 도구는 시작일 뿐이고, 워크플로가 결과를 만든다.