Skip to content

Split View: AI CLI 코딩 도구 정면 비교 2026 — Claude Code · Junie · Cline · Aider · Codex CLI · Cursor CLI · Continue 슛아웃

|

AI CLI 코딩 도구 정면 비교 2026 — Claude Code · Junie · Cline · Aider · Codex CLI · Cursor CLI · Continue 슛아웃

프롤로그 — 왜 다시 "CLI"인가

2024년만 해도 AI 코딩 도구의 디폴트 surface는 IDE였다. Cursor가 시장을 정의했고, Copilot은 VS Code 패널에서 살았고, Continue는 사이드바였다. 그런데 2026년 봄, 진지하게 프로덕션 코드를 맡길 만한 도구들이 일제히 터미널로 내려왔다. Claude Code가 길을 텄고, OpenAI Codex CLI가 따라왔고, JetBrains는 자존심을 굽혀 Junie CLI를 베타에 올렸고, Cursor도 cursor-agent 바이너리를 출시했다. Cline은 IDE 익스텐션이지만 CLI 형태로도 돈다. Aider는 처음부터 CLI였다. Continue.dev는 "Continuous AI"로 피벗하며 PR마다 도는 CLI를 핵심에 놓았다.

왜 다시 CLI인가. 세 가지다.

  1. 에이전트는 자유로워야 한다. 진짜 자율 에이전트는 Bash·Read·Edit·Grep을 자유롭게 조합한다. IDE 패널 안에 가둬두면 그 자유가 깎인다. 터미널은 본래부터 도구 조합의 공간이다.
  2. 워크플로가 합쳐진다. Git, CI, 컨테이너, SSH, tmux — 개발자의 진짜 작업은 터미널에 모인다. 에이전트가 거기 있으면 워크플로가 매끄럽다.
  3. 자동화 가능하다. CLI는 cron·GitHub Actions·Slack 봇·다른 에이전트가 호출할 수 있다. IDE 패널은 호출할 수 없다.

이 글은 7개 CLI/터미널-네이티브 도구를 같은 축으로 정면 비교한다. 이전 글들이 "IDE까지 포함한 전체 시장"을 다뤘다면, 이 글은 터미널에서 도는 에이전트 하니스만 본다. 비교 후 세 가지 실제 시나리오 — 플래키 테스트 고치기, 엔드포인트 추가, 모듈 리팩토링 — 에서 어떤 도구가 맞는지 따져본다.

모델은 점점 같아지고, 하니스가 차이를 만든다. 7개 도구는 같은 Claude·GPT·Gemini를 부르지만, 행동이 완전히 다르다.

가격·기능 수치는 빠르게 바뀐다. 이 글의 모든 숫자는 2026년 5월 기준이며, 구조적 차이에 집중한다. 6개월 뒤 숫자가 바뀌어도 의사결정 프레임은 유효해야 한다.


1장 · 비교 축 — 무엇을 보고 골라야 하는가

7개 도구를 8개 축으로 분해해서 본다. 축 자체가 의사결정 프레임이다.

축 1 · 에이전트 루프 전략 모델을 어떻게 반복해서 부르는가. (a) 모놀리식 루프 — 하나의 메인 모델이 모든 결정을 한다. Aider, Codex CLI 기본 모드. (b) 아키텍트·에디터 분리 — 강한 모델이 계획하고, 빠른 모델이 편집한다. Aider architect, Codex CLI의 reasoning 모드. (c) 메인+서브에이전트 — 메인이 위임하고 서브가 격리된 컨텍스트로 일한다. Claude Code, Cursor Background, Junie CLI. (d) Plan/Act 토글 — 사용자가 명시적으로 모드를 바꾼다. Cline의 시그니처.

축 2 · 파일 편집 모델 이게 의외로 중요하다. (a) 서치-리플레이스(SEARCH/REPLACE) 블록 — 모델이 "이 부분을 → 이 부분으로" 형태로 출력하면 하니스가 적용한다. Aider의 정통 포맷. 토큰 효율 좋고, 적용 실패가 명확하다. (b) 유닿이드 디프(unified diff) — 패치 형식. Codex CLI 일부 모드. (c) 직접 파일 쓰기(write_file 도구) — 모델이 전체 파일을 도구 호출로 다시 쓴다. Claude Code, Cursor, Junie. 큰 파일에서 토큰 폭증. (d) 부분 편집 도구(Edit) — 모델이 정확한 옛 문자열·새 문자열을 도구 인자로 넘긴다. Claude Code의 Edit. 안전하지만 매칭 실패가 잦다.

축 3 · 컨텍스트 전략 어떻게 코드를 본 후 모델에게 보여주는가. (a) 임베딩 인덱스 — Cursor가 대표. 빠른 시맨틱 검색이지만 색인 신선도 이슈. (b) grep/find 1차 — Claude Code, Aider, Codex CLI. 임베딩 없이 정교한 검색 도구 조합. (c) 명시적 add — Aider — 파일을 사용자가 골라 컨텍스트에 넣는다. 통제력 최고. (d) 자동 수집 — 모델이 어떤 파일이 필요한지 스스로 결정해 읽는다.

축 4 · 서브에이전트 / 병렬성 하나의 작업을 여러 에이전트에 분할할 수 있는가. Claude Code는 Task 도구로 서브에이전트를 띄운다. Cursor Background는 최대 8개 병렬. Junie CLI는 "agent skills"로 서브에이전트를 정의한다. Aider, Continue는 기본적으로 단일 에이전트. 큰 리팩토링에서 차이가 결정적이다.

축 5 · MCP 지원 Model Context Protocol — 2026년 사실상 업계 표준이 됐다. (a) 1급 지원 — Claude Code(MCP를 처음 표준화), Codex CLI, Cursor CLI, Junie CLI. (b) 2급 지원 — Cline은 stdio/SSE MCP를 마켓플레이스와 함께 지원. Continue도 지원. (c) 부분 지원 — Aider는 일부 MCP를 받지만 깊이 통합되진 않음. MCP가 있으면 외부 도구(DB, 이슈 트래커, 브라우저, 사내 API)를 표준 방식으로 붙인다.

축 6 · 가격 / 비용 모델 세 가지 패턴. (a) 정액 구독 — Claude Code Pro 월 20달러, Max 100·200달러. 헤비 유저에게 유리. (b) BYOK(Bring Your Own Key) — Cline, Aider, Continue, Junie CLI. 자기 API 키로 추론 비용만 지불. (c) 토큰/크레딧 — Cursor의 Max 모드, Codex CLI의 API 사용량. 변동성 큼. 헤비 유저의 월 비용을 반드시 추정하라 — 같은 작업에도 도구마다 10배 차이가 난다.

축 7 · OSS 여부 (a) 오픈소스 — Aider(Apache), Cline(MIT), Continue(Apache), Codex CLI(Apache, Rust). (b) 클로즈드 — Claude Code(바이너리 배포, SDK는 일부 공개), Cursor CLI, Junie CLI(JetBrains 라이선스). 엔터프라이즈 도입에서는 OSS 여부가 결정 인자가 될 수 있다 — 감사·포크·on-prem 배포.

축 8 · 관측 가능성 / 안전장치 에이전트가 무엇을 했는지 추적할 수 있는가. (a) 체크포인트 — Cline은 매 도구 호출마다 그림자 git에 커밋. 롤백 가능. (b) 권한 게이트 — Claude Code의 yes/no 프롬프트. Codex CLI도 비슷. (c) 샌드박스 — Codex CLI는 Linux에서 bubblewrap, Docker devcontainer 통합. (d) 디프 미리보기 — 모든 도구가 어느 정도는 제공하지만 깊이는 다르다.

이 8개 축을 머리에 넣고, 이제 도구를 하나씩 본다. 각 장은 같은 틀로 정리한다.


2장 · Claude Code — 터미널 에이전트의 기준점

Surface · 강점 순수 CLI. claude 명령으로 진입. 코드베이스 어디서나 돌아간다. Anthropic 자체 모델(Opus 4.5, Sonnet 4.6)을 기본으로 쓰지만, 다른 모델은 SDK 레벨로만 지원. MCP를 만든 회사가 만든 도구라 MCP 통합이 1급 시민이다.

에이전트 루프 메인 에이전트가 ReAct 루프를 돈다. 필요할 때 Task 도구로 서브에이전트를 띄운다 — 서브는 독립된 컨텍스트 윈도를 받고, 자기 일만 끝낸 뒤 메인에 결과만 돌려준다. 컨텍스트 격리가 깨끗하다. 메인이 200k 토큰을 다 쓰기 전에 서브가 자기 일을 자기 윈도에서 해치우기 때문이다.

파일 편집 Edit 도구로 부분 편집(old_string → new_string)을 한다. 매칭이 정확해야 하지만 안전하다. 큰 파일을 전체 다시 쓰는 일이 드물어 토큰 효율이 좋다. Write로 새 파일 생성도 가능.

컨텍스트 전략 임베딩 인덱스 없음. Read·Glob·Grep·Bash로 그때그때 찾는다. 결과적으로 색인 신선도 이슈가 없고, 모델이 "어디를 봐야 하는지" 스스로 추론한다. 큰 저장소에서도 잘 견딘다.

서브에이전트 / MCP / 가격 서브에이전트는 핵심 기능. MCP는 stdio·HTTP 모두 1급 지원. 6,000개 이상의 MCP 서버 생태계가 있다. 가격은 Pro 월 20달러, Max 100·200달러. 평균 활성 일당 13달러, 월 150~250달러 정도가 엔터프라이즈 평균이라는 보고. 토큰 기반이 아닌 정액 모델이 헤비 유저에게 유리하다.

약점 모델 잠금 — Claude만 잘 도는 게 사실. 다른 모델은 SDK로 우회해야 한다. 100% 클로즈드는 아니지만 코어는 바이너리. 큰 팀에서 감사가 어렵다.

한 줄 요약

서브에이전트와 MCP가 1급 시민인 정액제 CLI 에이전트. 모델은 Claude에 묶이지만 그 안에서는 가장 매끈하다.


3장 · OpenAI Codex CLI — Rust 리라이트와 GPT-5.5

Surface · 강점 codex 명령으로 진입. 2025년 말 OpenAI가 Node/TypeScript 원본을 Rust로 리라이트했고, 2026년 봄에는 코드베이스의 95%가 Rust다. 시작 속도가 빠르고 메모리가 가볍다. GitHub 별 67,000개 이상, 일 10~15커밋의 매우 활발한 개발.

에이전트 루프 GPT-5.5(2026년 5월 현재 권장 모델), GPT-5.4, GPT-5.3-Codex를 골라 쓸 수 있고 reasoning 레벨을 조절한다. 서브에이전트 지원 — 한 Codex 에이전트가 다른 Codex 에이전트에게 코드 리뷰를 시키는 패턴이 공식 가이드에 들어 있다. MCP 서버의 supports_parallel_tool_calls 플래그로 병렬 도구 호출 — 동일 작업에서 58초가 31초로 줄었다는 보고.

파일 편집 유닾이드 디프 형식이 주력. 모델이 직접 패치를 생성하면 하니스가 적용. 큰 파일 변경에서 토큰 효율 좋다.

컨텍스트 전략 임베딩 인덱스 없음. grep/find 도구로 1차 검색. Claude Code와 철학이 같다.

서브에이전트 / MCP / 가격 MCP는 1급. stdio·streaming HTTP 둘 다 지원. 가격은 API 사용량 + ChatGPT Plus·Pro 구독 모델 둘 다. Pro 구독자는 일정량의 GPT-5.5 호출이 포함된다.

샌드박스 — 이게 진짜 차별점 Linux에서 bubblewrap 기반 샌드박스. Docker devcontainer 1급 지원. 호스트 파일시스템 접근을 격리한다. 에이전트에게 "지우라"고 말해도 호스트가 안전하다 — 다른 CLI 도구들이 못 따라잡는 부분.

약점 GPT 모델 전제. 다른 모델은 OpenAI API 호환 엔드포인트로 우회해야 한다. UI/UX가 Claude Code보다 거칠다 — Rust 리라이트가 진행 중인 만큼 일부 명령이 자주 바뀐다.

한 줄 요약

Rust로 가볍게 다시 쓴 OpenAI의 터미널 에이전트. 샌드박스가 최강. GPT-5.5에 묶인다.


4장 · JetBrains Junie CLI — IDE에서 내려온 늦둥이

Surface · 강점 2026년 3월에 베타 출시. IntelliJ·PyCharm 같은 JetBrains IDE 내장 에이전트로 시작해 CLI로 분리됐다. 터미널에서 단독으로 돈다. IDE 안에서도, CI/CD에서도, GitHub/GitLab에서도 돈다.

에이전트 루프 "LLM-agnostic" — 처음부터 OpenAI, Anthropic, Google, Grok 모델을 모두 1급으로 지원한다. 다른 도구가 모델에 묶일 때 Junie CLI는 모델을 자유롭게 갈아끼우게 설계됐다. "agent skills"로 서브에이전트를 정의한다. "next-task prediction" — 프로젝트 컨텍스트를 이해해 다음 작업을 예측한다고 주장.

파일 편집 JetBrains의 IDE 분석을 일부 가져와 — AST 기반 편집을 시도한다. CLI 단독으로 돌 때는 텍스트 편집이지만 IDE 통합 시 인덱싱·리팩토링 도구를 빌려 쓴다.

MCP / 가격 MCP 지원. BYOK가 디폴트 — 자기 모델 키를 가져오면 플랫폼 비용 없음. 출시 직후 Gemini 3 Flash를 1주일 무료로 풀었다. JetBrains AI 플랜과도 연동된다(Pro 100달러/년, Ultimate 300달러/년, Enterprise 720달러/년).

원클릭 마이그레이션 Claude Code, Codex 등 다른 에이전트 설정을 가져오는 기능을 명시적으로 광고한다. 늦게 들어온 만큼 "기존 사용자를 빼앗는다"가 노골적이다.

약점 베타. 안정성·생태계가 아직 빈약하다. JetBrains IDE에 가장 잘 맞는다 — IDE 통합 효과를 빼고 CLI만 쓰면 다른 도구 대비 압도적 강점이 없다. 가격 모델이 BYOK라 헤비 유저는 모델 비용을 따로 계산해야 한다.

한 줄 요약

늦게 들어왔지만 모델-불가지론과 BYOK라는 명확한 차별점. JetBrains 사용자에겐 즉시 매력적, 나머지에겐 관찰 대상.


5장 · Cline — VS Code에서 CLI까지, OSS의 챔피언

Surface · 강점 원래 VS Code 익스텐션이지만 2026년 들어 CLI 어시스턴트로도 돈다. MIT 라이선스, 깃허브 별 57,000개+, 400만 설치. 진짜 OSS다.

에이전트 루프 — Plan/Act 토글이 시그니처 Plan 모드 — 읽기만 하고 쓰지 않는다. 아키텍트 역할. 토큰 적게 쓰고 사용자와 계획을 맞춘다. Act 모드 — 계획을 실행한다. 명시적 토글이 핵심이다. "Plan을 건너뛰고 바로 Act로 가는 게 가장 흔한 실수"라고 공식 가이드가 못 박는다.

파일 편집 직접 파일 쓰기와 부분 편집 둘 다. 모델 선택에 따라 포맷이 바뀐다.

체크포인트 — 관측 가능성의 챔피언 모든 도구 호출 직후 그림자 git에 커밋한다. 매 편집·매 명령·매 웹 요청이 자기만의 체크포인트를 갖는다. "Restore Files", "Restore Task Only", 풀 리셋 세 가지 롤백 모드. 다른 어떤 도구보다 깊은 관측 가능성 — 에이전트가 6단계 전에 한 일을 그대로 되돌릴 수 있다.

MCP / 가격 MCP 마켓플레이스 — stdio/SSE 둘 다 지원하는 자체 마켓플레이스를 운영한다. 가격은 BYOK — 익스텐션 자체는 무료. 추론 비용만 자기 API 키로 낸다. 라이트 유저 월 5~50달러, 헤비 유저 100달러+. 팀 플랜은 사용자당 월 20달러(2026년 Q1 이후), 첫 10시트 무료. 엔터프라이즈는 VPC·on-prem·에어갭 배포까지 한다.

약점 순수 CLI 단독 사용은 아직 VS Code 익스텐션만큼 매끄럽지 않다. Plan/Act 토글이 좋지만 어떤 사용자에겐 마찰이 된다 — Claude Code의 매끈한 자율 루프에 익숙해진 사람은 답답해할 수 있다.

한 줄 요약

진짜 OSS, BYOK, 체크포인트로 무장한 OSS의 챔피언. Plan/Act는 호불호. VS Code와 짝일 때 최강.


6장 · Aider — Git-네이티브의 원조

Surface · 강점 Paul Gauthier가 만든 가장 오래되고 가장 성숙한 CLI 에이전트. aider 명령. Apache 라이선스. Git을 진실의 원천으로 본다 — 파일을 명시적으로 컨텍스트에 추가하고, 모델이 변경을 제안하면 자동으로 커밋된다. 모든 변경에 자동 커밋, 그것도 의미 있는 커밋 메시지로.

에이전트 루프 — Architect/Editor 패턴이 시그니처 2개 모델을 동시에 쓴다. 아키텍트 — 강한 추론 모델(o3, Opus 4.5)이 "이렇게 고치자"는 계획을 낸다. 에디터 — 빠르고 싼 모델이 그 계획을 Aider 디프 포맷으로 옮긴다. 비용·품질 트레이드오프를 사용자가 정밀하게 조절한다.

파일 편집 — SEARCH/REPLACE의 원조 모델이 "이 정확한 옛 코드를 → 이 새 코드로" 형식의 디프 블록을 생성한다. 하니스가 매칭해서 적용. 매칭 실패가 명확하다 — 에이전트가 코드를 환각하면 적용이 실패하고 모델이 다시 시도한다. 토큰 효율이 최상.

컨텍스트 전략 — 명시적 add 사용자가 /add file.py로 파일을 명시 추가한다. 자동 수집 없음. 통제력이 최고다. 큰 저장소에서도 "지금 보는 건 이 다섯 파일"이라는 확실성을 준다. /web으로 웹 자료, /voice로 음성, watch 모드로 코멘트 트리거 — 워크플로 통합이 깊다.

모델 / 폴리글롯 벤치마크 모든 주요 모델 지원. Aider가 운영하는 폴리글롯 리더보드가 사실상 코딩 모델의 업계 기준이 됐다. 2026년 5월 기준 Claude Opus 4.5가 89.4%로 1등, GPT-5(high) 88.0%, Gemini 2.5 Pro Preview 06-05 82.2%, o3 81.3%. 평균 58.1%.

MCP / 가격 / 약점 MCP 부분 지원 — 일부 서버를 받지만 깊이는 다른 도구만큼 통합되지 않았다. 가격은 BYOK — 도구 자체 무료, 모델 비용만. 약점: 서브에이전트 없음(단일 에이전트). 자동 컨텍스트 수집 없음 — 학습 곡선 존재. UI가 거칠다. 큰 자율 작업보다 "한 변경 단위" 페어 프로그래밍에 맞춰진 철학.

한 줄 요약

Git-네이티브, SEARCH/REPLACE의 원조, Architect/Editor 분리. 가장 성숙하고 가장 통제 가능한 CLI 도구. 자율성보다 정밀함.


7장 · Cursor CLI / Background Agents — IDE 회사의 비-IDE 표면

Surface · 강점 Cursor는 IDE로 유명하지만 2026년 1월부터 cursor-agent 바이너리를 출시했다. 터미널에서 단독으로 돈다. IDE와 같은 프롬프트·도구, MCP 통합도 그대로. 2026년 4월 Cursor 3.0의 핵심 추가는 Background Agents — 클라우드 VM에서 비동기로 도는 에이전트.

에이전트 루프 — 동기/비동기 두 트랙 cursor-agent는 동기 — 보통의 ReAct 루프. Background Agents는 비동기. 클라우드 VM에서 별도 브랜치를 만들고, 끝나면 PR을 푸시한다. 최대 8개 병렬 실행. 3.0의 "Cloud handoff"로 로컬에서 시작한 작업을 클라우드로 넘긴다 — 머신을 꺼도 계속 돈다.

파일 편집 / 컨텍스트 직접 파일 쓰기 위주. 임베딩 인덱스(IDE에서 가장 발달한 부분)는 CLI에서도 부분적으로 가져온다. Cursor의 강점.

MCP / 가격 MCP 1급. mcp.json에 정의한 도구가 CLI에서도 자동으로 잡힌다. 가격은 5단계 — Hobby 0달러, Pro 월 20달러, Pro+ 60달러, Ultra 200달러, Teams 사용자당 월 40달러. Max 모드(강한 모델)는 토큰 기반 + 20% 마진. Background Agents는 항상 Max 모드 — 50스텝 작업이 Claude Sonnet으로 0.300.60달러, 복잡한 작업은 45달러까지.

약점 근본은 IDE 회사다. CLI는 부속 surface지 일급 시민이 아니다. Background Agents는 강력하지만 비싸다. 클라우드 VM 의존 — 폐쇄망에선 안 돈다.

한 줄 요약

IDE의 임베딩 강점을 CLI로 가져왔다. Background Agents의 비동기·병렬은 독보적. 클라우드 의존이 거버넌스 이슈.


8장 · Continue.dev — "Continuous AI"로 피벗한 OSS

Surface · 강점 원래 VS Code/JetBrains 사이드바 챗으로 시작. 2026년 들어 "Continuous AI"로 피벗 — PR마다 도는 오픈소스 CLI. Apache 라이선스. 팀 규칙 강제, 이슈 잡기, 픽스 제안을 CI에서 자동으로 돌린다.

에이전트 루프 2026년 Agent 모드 — 요구사항 분석 → 계획 → 파일 수정 → 터미널 실행 → 검증을 자율로 돈다. CLI는 PR 단위로 도는 게 핵심. "소스 컨트롤된 AI 체크, CI에서 강제 가능"이 캐치프레이즈.

파일 편집 / 컨텍스트 Context Providers — @codebase(아키텍처 이해), @docs(특정 문서 사이트), @github(이슈·PR) 등. 모델이 컨텍스트를 명시적 채널로 받는다.

MCP / 가격 MCP 지원. 가격은 OSS 무료 + Continue Hub 유료 플랜(팀 협업, 프롬프트 템플릿 공유, 중앙집중식 설정 관리). 거의 모든 주요 모델 지원 — Claude Opus 4.6/Sonnet 4.6, GPT-4o/o3, Gemini 2.0 Pro, Llama 3.3, DeepSeek V3.

약점 Agent로서의 성숙도는 Claude Code/Codex/Aider보다 한 발 뒤. 강점은 "CI에 들어가는 에이전트"라는 포지션 — 인터랙티브 작업이 강점이 아니다.

한 줄 요약

OSS·CLI·CI 통합이 트라이앵글. PR마다 도는 자동화 에이전트라는 포지션이 명확. 인터랙티브 코딩 동반자로는 평범.


9장 · 정면 비교 매트릭스

도구라이선스모델편집 모델컨텍스트서브에이전트MCP가격 모델시그니처
Claude Code클로즈드(SDK 일부 공개)Claude 주력Edit(부분) + Writegrep 1차, 200k 윈도Task 도구로 격리1급, 6000+ 서버정액제 (20 / 100 / 200 USD)매끈한 서브에이전트
Codex CLIOSS (Apache, Rust)GPT-5.5 주력유닾이드 디프grep 1차공식 패턴1급, 병렬 호출API 사용량 + ChatGPT 구독bubblewrap 샌드박스
Junie CLI클로즈드(JetBrains)LLM-불가지론AST 시도 (IDE 통합 시)IDE 인덱스 빌림agent skills지원BYOK + JetBrains AI 플랜모델 자유, 마이그레이션 도움
ClineOSS (MIT)BYOK 전부직접 쓰기 + 부분 편집자동 + 명시제한적마켓플레이스 운영BYOK (라이트 5-50 USD/월)Plan/Act + 체크포인트
AiderOSS (Apache)BYOK 전부SEARCH/REPLACE 원조명시적 add없음부분BYOKArchitect/Editor + 자동 커밋
Cursor CLI클로즈드Anthropic/OpenAI 주력직접 쓰기임베딩 인덱스Background 최대 8 병렬1급5단계 (0 / 20 / 60 / 200 USD)Background Agents, Cloud handoff
Continue.devOSS (Apache)BYOK 거의 전부직접 쓰기Context Providers제한적지원OSS 무료 + Hub 유료CI/PR 자동화 (Continuous AI)

읽는 법: 시그니처 열이 도구의 영혼이다. 한 줄로 "다른 도구가 안 하는 것"이 거기 적혀 있다. 시그니처가 당신의 워크플로와 맞으면 그 도구를 더 보고, 안 맞으면 빨리 다음으로 넘어가라.

편집 모델이 만드는 차이 — 더 깊게

표만 봐서는 잘 안 보이는 게 편집 모델의 실제 영향이다. 같은 한 줄 변경을 7개 도구가 어떻게 처리하는지 머릿속에 그려 보면 명확하다.

파일: src/auth.ts (200줄)
요청: getUser() 함수의 throw 메시지를 "Not authorized"에서 "Unauthorized: missing token"으로 바꿔라.

Aider (SEARCH/REPLACE):
  모델 출력: 약 100 토큰 (블록 형태)
  적용 안전성: 매칭 실패 시 명확한 에러
  토큰 비용: 최소

Claude Code (Edit 도구):
  모델 출력: 약 80 토큰 (old_string/new_string)
  적용 안전성: 매칭 실패 시 도구 에러 → 모델이 재시도
  토큰 비용: 최소

Codex CLI (유닾이드 디프):
  모델 출력: 약 120 토큰 (context lines 포함)
  적용 안전성: 헝크가 안 맞으면 fuzzy fallback
  토큰 비용: 적음

Cursor / Junie (직접 쓰기):
  모델 출력: 약 2000 토큰 (파일 전체 재출력)
  적용 안전성: 항상 적용 가능
  토큰 비용: 큼 (파일이 클수록 폭증)

Cline (혼합):
  모델 선택에 따라 가변

같은 한 줄을 바꾸는데 토큰 비용이 20배 차이난다. 100번의 작은 편집이 쌓이면 월 청구서가 10배 차이난다. 하루 평균 50번의 작은 편집을 하는 개발자에게는 결정적이다.

또 하나, 매칭 실패 시 동작의 차이도 크다. Aider와 Claude Code의 부분 편집은 "정확히 이 문자열" 매칭을 기대하므로 모델이 코드를 환각하면 적용이 실패한다 — 그러면 모델이 진짜 파일을 다시 읽고 정확한 문자열을 다시 만들어야 한다. 이건 안전 기능이다. 직접 쓰기 도구는 모델이 환각한 다른 부분도 함께 덮어쓸 위험이 있다.


10장 · 실제 워크플로 — 어떤 도구가 어느 자리에 맞는가

비교 표는 의사결정의 절반이다. 나머지는 "실제 작업에서" 어떻게 도는가다. 세 시나리오로 본다.

워크플로 1 · 플래키 테스트 고치기

작업의 본질: 가끔 실패하는 테스트가 있다. 환경에 따라 다르고, 타이밍 이슈일 수도 있고, 다른 테스트와의 의존성일 수도 있다. 재현이 어렵다.

필요한 능력:

  1. 테스트를 여러 번 돌려 패턴을 찾는다(while로 100번 돌리거나 시드를 바꾼다).
  2. 의심되는 위치를 격리한다(시간·랜덤·전역 상태).
  3. 가설을 세우고 코드를 약간 바꿔 검증한다.
  4. 진짜 픽스를 PR로 만든다.

잘 맞는 도구:

  • Claude Code — Bash로 재실행 루프를 자유롭게 돈다. 서브에이전트로 "테스트 100번 돌려 통계 내기"를 격리된 컨텍스트에 위임. 메인은 가설·픽스에 집중.
  • Codex CLI — bubblewrap 샌드박스에서 안심하고 테스트를 막 돌린다. 호스트가 안전.
  • Aider — 픽스가 명확해진 단계 이후에 강하다. SEARCH/REPLACE로 정밀한 한 줄 픽스, 자동 커밋.

덜 맞는 도구:

  • Cursor Background — 비동기라 재현 불가능한 버그의 디버깅 루프와 잘 안 맞는다. "지금 옆에서 같이 돌려보는" 작업에는 너무 멀다.
  • Continue.dev — CI에서 도는 게 강점이지 인터랙티브 디버깅이 강점이 아니다.

워크플로 2 · 새 엔드포인트 추가

작업의 본질: 기존 패턴을 따라 새 라우트를 만든다. 인증·검증·DB 호출·테스트·문서까지. 반복적이지만 정확해야 한다. 기존 컨벤션을 따라야 한다.

필요한 능력:

  1. 기존 엔드포인트 코드를 읽고 패턴을 학습한다.
  2. 새 파일들을 만들고 기존 파일들에 라우트 등록.
  3. 테스트를 추가.
  4. OpenAPI 스키마/문서 업데이트.
  5. 모든 게 컨벤션에 맞는지 검증.

잘 맞는 도구:

  • Cursor CLI — 임베딩 인덱스로 "비슷한 엔드포인트"를 빠르게 찾아 패턴을 학습한다. 강점.
  • Junie CLI — JetBrains IDE 통합에서 AST 분석을 빌려 와 정확한 라우트 등록·인터페이스 일치를 검증.
  • Claude CodeGlob·Grep으로 패턴 찾고, 서브에이전트로 "테스트 추가"를 위임. 메인은 라우트 코드에 집중.

덜 맞는 도구:

  • Aider — 가능하지만 명시적 add가 마찰. 패턴 학습을 위해 여러 파일을 직접 추가해야 한다. 정밀하지만 느림.
  • Cursor Background — 가능하지만 컨벤션 검증에서 사람이 봐야 할 부분이 많다 — 비동기로 던지면 결과를 다시 손봐야 할 가능성.

워크플로 3 · 모듈 리팩토링

작업의 본질: 큰 모듈을 더 작은 단위로 쪼개거나, 시그니처를 바꾸거나, 다른 패턴으로 옮긴다. 수십 개 파일이 동시에 변한다. 부분 적용은 빌드를 깬다.

필요한 능력:

  1. 영향 범위를 정확히 파악한다(어떤 파일이 변해야 하는가).
  2. 일관된 변경을 모든 곳에 적용한다.
  3. 빌드·테스트로 검증.
  4. 부분 실패 시 롤백.

잘 맞는 도구:

  • Cursor Background Agents — 비동기 + 병렬(최대 8)이 결정적. 큰 리팩토링을 여러 모듈로 분할해 동시에 돌린다. 결과는 PR.
  • Claude Code — 서브에이전트로 "각 모듈을 한 서브가 책임"으로 분할. 메인은 통합·일관성 검증.
  • Cline — 체크포인트로 안전망. 큰 리팩토링이 망가지면 매 도구 호출 단위로 되돌릴 수 있다.

덜 맞는 도구:

  • Aider — 명시적 add가 수십 파일 단위에선 부담. 가능하지만 워크플로가 무겁다.
  • Continue.dev — PR 단위 자동화엔 강하지만 "지금 큰 리팩토링을 시작한다"는 인터랙티브 시작점이 아니다.

11장 · 결정 트리 — 정직한 가이드

당신이 다음 중 어디에 가장 가깝나.

팀 규모와 거버넌스부터.

  1. 솔로 IC, 자유롭게. OSS 우선 → Aider 또는 Cline. 정밀한 한 변경 단위면 Aider. VS Code 통합·체크포인트가 좋으면 Cline. 정액제가 좋으면 Claude Code Pro.
  2. 소규모 팀(2~10명), 빠른 속도. Claude Code Max 또는 Cursor Pro. Claude 생태계에 익숙하면 전자, 임베딩·Background가 매력적이면 후자.
  3. 중대형 팀(10~50명), 정책·감사 필요. Cline 엔터프라이즈(VPC/on-prem 가능) 또는 Continue.dev(CI 통합) 또는 Junie CLI(JetBrains 거버넌스 활용). 클로즈드는 보안팀이 통과시켜야 한다.

워크플로 성격에 따라.

  1. 테스트 디버깅·즉시 피드백 루프 중심. Codex CLI(샌드박스) 또는 Claude Code(서브에이전트).
  2. CRUD 패턴 반복 추가. Cursor CLI(임베딩) 또는 Junie CLI(IDE 통합).
  3. 큰 리팩토링 / 마이그레이션. Cursor Background Agents 또는 Claude Code 서브에이전트.
  4. 고립된 한 변경, 정밀하게. Aider.
  5. CI 자동화 · PR 마다 도는 자동 점검. Continue.dev.

가격 민감도에 따라.

  1. 고정 비용 선호, 한도 안 신경. Claude Code Pro 월 20달러부터.
  2. 사용량 가변, 적게 쓰는 달은 적게 내고 싶다. BYOK — Cline / Aider / Junie / Continue.
  3. 비싸도 좋으니 최강. Claude Code Max + Cursor Ultra + Codex CLI Pro 동시 운용 (실제 헤비 유저 일부 패턴).

모델 락-인 회피.

  1. 여러 모델을 자유롭게. Junie CLI(LLM-불가지론) 또는 BYOK OSS — Aider/Cline/Continue. Claude Code·Cursor·Codex는 어느 정도 모델에 묶인다.

가장 흔한 실수: 도구 하나로 다 한다는 가정. 2026년 헤비 유저의 실제 패턴은 2~3개 동시 운용이다. 인터랙티브 페어 프로그래밍엔 Claude Code, 자동 PR 점검엔 Continue, 큰 리팩토링엔 Cursor Background — 식으로 분담한다. 도구 비용은 늘지만 시간 비용이 훨씬 더 준다.


에필로그 — 체크리스트, 안티패턴, 다음 글

도구를 고른 다음 1주일 안에 확인할 체크리스트

  • 내 실제 PR 3개를 그 도구로 다시 만들어 봤다(처음부터 끝까지).
  • 큰 파일·작은 파일·새 파일 각각의 편집 동작을 확인했다.
  • MCP 통합(있다면) 한 개를 실제로 설정해 봤다.
  • 비용을 일주일치 측정했다(API 사용량 + 구독 합계).
  • 보안팀(있다면)에 데이터 처리 정책을 한 번 보였다.
  • 팀원 한 명에게 30분 쉐도잉을 부탁해 봤다 — 막히는 지점이 어디인지.
  • CI에 어떻게 들어갈지 한 단락이라도 적어 봤다.

안티패턴 — 흔히 보는 실수

  1. 벤치마크 점수만 보고 결정한다. Aider 폴리글롯 1등 ≠ 당신 코드베이스에서 1등. 모델 점수와 도구 적합도는 다른 축이다.
  2. 시그니처 기능을 무시한다. Aider의 Architect/Editor, Cline의 Plan/Act, Cursor의 Background — 시그니처를 안 쓰면 그 도구의 진가를 못 본다. 그 도구의 가장 특이한 부분을 가장 먼저 시도하라.
  3. 모든 워크플로에 한 도구를 강요한다. 인터랙티브 디버깅과 비동기 큰 리팩토링은 다른 도구가 잘한다. 도구를 두세 개 묶어 운용해 비용 합쳐도 시간 비용보다 싸다.
  4. MCP가 뭔지 모르고 산다. 2026년 MCP는 표준이다. 사내 도구·DB·이슈 트래커를 에이전트에 노출하는 표준 방식이다. 안 쓰면 에이전트의 손을 묶는 거다.
  5. 체크포인트·롤백 없이 자율 모드를 푼다. Cline의 체크포인트 없이 자율 에이전트를 풀면 한 번 망가졌을 때 30분이 날아간다. 체크포인트 또는 git의 안전망을 반드시 설정하라.
  6. 비용을 추정하지 않는다. BYOK 도구의 월 모델 비용은 사용자가 직접 추정해야 한다. "공짜 도구"라고 부르는 사람들의 월 API 청구서가 200~500달러인 경우가 흔하다.
  7. 사람의 검토를 생략한다. AI가 만든 PR을 그대로 머지하면 6개월 뒤 기술 부채로 돌아온다. 인간 리뷰는 줄어드는 게 아니라 더 정밀해져야 한다.

다음 글 예고

다음 글에서는 이 7개 도구를 같은 작업에 동시에 돌려 본 결과 — 같은 PR, 다른 도구, 다른 결과를 본다. 진짜 코드 변경의 정량 비교, 비용 비교, 그리고 "어떤 도구가 어떤 단계에서 막혔는가"의 솔직한 기록.

그리고 그 다음은 MCP 서버 만들기 — 사내 도구를 표준 MCP 서버로 감싸 7개 도구 모두에서 쓰는 법. 한 번 만들면 모든 에이전트에서 산다.


참고 / References

AI CLI Coding Tools Shootout 2026 — Claude Code, Junie, Cline, Aider, Codex CLI, Cursor CLI, Continue.dev

Prologue — Why "CLI" again

Back in 2024 the default surface for AI coding tools was the IDE. Cursor defined the market, Copilot lived in a VS Code panel, Continue.dev was a sidebar. Then in the spring of 2026 every serious production-grade tool moved into the terminal. Claude Code led the way, OpenAI Codex CLI followed, JetBrains swallowed its pride and shipped Junie CLI in beta, and even Cursor released a standalone cursor-agent binary. Cline is an IDE extension but runs as a CLI too. Aider was always a CLI. Continue.dev pivoted to "Continuous AI" with a CLI at the core that runs on every PR.

Why CLI again? Three reasons.

  1. Agents need freedom. Real autonomous agents combine Bash, Read, Edit, and Grep freely. Caging them inside an IDE panel constrains that freedom. The terminal was always the space for tool composition.
  2. Workflows converge there. Git, CI, containers, SSH, tmux — a developer's real work converges on the terminal. Agents that live there fit naturally.
  3. They are automatable. A CLI can be called by cron, GitHub Actions, a Slack bot, or another agent. IDE panels cannot.

This post compares seven CLI/terminal-native tools on the same axes. Where earlier posts covered "the whole market including IDEs," this one focuses only on terminal-native agent harnesses. After the comparison, we walk through three real scenarios — fix a flaky test, add an endpoint, refactor a module — and decide which tool fits which.

Models converge, harnesses differentiate. Seven tools call the same Claude / GPT / Gemini, but they behave wildly differently.

Prices and features move fast. Every number here is as of May 2026 and we focus on structural differences. Six months from now the numbers may shift, but the decision frame should still hold.


1. The comparison axes — what to actually look at

We decompose the seven tools across eight axes. The axes themselves are the decision frame.

Axis 1 · Agent loop strategy How the model gets called repeatedly. (a) Monolithic loop — a single main model makes all decisions. Aider and the default Codex CLI mode. (b) Architect/editor split — a strong model plans, a fast model edits. Aider architect, Codex CLI reasoning modes. (c) Main + subagents — main delegates to subagents that work with isolated context. Claude Code, Cursor Background Agents, Junie CLI. (d) Plan/Act toggle — the user explicitly switches modes. Cline's signature.

Axis 2 · File editing model This matters more than people think. (a) Search-and-replace blocks — the model emits OLD → NEW blocks and the harness applies them. Aider's classic format. Token-efficient and fails loudly. (b) Unified diff — patch format. Some Codex CLI modes. (c) Direct file write (write_file tool) — the model rewrites whole files through a tool call. Claude Code (Write), Cursor, Junie. Token-heavy on large files. (d) Targeted edit tool — the model passes exact old/new strings as tool arguments. Claude Code's Edit. Safe but matching can fail.

Axis 3 · Context strategy How code is found and shown to the model. (a) Embedding index — Cursor leads here. Fast semantic search but freshness issues. (b) grep/find first — Claude Code, Aider, Codex CLI. No index; clever search-tool composition. (c) Explicit add — Aider — the user picks files into context. Maximum control. (d) Auto-collection — the model decides what files to read on its own.

Axis 4 · Sub-agents / parallelism Can a single task split across multiple agents? Claude Code spawns subagents via the Task tool. Cursor Background supports up to 8 in parallel. Junie CLI calls them "agent skills." Aider and Continue are single-agent by default. The difference is decisive on large refactors.

Axis 5 · MCP support Model Context Protocol — by 2026 the industry standard. (a) First-class — Claude Code (Anthropic invented MCP), Codex CLI, Cursor CLI, Junie CLI. (b) Second-class — Cline supports stdio/SSE MCP with a marketplace. Continue supports it. (c) Partial — Aider accepts some MCP servers but integration is shallower. MCP is how you wire external tools (DBs, issue trackers, browsers, internal APIs) to the agent in a standard way.

Axis 6 · Pricing / cost model Three patterns. (a) Flat subscription — Claude Code Pro at 20 USD/month, Max at 100 and 200 USD. Predictable, friendly to heavy users. (b) BYOK (Bring Your Own Key) — Cline, Aider, Continue, Junie CLI. You pay model inference costs to the provider. (c) Token/credit — Cursor Max mode, Codex CLI API usage. High variance. Always estimate the heavy-user monthly cost — the same task can cost 10x more on one tool than another.

Axis 7 · OSS status (a) Open source — Aider (Apache), Cline (MIT), Continue (Apache), Codex CLI (Apache, Rust). (b) Closed — Claude Code (binary distribution, SDK partially open), Cursor CLI, Junie CLI (JetBrains license). In enterprise procurement OSS status can be decisive — audit, fork, on-prem deployment.

Axis 8 · Observability / safety Can you trace what the agent did? (a) Checkpoints — Cline commits to a shadow git after every tool call. Rollback is trivial. (b) Permission gates — Claude Code's yes/no prompts. Codex CLI is similar. (c) Sandboxing — Codex CLI ships bubblewrap on Linux and integrates Docker devcontainers. (d) Diff preview — every tool offers it to some degree, but depth varies.

Keep these eight axes in mind and now we look at each tool. Every chapter uses the same template.


2. Claude Code — the terminal-agent baseline

Surface · Strengths Pure CLI. Enter via the claude command. Runs anywhere in the codebase. Anthropic's own models (Opus 4.5, Sonnet 4.6) by default; other models only via the SDK. Since Anthropic invented MCP, MCP integration is a first-class citizen.

Agent loop A main agent runs the ReAct loop. When it needs to, it spawns subagents via the Task tool — each subagent gets its own context window, finishes its job, and returns only the result to the main agent. Context isolation is clean. The main agent never has to spend its 200k window on grunt work because the subagent does it in its own window.

File editing The Edit tool does targeted edits (old_string to new_string). The match must be exact, but it is safe. Whole-file rewrites are rare so token efficiency stays good. Write creates new files.

Context strategy No embedding index. Read, Glob, Grep, Bash find things on demand. The result: no index-freshness problem, and the model reasons about where to look. It scales well to large repos.

Subagents / MCP / pricing Subagents are the core feature. MCP is first-class on stdio and HTTP — a 6,000+ server ecosystem. Pricing is Pro at 20 USD/month, Max at 100 and 200 USD. Enterprise averages report about 13 USD per active day and 150 to 250 USD per developer per month. The flat-rate model favors heavy users versus token-metered tools.

Weaknesses Model lock-in — it really does run best on Claude. Other models work via the SDK but the seams show. Not fully closed but the core is a binary. Auditability is a concern for large teams.

One-line summary

Flat-rate CLI agent with first-class subagents and MCP. Locked to Claude, but inside that lane it is the smoothest of the bunch.


3. OpenAI Codex CLI — Rust rewrite and GPT-5.5

Surface · Strengths Enter via the codex command. OpenAI rewrote the original Node/TypeScript implementation in Rust in late 2025, and by spring 2026 about 95 percent of the codebase is Rust. Fast startup, low memory. Over 67,000 GitHub stars and a very active 10 to 15 commits per day cadence.

Agent loop You can pick GPT-5.5 (recommended in May 2026), GPT-5.4, or GPT-5.3-Codex, and tune reasoning levels. Subagents are documented in the official guide — one Codex agent reviewing another Codex agent's changes is a canonical pattern. MCP servers with the supports_parallel_tool_calls flag enable parallel tool calls — one reported workload dropped from 58 seconds to 31.

File editing Unified diff format dominates. The model emits patches and the harness applies them. Efficient on large-file changes.

Context strategy No embedding index. grep and find first. Same philosophy as Claude Code.

Subagents / MCP / pricing MCP first-class — stdio and streaming HTTP. Pricing is API metered plus optional ChatGPT Plus/Pro subscriptions that include some GPT-5.5 usage.

Sandbox — the real differentiator Bubblewrap-based sandbox on Linux. First-class Docker devcontainer integration. Host filesystem access is isolated. Even if you tell the agent to rm something, the host stays safe — a depth other CLI tools do not match.

Weaknesses GPT-only. Other providers require an OpenAI-compatible endpoint workaround. UX is rougher than Claude Code — Rust rewrite is ongoing and some commands churn.

One-line summary

OpenAI's terminal agent, rewritten lean in Rust. Best-in-class sandboxing. Locked to GPT-5.5.


4. JetBrains Junie CLI — the late arrival from the IDE world

Surface · Strengths Beta launched March 2026. Started as an in-IDE agent inside IntelliJ and PyCharm; then forked off into a standalone CLI. Runs in the terminal alone, inside any IDE, in CI/CD, on GitHub or GitLab.

Agent loop "LLM-agnostic" from day one — first-class support for OpenAI, Anthropic, Google, and Grok models. Where other tools lean into a vendor, Junie was designed to swap models freely. "Agent skills" define subagents. The "next-task prediction" pitch claims Junie understands project context and proactively suggests follow-up work.

File editing Borrows JetBrains' IDE analysis when integrated — AST-aware edits become possible. Standalone CLI mode is text-based, but inside the IDE it leverages indexing and refactoring tools the JetBrains platform already provides.

MCP / pricing MCP supported. BYOK by default — bring your own model keys, no platform charge. Junie also threw in one free week of Gemini 3 Flash at launch. Tied into JetBrains AI plans (Pro 100 USD/year, Ultimate 300 USD/year, Enterprise 720 USD/year).

One-click migration Explicitly advertises importing config from Claude Code, Codex, and others. As the late entrant it is openly trying to peel away existing users.

Weaknesses Beta. Stability and ecosystem are still thin. Most compelling inside JetBrains IDEs — strip out the IDE integration and the pure CLI does not yet stand out against the others. BYOK pricing means heavy users still have to model the inference bill separately.

One-line summary

Late but with a clear differentiator: model-agnostic and BYOK. Instant appeal for JetBrains shops, wait-and-see for everyone else.


5. Cline — from VS Code to CLI, the OSS champion

Surface · Strengths Originally a VS Code extension; in 2026 it also runs as a CLI assistant. MIT-licensed, 57,000+ GitHub stars, 4 million installs. Real open source.

Agent loop — Plan/Act toggle is the signature Plan mode — read-only, the architect role. Cheap on tokens, makes you and the agent agree on the plan first. Act mode — executes the plan. The explicit toggle is the point. The official docs are blunt: "skipping Plan and jumping straight into Act is the most common mistake."

File editing Mix of direct file write and targeted edits. The format depends on the chosen model.

Checkpoints — the observability champion After every tool call, Cline commits to a shadow git repo. Every edit, every command, every web request gets its own checkpoint. Three rollback modes: Restore Files, Restore Task Only, full reset. Deeper observability than anything else here — you can undo what the agent did six steps ago.

MCP / pricing MCP marketplace — runs its own marketplace with stdio and SSE servers. Pricing is BYOK — the extension is free, you pay inference cost on your own keys. Light users 5 to 50 USD/month, heavy users 100+. Team plan is 20 USD per user per month (post Q1 2026), first 10 seats free. Enterprise plan supports VPC, on-prem, and air-gapped deployments.

Weaknesses Pure-CLI standalone use is not as polished as the VS Code experience yet. The Plan/Act toggle is a love-it-or-hate-it design — users coming from Claude Code's smooth autonomy can find it friction-heavy.

One-line summary

Real OSS, BYOK, checkpoint-armored. Plan/Act is taste-dependent. With VS Code it is the strongest combination.


6. Aider — the original git-native

Surface · Strengths Paul Gauthier's tool, the oldest and most mature CLI agent here. Enter via aider. Apache-licensed. Treats git as the source of truth — you add files to context explicitly, the model proposes changes, and every change is auto-committed with a meaningful commit message.

Agent loop — the Architect/Editor pattern is the signature Two models in tandem. The architect — a strong reasoning model (o3, Opus 4.5) — proposes how to fix the request. The editor — a faster/cheaper model — turns that plan into Aider's diff format. Users fine-tune the cost/quality trade-off precisely.

File editing — the SEARCH/REPLACE original The model emits "this exact old code becomes this new code" diff blocks. The harness matches and applies. Match failures are loud — when the agent hallucinates code, application fails and the model retries. Token efficiency is best-in-class.

Context strategy — explicit add The user runs /add file.py to put a file into context. No auto-collection. Maximum control. In large repos this gives a certainty other tools cannot — "I am working on exactly these five files." /web adds web content, /voice adds voice input, watch mode triggers on comments — workflow integration runs deep.

Models / polyglot benchmark Supports every major model. Aider's polyglot leaderboard has become the de facto coding-model benchmark. As of May 2026: Claude Opus 4.5 at 89.4 percent, GPT-5 (high) at 88.0, Gemini 2.5 Pro Preview 06-05 at 82.2, o3 at 81.3. Mean score 58.1 percent.

MCP / pricing / weaknesses MCP partial — accepts some servers but integration depth is below the front-runners. Pricing is BYOK — the tool is free, you pay model costs. Weaknesses: no subagents (single agent). No auto-context (learning curve). Rough UX. Philosophy is closer to "one precise change unit" pair programming than to broad autonomy.

One-line summary

Git-native, the SEARCH/REPLACE original, Architect/Editor split. The most mature and the most controllable CLI tool. Precision over autonomy.


7. Cursor CLI / Background Agents — the IDE company's non-IDE surface

Surface · Strengths Cursor is famous for the IDE, but since January 2026 it ships cursor-agent, a standalone binary. Runs in the terminal with the same prompts, tools, and MCP integration as the IDE agent. Cursor 3.0 in April 2026 added Background Agents — asynchronous cloud-VM agents.

Agent loop — synchronous and asynchronous tracks cursor-agent is synchronous — a normal ReAct loop. Background Agents are asynchronous: they spin up a cloud VM, work on a separate branch, and push a PR when done. Up to 8 in parallel. Cursor 3.0's "Cloud handoff" lets you start an agent task locally and hand it off to the cloud — your machine can sleep while it keeps running.

File editing / context Mostly direct file write. The embedding index — Cursor's most-developed surface in the IDE — is partially carried into the CLI. The Cursor strength.

MCP / pricing MCP first-class. Tools defined in mcp.json are picked up automatically by the CLI. Pricing has five tiers — Hobby 0 USD, Pro 20 USD/month, Pro+ 60, Ultra 200, Teams 40 per user per month. Max mode (strong models) is token-metered with a 20 percent margin. Background Agents always run in Max mode — a 50-step task on Claude Sonnet runs 0.30 to 0.60 USD; complex tasks reach 4 to 5 USD.

Weaknesses At heart this is an IDE company. The CLI is a secondary surface, not a first-class citizen. Background Agents are powerful but pricey. Cloud-VM dependence — does not run in a closed network.

One-line summary

The IDE's embedding strength brought into the CLI. Background Agents' async parallelism is unique. Cloud dependence is a governance question.


8. Continue.dev — the OSS that pivoted to "Continuous AI"

Surface · Strengths Originally a VS Code/JetBrains sidebar chat. In 2026 it pivoted to "Continuous AI" — an open-source CLI that runs on every PR. Apache-licensed. Enforces team rules, catches issues, suggests fixes, all in CI automatically.

Agent loop The 2026 Agent mode flows requirement-analysis to plan to file-edit to terminal-exec to verify, autonomously. The CLI is built around per-PR execution. Tagline: "source-controlled AI checks, enforceable in CI."

File editing / context Context Providers — @codebase (architecture understanding), @docs (specific doc sites), @github (issues and PRs). The model receives context through explicit channels.

MCP / pricing MCP supported. Free OSS + Continue Hub paid plans (team collaboration, shared prompt templates, centralized config management). Supports nearly every model — Claude Opus 4.6 / Sonnet 4.6, GPT-4o / o3, Gemini 2.0 Pro, Llama 3.3, DeepSeek V3.

Weaknesses Agent maturity trails Claude Code, Codex, and Aider by a step. Its strength is "the agent that lives inside CI" — not interactive pair work.

One-line summary

OSS, CLI, CI-native is the triangle. Clear position as the per-PR automation agent. As an interactive coding partner, average.


9. The head-to-head comparison matrix

ToolLicenseModelsEdit modelContextSubagentsMCPPricing modelSignature
Claude CodeClosed (SDK partial)Claude primaryEdit (targeted) + Writegrep first, 200k windowTask tool, isolatedFirst-class, 6000+ serversFlat (20 / 100 / 200 USD)Smooth subagents
Codex CLIOSS (Apache, Rust)GPT-5.5 primaryUnified diffgrep firstDocumented patternFirst-class, parallel callsAPI + ChatGPT subscriptionbubblewrap sandbox
Junie CLIClosed (JetBrains)LLM-agnosticAST-aware (with IDE)Borrows IDE indexagent skillsSupportedBYOK + JetBrains AI plansModel freedom, migration help
ClineOSS (MIT)BYOK anyDirect write + targetedAuto + explicitLimitedMarketplaceBYOK (light 5-50 USD/mo)Plan/Act + checkpoints
AiderOSS (Apache)BYOK anySEARCH/REPLACE originalExplicit addNonePartialBYOKArchitect/Editor + auto-commit
Cursor CLIClosedAnthropic/OpenAI primaryDirect writeEmbedding indexBackground up to 8First-class5-tier (0 / 20 / 60 / 200 USD)Background Agents, Cloud handoff
Continue.devOSS (Apache)BYOK almost anyDirect writeContext ProvidersLimitedSupportedOSS free + Hub paidCI/PR automation (Continuous AI)

How to read it: the Signature column is the soul. One line that captures "what this tool does that the others do not." If the signature matches your workflow, dig deeper. If not, move on quickly.

What the edit model really costs — a closer look

The table does not show the practical impact of the edit model. Visualize the same one-line change handled by each of the seven tools and the difference becomes obvious.

File: src/auth.ts (200 lines)
Request: change getUser()'s throw message from "Not authorized" to "Unauthorized: missing token".

Aider (SEARCH/REPLACE):
  Model output: ~100 tokens (block form)
  Apply safety: match failure raises a clear error
  Token cost: minimal

Claude Code (Edit tool):
  Model output: ~80 tokens (old_string/new_string)
  Apply safety: match failure becomes a tool error - model retries
  Token cost: minimal

Codex CLI (unified diff):
  Model output: ~120 tokens (with context lines)
  Apply safety: failing hunks fall back to fuzzy match
  Token cost: small

Cursor / Junie (direct write):
  Model output: ~2000 tokens (re-emit the whole file)
  Apply safety: always applies
  Token cost: large (explodes with file size)

Cline (mixed):
  Varies by model choice

A single-line change can cost 20x more tokens depending on the tool. Over 100 small edits the monthly bill differs by 10x. For a developer averaging 50 small edits per day this is decisive.

The other half is behavior on match failure. Aider and Claude Code's targeted edits expect "exactly this string" matching, so a model hallucination causes apply to fail — the model is forced to re-read the real file and produce an accurate match. That is a safety feature. Direct-write tools risk overwriting other hallucinated regions silently.


10. Real workflows — which tool fits which job

The comparison table is half the decision. The other half is "how does it run on real work." We use three scenarios.

Workflow 1 · Fix a flaky test

Nature of the work: a test fails intermittently. Environment-dependent, timing-related, or coupled to other tests. Hard to reproduce.

What you need:

  1. Re-run the test repeatedly to find the pattern (while for 100 runs, or vary the seed).
  2. Isolate the suspect (time, randomness, global state).
  3. Form a hypothesis, change code lightly, verify.
  4. Land a real fix as a PR.

Good fits:

  • Claude CodeBash re-run loops are natural. Delegate "run 100 times and produce stats" to a subagent in isolated context. The main agent stays on hypothesis and fix.
  • Codex CLI — bubblewrap sandbox lets you run tests with abandon. Host stays safe.
  • Aider — strong once the fix is identified. Precise one-liner with SEARCH/REPLACE and an auto-commit.

Poor fits:

  • Cursor Background — asynchronous; not the right shape for an unreproducible-bug debugging loop. The "let's run it right here together" cadence is too far away.
  • Continue.dev — strong inside CI, not in interactive debugging.

Workflow 2 · Add a new endpoint

Nature of the work: follow existing patterns to add a route. Auth, validation, DB call, tests, docs. Repetitive but must be precise. Must obey existing conventions.

What you need:

  1. Read existing endpoint code and learn the pattern.
  2. Create new files and register routes in existing ones.
  3. Add tests.
  4. Update OpenAPI schema and docs.
  5. Verify everything follows the conventions.

Good fits:

  • Cursor CLI — embedding index finds "similar endpoints" fast for pattern learning. Strength.
  • Junie CLI — JetBrains IDE integration borrows AST analysis for precise route registration and interface checks.
  • Claude CodeGlob and Grep locate patterns; delegate test-writing to a subagent; the main agent focuses on the route.

Poor fits:

  • Aider — possible but the explicit add is friction. You manually add multiple files for pattern learning. Precise but slow.
  • Cursor Background — possible but convention-verification is human work. Throwing it async tends to mean reworking the result.

Workflow 3 · Refactor a module

Nature of the work: split a large module, change a signature, move to a different pattern. Dozens of files change at once. Partial application breaks the build.

What you need:

  1. Identify the impact set precisely.
  2. Apply consistent changes everywhere.
  3. Verify by build and test.
  4. Roll back on partial failure.

Good fits:

  • Cursor Background Agents — async + up to 8 parallel is decisive. Split a refactor into modules and run them concurrently. Results come as PRs.
  • Claude Code — subagents take "one module per subagent" split; main agent does integration and consistency checking.
  • Cline — checkpoints as a safety net. When a big refactor breaks, you can undo at tool-call granularity.

Poor fits:

  • Aider — explicit add across dozens of files is heavy. Possible, but the workflow is awkward.
  • Continue.dev — strong at per-PR automation, not at "kicking off a big refactor right now" as an interactive entry point.

11. The decision tree — an honest guide

Which of these are you closest to?

Team size and governance first.

  1. Solo IC, free hand. OSS preferred → Aider or Cline. Precise one-change unit work goes to Aider; VS Code integration and checkpoints to Cline. Flat-rate lover → Claude Code Pro.
  2. Small team (2-10), speed-focused. Claude Code Max or Cursor Pro. If you live in the Claude ecosystem already, former; if embeddings and Background appeal, latter.
  3. Medium-to-large team (10-50), policy and audit needed. Cline Enterprise (VPC/on-prem), Continue.dev (CI integration), or Junie CLI (JetBrains governance). Closed-source tools need security-team approval.

Workflow shape.

  1. Test debugging, immediate feedback loop. Codex CLI (sandbox) or Claude Code (subagents).
  2. Repetitive CRUD pattern additions. Cursor CLI (embeddings) or Junie CLI (IDE integration).
  3. Big refactor / migration. Cursor Background Agents or Claude Code subagents.
  4. Isolated single change, precise. Aider.
  5. CI automation / per-PR automatic checks. Continue.dev.

Cost sensitivity.

  1. Fixed budget, no per-call worry. Claude Code Pro from 20 USD/month.
  2. Variable usage; pay less in light months. BYOK — Cline, Aider, Junie, or Continue.
  3. Want the best regardless of cost. Claude Code Max plus Cursor Ultra plus Codex CLI Pro in parallel (an actual heavy-user pattern).

Avoiding model lock-in.

  1. Free to swap models. Junie CLI (LLM-agnostic) or any BYOK OSS — Aider, Cline, Continue. Claude Code, Cursor, and Codex bind you somewhat to specific providers.

The most common mistake: assuming one tool covers everything. In 2026 the actual heavy-user pattern is two to three tools in parallel. Claude Code for interactive pair work, Continue for automatic PR checks, Cursor Background for big refactors — split by job. Tool spend rises; time spend falls much further.


Epilogue — checklist, anti-patterns, and what comes next

A 1-week checklist after you pick a tool

  • Re-do three real PRs from your repo with that tool, end to end.
  • Exercise edits on a large file, a small file, and a brand-new file.
  • Set up one MCP integration that you actually use.
  • Measure a full week of cost (API metering plus subscriptions).
  • Walk security or compliance through the data-handling policy (if applicable).
  • Shadow one teammate for 30 minutes — note where they get stuck.
  • Write at least one paragraph on how this lands in CI.

Anti-patterns to avoid

  1. Choosing by benchmark score alone. Aider polyglot leader does not equal best on your codebase. Model score and tool fit are different axes.
  2. Ignoring the signature feature. Aider's Architect/Editor, Cline's Plan/Act, Cursor's Background — if you do not use the signature, you do not really know the tool. Try the weirdest part first.
  3. Forcing one tool on every workflow. Interactive debugging and async big refactors want different tools. Two or three in combination usually beats one universally.
  4. Not knowing what MCP is. In 2026 MCP is the standard for exposing internal tools, DBs, and trackers to agents. Ignoring it ties your agent's hands.
  5. Autonomous mode with no checkpoints or rollback. Without Cline's checkpoints or git safety nets, one bad run wipes 30 minutes. Always have a rollback path.
  6. Not estimating cost. With BYOK tools, monthly model spend is on you to estimate. People who say "the tool is free" routinely get 200 to 500 USD/month API bills.
  7. Skipping human review. Merging an AI PR untouched ages into tech debt within six months. Human review does not shrink; it grows sharper.

Next post

Next we run the same task across all seven tools — same PR, different harness, different result. Quantitative comparison of the actual code changes, of cost, and an honest log of "where each tool got stuck."

After that: building an MCP server — wrap an internal tool as a standard MCP server and use it from all seven tools. Build once, run everywhere.


References