Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

プロローグ — なぜ再び「CLI」なのか
1章 · 比較軸 — 何を見て選ぶべきか
2章 · Claude Code — ターミナルエージェントの基準点
3章 · OpenAI Codex CLI — Rust リライトと GPT-5.5
4章 · JetBrains Junie CLI — IDE から降りてきた遅参者
5章 · Cline — VS Code から CLI まで、OSS のチャンピオン
6章 · Aider — Git-ネイティブの元祖
7章 · Cursor CLI / Background Agents — IDE 会社の非 IDE 表面
8章 · Continue.dev — 「Continuous AI」へピボットした OSS
9章 · 正面比較マトリックス
- 編集モデルが作る差 — より深く
10章 · 実ワークフロー — どのツールがどの仕事に合うか
11章 · 意思決定木 — 正直なガイド
エピローグ — チェックリスト、アンチパターン、次回予告
参考 / References

プロローグ — なぜ再び「CLI」なのか

2024年までは、AI コーディングツールのデフォルト surface は IDE だった。Cursor が市場を定義し、Copilot は VS Code パネルに住み、Continue はサイドバーだった。それが 2026 年春、本気でプロダクションコードを任せられるツールが一斉にターミナルへ降りてきた。Claude Code が道を開き、OpenAI Codex CLI が続き、JetBrains はプライドを捨てて Junie CLI をベータ公開し、Cursor も cursor-agent バイナリをリリースした。Cline は IDE 拡張だが CLI でも動く。Aider は最初から CLI だ。Continue.dev は「Continuous AI」へピボットし、PR ごとに走る CLI を中心に据えた。

なぜ再び CLI なのか。理由は3つある。

エージェントは自由でなければならない。 真の自律エージェントは Bash・Read・Edit・Grep を自由に組み合わせる。IDE パネルの中に閉じ込めるとその自由が削られる。ターミナルは元々ツール組み合わせの空間だ。
ワークフローがそこに集まる。 Git、CI、コンテナ、SSH、tmux — 開発者の本当の作業はターミナルに集まる。エージェントがそこにあれば馴染む。
自動化できる。 CLI は cron、GitHub Actions、Slack ボット、他のエージェントから呼べる。IDE パネルは呼べない。

この記事は 7 つの CLI/ターミナルネイティブツールを同じ軸で正面比較する。これまでの記事が「IDE まで含む市場全体」を扱ったなら、この記事はターミナルで走るエージェントハーネスのみを見る。比較の後で、3つの実シナリオ — フレーキーテスト修正、エンドポイント追加、モジュールリファクタリング — でどのツールが合うか考える。

モデルはますます同じになり、ハーネスが差を生む。7つのツールは同じ Claude・GPT・Gemini を呼ぶが、振る舞いはまったく違う。

価格・機能の数値は速く変わる。この記事のすべての数字は 2026年5月時点 であり、構造的差異に集中する。6 ヶ月後に数字が変わっても意思決定フレームは有効でなければならない。

1章 · 比較軸 — 何を見て選ぶべきか

7つのツールを 8 つの軸に分解して見る。軸そのものが意思決定フレームだ。

軸1 · エージェントループ戦略 モデルをどう繰り返し呼ぶか。(a) モノリシックループ — 1つのメインモデルがすべての決定を行う。Aider、Codex CLI デフォルトモード。(b) アーキテクト・エディタ分離 — 強いモデルが計画し、速いモデルが編集する。Aider architect、Codex CLI の reasoning モード。(c) メイン + サブエージェント — メインが委任し、サブが隔離されたコンテキストで働く。Claude Code、Cursor Background、Junie CLI。(d) Plan/Act トグル — ユーザーが明示的にモードを切り替える。Cline のシグネチャ。

軸2 · ファイル編集モデル 意外に重要だ。(a) 検索置換 (SEARCH/REPLACE) ブロック — モデルが「この部分を → この部分へ」の形式で出力し、ハーネスが適用する。Aider の正統フォーマット。トークン効率が良く、適用失敗が明確だ。(b) ユニファイドディフ — パッチ形式。Codex CLI 一部モード。(c) 直接ファイル書き込み (write_file ツール) — モデルがファイル全体をツール呼び出しで書き直す。Claude Code、Cursor、Junie。大きいファイルでトークン爆発。(d) 部分編集ツール (Edit) — モデルが正確な旧文字列・新文字列をツール引数で渡す。Claude Code の Edit。安全だがマッチ失敗が起きうる。

軸3 · コンテキスト戦略 コードを見つけてモデルに見せる方法。(a) 埋め込みインデックス — Cursor が代表。速いセマンティック検索だがインデックス鮮度の問題。(b) grep/find ファースト — Claude Code、Aider、Codex CLI。埋め込みなしで巧みな検索ツール組み合わせ。(c) 明示的 add — Aider — ファイルをユーザーが選んでコンテキストに入れる。制御力最強。(d) 自動収集 — モデルがどのファイルが必要かを自ら決めて読む。

軸4 · サブエージェント / 並列性 1つの作業を複数エージェントに分割できるか。Claude Code は Task ツールでサブエージェントを起動。Cursor Background は最大8並列。Junie CLI は「agent skills」でサブエージェントを定義する。Aider、Continue は基本的に単一エージェント。大きなリファクタリングで差が決定的になる。

軸5 · MCP サポート Model Context Protocol — 2026 年に事実上業界標準になった。(a) 1級サポート — Claude Code (MCP の作成元)、Codex CLI、Cursor CLI、Junie CLI。(b) 2級サポート — Cline は stdio/SSE MCP をマーケットプレイス付きでサポート。Continue もサポート。(c) 部分サポート — Aider は一部 MCP を受けるが深い統合ではない。MCP があれば外部ツール (DB、課題トラッカー、ブラウザ、社内 API) を標準方法で接続できる。

軸6 · 価格 / コストモデル 3パターン。(a) 定額サブスクリプション — Claude Code Pro 月20ドル、Max 100・200ドル。ヘビーユーザーに有利。(b) BYOK (Bring Your Own Key) — Cline、Aider、Continue、Junie CLI。自分の API キーで推論コストのみ支払う。(c) トークン/クレジット — Cursor の Max モード、Codex CLI の API 使用量。変動性大。ヘビーユーザーの月コストを必ず推定すること — 同じ作業でもツール間で 10 倍違うことがある。

軸7 · OSS かどうか (a) オープンソース — Aider (Apache)、Cline (MIT)、Continue (Apache)、Codex CLI (Apache、Rust)。(b) クローズド — Claude Code (バイナリ配布、SDK 一部公開)、Cursor CLI、Junie CLI (JetBrains ライセンス)。エンタープライズ導入では OSS かどうかが決定要因になる場合がある — 監査、フォーク、オンプレ配備。

軸8 · 観測可能性 / 安全装置 エージェントが何をしたかを追跡できるか。(a) チェックポイント — Cline は各ツール呼び出し後にシャドウ git にコミット。ロールバック可能。(b) 権限ゲート — Claude Code の yes/no プロンプト。Codex CLI も同様。(c) サンドボックス — Codex CLI は Linux で bubblewrap、Docker devcontainer 統合。(d) ディフプレビュー — すべてのツールがある程度提供するが深さは異なる。

この 8 軸を頭に入れて、ツールを1つずつ見る。各章は同じ枠で整理する。

2章 · Claude Code — ターミナルエージェントの基準点

Surface · 強み 純粋な CLI。claude コマンドで起動。コードベースのどこでも動く。Anthropic 独自モデル (Opus 4.5、Sonnet 4.6) をデフォルトで使うが、他モデルは SDK レベルでのみサポート。MCP を作った会社のツールなので MCP 統合が 1 級市民だ。

エージェントループ メインエージェントが ReAct ループを回す。必要に応じて Task ツールでサブエージェントを起動 — サブは独立したコンテキストウィンドウを受け取り、仕事を終えるとメインに結果だけ返す。コンテキスト隔離がきれいだ。メインが 200k トークンを使い切る前に、サブが自分の仕事を自分のウィンドウで片付ける。

ファイル編集 Edit ツールで部分編集 (old_string → new_string)。マッチが正確である必要があるが安全だ。大きなファイル全体を書き直すことが稀でトークン効率が良い。Write で新規ファイル作成も可能。

コンテキスト戦略 埋め込みインデックスなし。Read・Glob・Grep・Bash でその都度探す。結果としてインデックス鮮度の問題がなく、モデルが「どこを見るべきか」を自ら推論する。大きなリポジトリでもよく耐える。

サブエージェント / MCP / 価格 サブエージェントは中核機能。MCP は stdio・HTTP 両方 1 級サポート。6,000 以上の MCP サーバーエコシステムがある。価格は Pro 月20ドル、Max 100・200ドル。アクティブ日あたり平均13ドル、月150〜250ドルがエンタープライズ平均との報告。トークン課金でない定額モデルがヘビーユーザーに有利だ。

弱点モデルロックイン — Claude でしかうまく動かないのが実情。他モデルは SDK で回り道する必要がある。100% クローズドではないがコアはバイナリ。大きなチームでは監査が難しい。

一行サマリー

サブエージェントと MCP が 1 級市民の定額制 CLI エージェント。モデルは Claude に縛られるが、その範囲内で最も滑らか。

3章 · OpenAI Codex CLI — Rust リライトと GPT-5.5

Surface · 強み codex コマンドで起動。2025 年末に OpenAI が Node/TypeScript 原本を Rust に書き直し、2026 年春にはコードベースの 95% が Rust。起動が速くメモリが軽い。GitHub スター 67,000 以上、日 10〜15 コミットの非常に活発な開発。

エージェントループ GPT-5.5 (2026 年 5 月現在の推奨モデル)、GPT-5.4、GPT-5.3-Codex から選び reasoning レベルを調整。サブエージェントサポート — Codex エージェントが別の Codex エージェントにコードレビューさせるパターンが公式ガイドに載っている。MCP サーバーの supports_parallel_tool_calls フラグで並列ツール呼び出し — 同じ作業で 58 秒が 31 秒になったとの報告。

ファイル編集 ユニファイドディフ形式が主力。モデルが直接パッチを生成しハーネスが適用する。大きなファイル変更でトークン効率が良い。

コンテキスト戦略 埋め込みインデックスなし。grep/find ツールで 1 次検索。Claude Code と哲学が同じ。

サブエージェント / MCP / 価格 MCP は 1 級。stdio・streaming HTTP 両方サポート。価格は API 使用量 + ChatGPT Plus・Pro サブスクリプションモデル両方。Pro サブスクライバーは一定量の GPT-5.5 呼び出しが含まれる。

サンドボックス — 真の差別化点 Linux で bubblewrap ベースのサンドボックス。Docker devcontainer 1 級サポート。ホストファイルシステムアクセスを隔離する。エージェントに「削除して」と言ってもホストは安全 — 他の CLI ツールが追いつけない部分。

弱点 GPT モデル前提。他モデルは OpenAI API 互換エンドポイントで回り道する必要がある。UI/UX が Claude Code より荒い — Rust リライトが進行中で一部コマンドがよく変わる。

一行サマリー

Rust で軽く書き直された OpenAI のターミナルエージェント。サンドボックスが最強。GPT-5.5 に縛られる。

4章 · JetBrains Junie CLI — IDE から降りてきた遅参者

Surface · 強み 2026 年 3 月にベータリリース。IntelliJ・PyCharm のような JetBrains IDE 組み込みエージェントとして始まり CLI に分離された。ターミナルで単独で動く。IDE 内でも、CI/CD でも、GitHub/GitLab でも動く。

エージェントループ 「LLM-不可知論」 — 最初から OpenAI、Anthropic、Google、Grok モデルすべてを 1 級でサポート。他ツールがモデルに縛られる中、Junie CLI はモデルを自由に取り替えられるよう設計された。「agent skills」でサブエージェントを定義する。「next-task prediction」 — プロジェクトコンテキストを理解して次の作業を予測すると主張。

ファイル編集 JetBrains の IDE 解析を一部持ち込んで — AST ベース編集を試みる。CLI 単独動作時はテキスト編集だが、IDE 統合時はインデックス・リファクタリングツールを借りる。

MCP / 価格 MCP サポート。BYOK がデフォルト — 自分のモデルキーを持ち込めばプラットフォーム料金なし。リリース直後 Gemini 3 Flash を 1 週間無料公開した。JetBrains AI プランとも連動 (Pro 100ドル/年、Ultimate 300ドル/年、Enterprise 720ドル/年)。

ワンクリック移行 Claude Code、Codex など他エージェント設定を持ち込む機能を明示的に宣伝する。遅参者だけに「既存ユーザーを奪う」が露骨だ。

弱点ベータ。安定性・エコシステムがまだ薄い。JetBrains IDE に最もよく合う — IDE 統合の恩恵を除いて CLI のみ使うと他ツールに対する圧倒的な強みはない。価格モデルが BYOK でヘビーユーザーはモデルコストを別途計算する必要がある。

一行サマリー

遅れて入ったがモデル不可知論と BYOK という明確な差別化点。JetBrains ユーザーには即魅力的、それ以外には観察対象。

5章 · Cline — VS Code から CLI まで、OSS のチャンピオン

Surface · 強み 元は VS Code 拡張だが 2026 年に入り CLI アシスタントとしても動く。MIT ライセンス、GitHub スター 57,000+、400 万インストール。本物の OSS だ。

エージェントループ — Plan/Act トグルがシグネチャ Plan モード — 読むだけで書かない。アーキテクト役。トークンを少なく使い、ユーザーと計画を合わせる。Act モード — 計画を実行する。明示的トグルが核心だ。「Plan をスキップしていきなり Act に行くのが最もよくある間違い」と公式ガイドが明言する。

ファイル編集 直接ファイル書き込みと部分編集の両方。モデル選択によりフォーマットが変わる。

チェックポイント — 観測可能性のチャンピオン すべてのツール呼び出し直後にシャドウ git にコミットする。各編集・各コマンド・各ウェブリクエストが自分のチェックポイントを持つ。「Restore Files」「Restore Task Only」、フルリセットの 3 つのロールバックモード。他のどのツールよりも深い観測可能性 — エージェントが 6 ステップ前にしたことをそのまま戻せる。

MCP / 価格 MCP マーケットプレイス — stdio/SSE 両方サポートする独自マーケットプレイスを運営する。価格は BYOK — 拡張機能自体は無料。推論コストのみ自分の API キーで支払う。ライトユーザー月 5〜50ドル、ヘビーユーザー 100ドル+。チームプランはユーザーあたり月20ドル (2026 年 Q1 以降)、最初の 10 シートは無料。エンタープライズは VPC・オンプレ・エアギャップ配備までする。

弱点純粋な CLI 単独使用はまだ VS Code 拡張機能ほど滑らかでない。Plan/Act トグルが良いが一部ユーザーには摩擦になる — Claude Code の滑らかな自律ループに慣れた人は息苦しく感じる可能性。

一行サマリー

本物の OSS、BYOK、チェックポイントで武装した OSS のチャンピオン。Plan/Act は好み次第。VS Code とペアの時に最強。

6章 · Aider — Git-ネイティブの元祖

Surface · 強み Paul Gauthier が作った最も古く最も成熟した CLI エージェント。aider コマンド。Apache ライセンス。Git を真実の源として見る — ファイルを明示的にコンテキストに追加し、モデルが変更を提案すると自動的にコミットされる。すべての変更に自動コミット、それも意味のあるコミットメッセージで。

エージェントループ — Architect/Editor パターンがシグネチャ 2 モデルを同時に使う。アーキテクト — 強い推論モデル (o3、Opus 4.5) が「こう直そう」という計画を出す。エディタ — 速くて安いモデルがその計画を Aider ディフフォーマットに変換する。コスト・品質のトレードオフをユーザーが精密に調整する。

ファイル編集 — SEARCH/REPLACE の元祖 モデルが「この正確な旧コードを → この新コードに」形式のディフブロックを生成する。ハーネスがマッチして適用。マッチ失敗が明確だ — エージェントがコードを幻覚するなら適用が失敗してモデルが再試行する。トークン効率が最強。

コンテキスト戦略 — 明示的 add ユーザーが /add file.py でファイルを明示追加する。自動収集なし。制御力が最強だ。大きなリポジトリでも「今見ているのはこの 5 ファイル」という確実性を与える。/web でウェブ資料、/voice で音声、watch モードでコメントトリガー — ワークフロー統合が深い。

モデル / ポリグロットベンチマーク すべての主要モデルをサポート。Aider が運営するポリグロットリーダーボードが事実上コーディングモデルの業界基準になった。2026 年 5 月時点で Claude Opus 4.5 が 89.4% で 1 位、GPT-5 (high) 88.0%、Gemini 2.5 Pro Preview 06-05 82.2%、o3 81.3%。平均 58.1%。

MCP / 価格 / 弱点 MCP 部分サポート — 一部サーバーを受けるが深さは他ツールほど統合されていない。価格は BYOK — ツール自体無料、モデルコストのみ。弱点: サブエージェントなし (単一エージェント)。自動コンテキスト収集なし — 学習曲線あり。UI が荒い。大きな自律作業より「1 変更単位」のペアプログラミングに合わせた哲学。

一行サマリー

Git-ネイティブ、SEARCH/REPLACE の元祖、Architect/Editor 分離。最も成熟し最も制御可能な CLI ツール。自律性より精密さ。

7章 · Cursor CLI / Background Agents — IDE 会社の非 IDE 表面

Surface · 強み Cursor は IDE で有名だが 2026 年 1 月から cursor-agent バイナリをリリースした。ターミナルで単独で動く。IDE と同じプロンプト・ツール、MCP 統合もそのまま。2026 年 4 月の Cursor 3.0 の核心追加は Background Agents — クラウド VM で非同期に動くエージェント。

エージェントループ — 同期/非同期 2 トラック cursor-agent は同期 — 通常の ReAct ループ。Background Agents は非同期。クラウド VM で別ブランチを作り、終わると PR をプッシュする。最大 8 並列実行。3.0 の「Cloud handoff」でローカルで始めた作業をクラウドへ移管 — マシンを切っても動き続ける。

ファイル編集 / コンテキスト 直接ファイル書き込み中心。埋め込みインデックス (IDE で最も発達した部分) は CLI でも部分的に持ち込む。Cursor の強み。

MCP / 価格 MCP 1 級。mcp.json に定義したツールが CLI でも自動で拾われる。価格は 5 段階 — Hobby 0ドル、Pro 月20ドル、Pro+ 60ドル、Ultra 200ドル、Teams ユーザーあたり月40ドル。Max モード (強いモデル) はトークン課金 + 20% マージン。Background Agents は常に Max モード — 50 ステップ作業が Claude Sonnet で 0.30〜0.60ドル、複雑な作業は 4〜5ドルまで。

弱点根は IDE 会社だ。CLI は付属 surface であり 1 級市民ではない。Background Agents は強力だが高い。クラウド VM 依存 — 閉域では動かない。

一行サマリー

IDE の埋め込み強みを CLI に持ち込んだ。Background Agents の非同期・並列は独自。クラウド依存はガバナンス課題。

8章 · Continue.dev — 「Continuous AI」へピボットした OSS

Surface · 強み 元は VS Code/JetBrains サイドバーチャットで開始。2026 年に入り「Continuous AI」へピボット — PR ごとに走るオープンソース CLI。Apache ライセンス。チームルール強制、課題発見、修正提案を CI で自動的に回す。

エージェントループ 2026 年 Agent モード — 要件分析 → 計画 → ファイル修正 → ターミナル実行 → 検証を自律で回す。CLI は PR 単位で動くのが核心。「ソースコントロールされた AI チェック、CI で強制可能」がキャッチフレーズ。

ファイル編集 / コンテキスト Context Providers — @codebase (アーキテクチャ理解)、@docs (特定ドキュメントサイト)、@github (課題・PR) など。モデルがコンテキストを明示的なチャネルで受け取る。

MCP / 価格 MCP サポート。価格は OSS 無料 + Continue Hub 有料プラン (チーム協業、プロンプトテンプレート共有、中央集中設定管理)。ほぼすべての主要モデルをサポート — Claude Opus 4.6/Sonnet 4.6、GPT-4o/o3、Gemini 2.0 Pro、Llama 3.3、DeepSeek V3。

弱点エージェントとしての成熟度は Claude Code/Codex/Aider より一歩後。強みは「CI に入るエージェント」というポジション — インタラクティブ作業が強みではない。

一行サマリー

OSS・CLI・CI 統合がトライアングル。PR ごとに回る自動化エージェントというポジションが明確。インタラクティブコーディングの伴侶としては普通。

9章 · 正面比較マトリックス

ツール	ライセンス	モデル	編集モデル	コンテキスト	サブエージェント	MCP	価格モデル	シグネチャ
Claude Code	クローズド (SDK 一部公開)	Claude 主力	Edit (部分) + Write	grep ファースト、200k ウィンドウ	Task ツールで隔離	1 級、6000+ サーバー	定額 (20 / 100 / 200 USD)	滑らかなサブエージェント
Codex CLI	OSS (Apache、Rust)	GPT-5.5 主力	ユニファイドディフ	grep ファースト	公式パターン	1 級、並列呼び出し	API 使用量 + ChatGPT サブスク	bubblewrap サンドボックス
Junie CLI	クローズド (JetBrains)	LLM-不可知論	AST 試行 (IDE 統合時)	IDE インデックス借用	agent skills	サポート	BYOK + JetBrains AI プラン	モデル自由、移行支援
Cline	OSS (MIT)	BYOK 全部	直接書き込み + 部分編集	自動 + 明示	限定的	マーケットプレイス	BYOK (ライト 5-50 USD/月)	Plan/Act + チェックポイント
Aider	OSS (Apache)	BYOK 全部	SEARCH/REPLACE 元祖	明示的 add	なし	部分	BYOK	Architect/Editor + 自動コミット
Cursor CLI	クローズド	Anthropic/OpenAI 主力	直接書き込み	埋め込みインデックス	Background 最大 8 並列	1 級	5 段階 (0 / 20 / 60 / 200 USD)	Background Agents、Cloud handoff
Continue.dev	OSS (Apache)	BYOK ほぼ全部	直接書き込み	Context Providers	限定的	サポート	OSS 無料 + Hub 有料	CI/PR 自動化 (Continuous AI)

読み方: シグネチャ列がツールの魂だ。「他のツールがしないこと」が一行でそこに書かれている。シグネチャがあなたのワークフローに合えばそのツールをもっと見て、合わなければ早く次へ移る。

編集モデルが作る差 — より深く

表だけ見ても見えないのが編集モデルの実際の影響だ。同じ一行変更を 7 ツールがどう処理するか頭に描けば明確だ。

ファイル: src/auth.ts (200 行)
要求: getUser() 関数の throw メッセージを "Not authorized" から "Unauthorized: missing token" へ変更。

Aider (SEARCH/REPLACE):
  モデル出力: 約 100 トークン (ブロック形式)
  適用安全性: マッチ失敗時に明確なエラー
  トークンコスト: 最小

Claude Code (Edit ツール):
  モデル出力: 約 80 トークン (old_string/new_string)
  適用安全性: マッチ失敗時にツールエラー → モデル再試行
  トークンコスト: 最小

Codex CLI (ユニファイドディフ):
  モデル出力: 約 120 トークン (context lines 含む)
  適用安全性: ハンクが合わないと fuzzy fallback
  トークンコスト: 小

Cursor / Junie (直接書き込み):
  モデル出力: 約 2000 トークン (ファイル全体再出力)
  適用安全性: 常に適用可能
  トークンコスト: 大 (ファイルが大きいほど爆発)

Cline (混合):
  モデル選択により可変

同じ一行を変えるのにトークンコストが 20 倍違う。100 回の小さな編集が積み重なると月の請求書が 10 倍違う。1 日平均 50 回の小さな編集をする開発者には決定的だ。

もう一つ、マッチ失敗時の挙動の差も大きい。Aider と Claude Code の部分編集は「正確にこの文字列」マッチを期待するので、モデルがコードを幻覚すると適用が失敗する — するとモデルが本物のファイルを読み直して正確な文字列を再生成しなければならない。これは安全機能だ。直接書き込みツールはモデルが幻覚した他の部分も一緒に上書きするリスクがある。

10章 · 実ワークフロー — どのツールがどの仕事に合うか

比較表は意思決定の半分。残り半分は「実作業で」どう動くかだ。3 シナリオで見る。

ワークフロー 1 · フレーキーテスト修正

作業の本質: たまに失敗するテストがある。環境依存、タイミング問題、他テストとの依存性かもしれない。再現が難しい。

必要な能力:

テストを何度も回してパターンを探す (while で 100 回回すかシードを変える)。
疑わしい位置を隔離する (時間・乱数・グローバル状態)。
仮説を立ててコードを少し変えて検証する。
本当の修正を PR にする。

よく合うツール:

Claude Code — Bash で再実行ループを自由に回す。サブエージェントで「テスト 100 回回して統計取る」を隔離コンテキストに委任。メインは仮説・修正に集中。
Codex CLI — bubblewrap サンドボックスで安心してテストを回す。ホストが安全。
Aider — 修正が明確になった段階以降に強い。SEARCH/REPLACE で精密な一行修正、自動コミット。

あまり合わないツール:

Cursor Background — 非同期なので再現不可能なバグのデバッグループとよく合わない。「今横で一緒に回してみる」作業からは遠すぎる。
Continue.dev — CI で回るのが強みでインタラクティブデバッグが強みではない。

ワークフロー 2 · 新エンドポイント追加

作業の本質: 既存パターンに沿って新ルートを作る。認証・検証・DB 呼び出し・テスト・ドキュメントまで。反復的だが正確でなければならない。既存規約に従う必要がある。

必要な能力:

既存エンドポイントコードを読みパターンを学習する。
新ファイルを作り既存ファイルにルート登録。
テストを追加。
OpenAPI スキーマ/ドキュメント更新。
すべてが規約に合うか検証。

よく合うツール:

Cursor CLI — 埋め込みインデックスで「似たエンドポイント」を速く探してパターンを学習する。強み。
Junie CLI — JetBrains IDE 統合で AST 解析を借りて正確なルート登録・インターフェース一致を検証。
Claude Code — Glob・Grep でパターンを見つけサブエージェントに「テスト追加」を委任。メインはルートコードに集中。

あまり合わないツール:

Aider — 可能だが明示的 add が摩擦。パターン学習のため複数ファイルを直接追加する必要がある。精密だが遅い。
Cursor Background — 可能だが規約検証で人が見なければならない部分が多い — 非同期で投げると結果を再度手直しする可能性。

ワークフロー 3 · モジュールリファクタリング

作業の本質: 大きなモジュールをより小さな単位に分割するか、シグネチャを変えるか、別パターンに移す。数十ファイルが同時に変わる。部分適用はビルドを壊す。

必要な能力:

影響範囲を正確に把握する (どのファイルが変わるべきか)。
一貫した変更をすべての場所に適用する。
ビルド・テストで検証。
部分失敗時のロールバック。

よく合うツール:

Cursor Background Agents — 非同期 + 並列 (最大 8) が決定的。大きなリファクタリングを複数モジュールに分割して同時に回す。結果は PR。
Claude Code — サブエージェントで「各モジュールを 1 サブが担当」分割。メインは統合・一貫性検証。
Cline — チェックポイントで安全網。大きなリファクタリングが壊れたら各ツール呼び出し単位で戻せる。

あまり合わないツール:

Aider — 明示的 add が数十ファイル単位では負担。可能だがワークフローが重い。
Continue.dev — PR 単位の自動化には強いが「今大きなリファクタリングを始める」というインタラクティブな起点ではない。

11章 · 意思決定木 — 正直なガイド

あなたは以下のどれに最も近いか。

チーム規模とガバナンスから。

ソロ IC、自由に。 OSS 優先 → Aider または Cline。精密な 1 変更単位なら Aider。VS Code 統合・チェックポイントが良ければ Cline。定額制が好きなら Claude Code Pro。
小規模チーム (2〜10 人)、速度重視。 Claude Code Max または Cursor Pro。Claude エコシステムに慣れていれば前者、埋め込み・Background が魅力的なら後者。
中大型チーム (10〜50 人)、ポリシー・監査が必要。 Cline エンタープライズ (VPC/オンプレ可能) または Continue.dev (CI 統合) または Junie CLI (JetBrains ガバナンス活用)。クローズドはセキュリティチームが通す必要がある。

ワークフローの性質に応じて。

テストデバッグ・即時フィードバックループ中心。Codex CLI (サンドボックス) または Claude Code (サブエージェント)。
CRUD パターン反復追加。Cursor CLI (埋め込み) または Junie CLI (IDE 統合)。
大きなリファクタリング / マイグレーション。Cursor Background Agents または Claude Code サブエージェント。
孤立した 1 変更、精密に。Aider。
CI 自動化・PR ごとに回る自動点検。Continue.dev。

価格感度に応じて。

固定費用好み、限度を気にしない。Claude Code Pro 月20ドルから。
使用量変動、少なく使う月は少なく払いたい。BYOK — Cline / Aider / Junie / Continue。
高くてもいいから最強。Claude Code Max + Cursor Ultra + Codex CLI Pro 同時運用 (実際のヘビーユーザー一部パターン)。

モデルロックイン回避。

複数モデルを自由に。Junie CLI (LLM-不可知論) または BYOK OSS — Aider/Cline/Continue。Claude Code・Cursor・Codex はある程度モデルに縛られる。

最もよくある間違い: ツール 1 つですべて済ます仮定。2026 年のヘビーユーザーの実際のパターンは 2〜3 ツール同時運用だ。インタラクティブペアプログラミングには Claude Code、自動 PR 点検には Continue、大きなリファクタリングには Cursor Background — の形で分担する。ツールコストは増えるが時間コストはずっと多く減る。

エピローグ — チェックリスト、アンチパターン、次回予告

ツールを選んだ後 1 週間以内に確認するチェックリスト

自分の実 PR 3 つをそのツールで作り直してみた (最初から最後まで)。
大きなファイル・小さなファイル・新ファイルそれぞれの編集動作を確認した。
MCP 統合 (あれば) 1 つを実際に設定してみた。
費用を 1 週間分測定した (API 使用量 + サブスクリプション合計)。
セキュリティチーム (いれば) にデータ処理ポリシーを一度見せた。
チームメンバー 1 人に 30 分シャドウイングを頼んでみた — 詰まる箇所はどこか。
CI にどう入るかを 1 段落でも書いてみた。

アンチパターン — よく見る間違い

ベンチマークスコアだけ見て決める。Aider ポリグロット 1 位 ≠ あなたのコードベースで 1 位。モデルスコアとツール適合度は別の軸だ。
シグネチャ機能を無視する。Aider の Architect/Editor、Cline の Plan/Act、Cursor の Background — シグネチャを使わなければそのツールの真価が見えない。そのツールの最も奇異な部分から最初に試せ。
すべてのワークフローに 1 ツールを強要する。インタラクティブデバッグと非同期大規模リファクタリングは別ツールが得意。ツールを 2〜3 つ束ねて運用すれば費用合計でも時間費用より安い。
MCP が何か知らずに使う。2026 年に MCP は標準だ。社内ツール・DB・課題トラッカーをエージェントに公開する標準方法だ。使わないとエージェントの手を縛ることになる。
チェックポイント・ロールバックなしに自律モードを解放する。Cline のチェックポイントなしに自律エージェントを解放すれば一度壊れた時 30 分が飛ぶ。チェックポイントまたは git の安全網を必ず設定せよ。
コストを推定しない。BYOK ツールの月モデルコストはユーザーが直接推定する必要がある。「無料ツール」と呼ぶ人たちの月 API 請求書が 200〜500 ドルの場合が普通だ。
人間レビューを省略する。AI が作った PR をそのままマージすれば 6 ヶ月後に技術的負債となって戻ってくる。人間レビューは減るのではなくより精密にならなければならない。

次回予告

次回はこの 7 ツールを同じ作業に同時に走らせた結果 — 同じ PR、別ツール、別結果を見る。実コード変更の定量比較、コスト比較、そして「どのツールがどの段階で詰まったか」の正直な記録。

その次は MCP サーバー作り — 社内ツールを標準 MCP サーバーで包み 7 ツールすべてで使う方法。一度作れば全エージェントで生きる。

プロローグ — なぜ再び「CLI」なのか

1章 · 比較軸 — 何を見て選ぶべきか

2章 · Claude Code — ターミナルエージェントの基準点

3章 · OpenAI Codex CLI — Rust リライトと GPT-5.5

4章 · JetBrains Junie CLI — IDE から降りてきた遅参者

5章 · Cline — VS Code から CLI まで、OSS のチャンピオン

6章 · Aider — Git-ネイティブの元祖

7章 · Cursor CLI / Background Agents — IDE 会社の非 IDE 表面

8章 · Continue.dev — 「Continuous AI」へピボットした OSS

9章 · 正面比較マトリックス

編集モデルが作る差 — より深く

10章 · 実ワークフロー — どのツールがどの仕事に合うか

ワークフロー 1 · フレーキーテスト修正

ワークフロー 2 · 新エンドポイント追加

ワークフロー 3 · モジュールリファクタリング

11章 · 意思決定木 — 正直なガイド

エピローグ — チェックリスト、アンチパターン、次回予告

ツールを選んだ後 1 週間以内に確認するチェックリスト

アンチパターン — よく見る間違い

次回予告

参考 / References