Skip to content

Split View: AI 에이전트 프레임워크 2026 — LangGraph / AutoGen / CrewAI / OpenAI Agents SDK / Anthropic Agent SDK 비교 심층 가이드

|

AI 에이전트 프레임워크 2026 — LangGraph / AutoGen / CrewAI / OpenAI Agents SDK / Anthropic Agent SDK 비교 심층 가이드

프롤로그 — 2026년, 에이전트 프레임워크의 캄브리아 폭발

2023년 봄, LangChain의 ReAct 노트북이 처음 인기를 끌었을 때만 해도 "에이전트 프레임워크"라는 단어는 거의 LangChain의 동의어였다. 2024년에는 AutoGen, CrewAI가 등장해 멀티 에이전트라는 단어가 유행했다. 2025년에는 OpenAI가 Swarm을 정식화한 Agents SDK를 발표했고, Anthropic은 Claude Code SDK라는 이름으로 자사 에이전트 루프를 외부에 풀었다. 그리고 2026년 현재, 이 시장은 캄브리아기 폭발 그 자체다.

같은 "AI 에이전트를 짜기 위한 도구"라는 카테고리 안에 — 모델 벤더 공식 SDK, 그래프 기반 상태 머신 프레임워크, 역할 기반 크루, 미니멀 코드 실행 에이전트, 풀스택 TypeScript 백엔드 프레임워크, 구조화 출력 우선 라이브러리, UI 통합 SDK가 모두 들어 있다. 이 글은 그 지도를 그린다.

에이전트 프레임워크는 라이브러리가 아니라 의견(opinion)이다. 어떤 프레임워크를 고른다는 건, 그 프레임워크가 내린 "에이전트란 이렇게 짜야 한다"는 의견에 동의한다는 뜻이다. 그래서 도구를 고르는 게 아니라 의견을 고른다.

이 글에서 다루는 것:

  1. 2026년 에이전트 프레임워크 지도 — 누가 만들고 누가 쓰나
  2. 에이전트는 무엇인가 — Andrew Ng의 4 패턴
  3. ReAct, Plan-and-Execute, Tree-of-Thought 핵심 패턴
  4. OpenAI Agents SDK (2025.3) — Swarm의 후계자
  5. Anthropic Agent SDK / Claude Code SDK (2025.9)
  6. LangGraph — 상태 머신 그래프
  7. AutoGen 0.4 — 멀티 에이전트 대화
  8. CrewAI — 역할 기반 크루
  9. smolagents, Mastra, Pydantic AI — 새로운 미니멀 진영
  10. MCP (2024.11) — 도구 통합 표준의 등장
  11. A2A — 에이전트 간 통신 표준
  12. 어떤 프레임워크를 골라야 하나
  13. 한국·일본 기업의 에이전트 도입
  14. 참고 자료

1장 · 2026년 AI 에이전트 프레임워크 지도

먼저 큰 그림. 프레임워크를 누가 만들었는지에 따라 분류하면 다음과 같다.

모델 벤더 공식 SDK 진영

  • OpenAI Agents SDK (2025년 3월 발표). 실험적이었던 Swarm 라이브러리를 정식 SDK로 승격. handoff·trace·guardrails가 1급 시민.
  • Anthropic Agent SDK / Claude Code SDK (2025년 9월 GA). Claude Code 안에서 검증된 에이전트 루프를 외부에 공개. 서브에이전트와 훅(hook)이 핵심.
  • Vercel AI SDK (사실상 벤더는 아니지만 모델 어그리게이터). React/Next.js 통합 UI 컴포넌트가 강점.

오케스트레이션 프레임워크 진영

  • LangGraph (LangChain의 후계). 상태 머신과 그래프 기반의 워크플로. 명시적 노드와 엣지로 흐름을 설계한다.
  • AutoGen 0.4 (Microsoft Research). 멀티 에이전트 대화. 비동기 actor 모델 기반으로 0.4에서 큰 재작성.
  • CrewAI. "역할 기반 크루" 메타포로 가장 빠른 프로토타이핑. 매니저·연구원·작가 같은 에이전트를 짠다.
  • LlamaIndex Agents. RAG 중심. 인덱싱과 retrieval이 1급이다.
  • Bee Agent Framework (IBM). 엔터프라이즈 에이전트, 멀티 모델·멀티 벤더 호환에 초점.

미니멀·코드 우선 진영

  • smolagents (Hugging Face, 2024). 코드 실행을 에이전트의 1급 도구로 둔다. "Code is the new function call."
  • Mastra (TypeScript). 백엔드 풀스택. 워크플로·에이전트·메모리·RAG가 한 박스 안에.
  • Pydantic AI (Pydantic 팀). 구조화 출력 우선. 타입 안전성이 핵심 가치.

표준 진영 — 프레임워크가 아니라 프로토콜

  • MCP (Model Context Protocol) — Anthropic이 2024년 11월에 공개한 도구 통합 프로토콜.
  • A2A (Agent-to-Agent) — 2025년 등장한, 서로 다른 벤더의 에이전트가 서로 호출하기 위한 프로토콜 후보.

이 지도가 의미하는 건 단순하다: "하나의 정답 프레임워크"는 없다. 어떤 문제냐, 어떤 팀이냐, 어떤 모델을 쓰냐에 따라 정답이 다르다.


2장 · 에이전트란 무엇인가 — Andrew Ng의 4 패턴

Andrew Ng는 2024년 봄 강연에서 에이전트의 4가지 핵심 디자인 패턴을 정리했다. 2년이 지난 지금도 가장 깔끔한 분류다.

패턴 1: Reflection (자기 비판) 모델이 자기 출력을 다시 비판하고 개선한다. 코드 리뷰처럼 "초안 → 비판 → 수정" 루프. 추가 모델 없이도 품질이 크게 오른다.

패턴 2: Tool Use (도구 사용) 모델이 외부 도구를 호출한다. 검색·계산기·코드 실행·API 호출. 이것이 LLM을 "에이전트"로 만드는 1차 단계다.

패턴 3: Planning (계획) 모델이 다단계 작업을 미리 계획한 뒤 실행한다. Plan-and-Execute 패턴. 복잡한 작업에서 즉흥 ReAct보다 효율적이다.

패턴 4: Multi-Agent (다중 에이전트) 여러 에이전트가 역할을 나눠 협업한다. 매니저-워커, debate, 작가-편집자 구조. 단일 에이전트의 컨텍스트 폭주 문제를 분산으로 푼다.

각 프레임워크가 어떤 패턴을 1급으로 지원하는지로 보면 분류가 쉬워진다.

프레임워크ReflectionTool UsePlanningMulti-Agent
OpenAI Agents SDK직접 짜야1급보조1급 (handoff)
Anthropic Agent SDK직접 짜야1급보조1급 (subagent)
LangGraph노드로 표현1급1급 (graph)1급
AutoGen1급 (critic)1급1급1급 (conversation)
CrewAI직접 짜야1급1급 (Process)1급 (Crew)
smolagents보조1급 (CodeAgent)보조보조
Pydantic AI보조1급보조보조
LlamaIndex Agents보조1급1급보조
Mastra보조1급1급 (workflow)1급
Vercel AI SDK보조1급보조보조

3장 · ReAct, Plan-and-Execute, Tree-of-Thought — 핵심 패턴 비교

프레임워크를 깊이 이해하려면 그 안의 "런타임 알고리즘"을 알아야 한다. 셋이 가장 자주 보인다.

3.1 ReAct (Reasoning + Acting)

원조 ReAct 논문은 Yao 등(2022)이다. 모델이 한 스텝마다 Thought·Action·Observation을 번갈아 내놓는다. 코드로는 단순한 while 루프.

while not done and step < max_steps:
    response = model.complete(messages)
    if response.is_final_answer:
        break
    tool_result = execute(response.tool_call)
    messages.append(response)
    messages.append(tool_result)
    step += 1
  • 장점: 단순함, 모델의 추론 능력을 그대로 활용, 실패 시 즉시 적응.
  • 단점: 컨텍스트가 빠르게 부풀고, 복잡한 작업에서 길을 잃기 쉽다.

LangGraph의 prebuilt ReAct agent, OpenAI Agents SDK의 기본 에이전트, CrewAI의 기본 task 실행이 모두 이 패턴이다.

3.2 Plan-and-Execute

먼저 전체 계획을 세우고, 그 다음에 실행한다. Wang 등(2023)이 정리한 "Plan-and-Solve". 계획 단계에서 모델은 한 번만 호출되고, 실행 단계는 더 작은 모델이나 결정론적 코드가 맡을 수도 있다.

Stage 1 (Planner):  목표 → 단계 1, 단계 2, ..., 단계 N
Stage 2 (Executor): 각 단계를 순차/병렬 실행, 필요 시 재계획
  • 장점: 토큰 효율적, 병렬화 가능, "왜 이렇게 했는지" 감사 가능.
  • 단점: 환경 변화에 적응이 느림. 계획이 틀리면 재계획 비용 발생.

LangGraph의 "Plan-and-Execute" 예제 그래프, CrewAI의 hierarchical Process가 이 패턴을 지원한다.

3.3 Tree-of-Thought

여러 추론 경로를 트리로 펼치고, 가장 유망한 가지를 골라 진행한다. Yao 등(2023). 비싸지만 어려운 추론·계획 문제에서 강하다.

        목표
       /  |  \
   생각A 생각B 생각C
     |    |    |
   ... 평가 후 최선 가지 선택 ...
  • 장점: 어려운 문제에 강함, 자기 검증 내장.
  • 단점: 비용 폭증, 구현 복잡.

순수 ToT를 1급 지원하는 프레임워크는 드물다. LangGraph로는 그래프로 짤 수 있고, AutoGen의 GroupChat을 변형해서 비슷한 효과를 낼 수도 있다.


4장 · OpenAI Agents SDK (2025.3) — Swarm의 후계

2025년 3월, OpenAI는 실험 프로젝트였던 Swarm을 정식 제품으로 승격한 Agents SDK를 공개했다. Python(공식)과 TypeScript(2025년 후반) 양쪽을 지원한다.

핵심 추상화

  • Agent — 시스템 프롬프트 + 도구 + 모델.
  • Handoff — 에이전트가 다른 에이전트로 제어를 넘긴다.
  • Guardrail — 입력·출력 검증 (예: PII 검사, 정책 위반).
  • Tracing — 모든 스텝을 OpenAI 대시보드에서 추적.

코드 예시

from agents import Agent, Runner, handoff

triage = Agent(
    name="triage",
    instructions="고객 질문을 분류하고 적절한 전문가에게 넘긴다.",
    handoffs=[refund_agent, support_agent],
)

result = Runner.run_sync(triage, "환불을 받고 싶어요")
print(result.final_output)

handoff는 LangGraph의 엣지나 AutoGen의 다음 화자 선택과 비슷하지만, 에이전트가 직접 함수처럼 다른 에이전트를 호출한다는 점이 다르다. 그래서 사고가 더 명령형(imperative)이다.

강점

  • OpenAI 모델과 가장 잘 맞춘 통합 — Realtime API, Voice, Computer Use까지 1급.
  • Tracing 대시보드가 강력 — 모든 toolCall과 handoff가 시각화.
  • 구조화 출력과 결합해 타입 안전한 워크플로를 짜기 쉬움.

약점

  • 모델 락인 — 비-OpenAI 모델 지원은 LiteLLM 어댑터를 거쳐야 함.
  • 그래프 시각화·복잡한 상태 머신은 LangGraph보다 약함.
  • 멀티 에이전트 "대화"라는 메타포는 AutoGen만큼 강하지 않다.

5장 · Anthropic Agent SDK / Claude Code SDK (2025.9)

Anthropic은 2024년부터 Claude Code라는 자체 코딩 에이전트를 운영해 왔다. 2025년 9월, 그 내부 엔진을 Claude Agent SDK라는 이름으로 외부에 공개했다.

핵심 컨셉

  • Agent loop — Anthropic 모델의 tool_use 토큰을 기반으로 한 루프.
  • Subagent — 에이전트가 자기 자식 에이전트를 띄워 격리된 컨텍스트에서 일을 시킬 수 있다.
  • Hook — 도구 호출 전후, 응답 직후 등 lifecycle에 사용자 코드를 끼울 수 있다.
  • Permission gate — 위험 도구는 사용자 승인을 요구.
  • MCP 통합 — Anthropic이 만든 MCP 표준이 1급 시민.

코드 예시

import { ClaudeAgent } from '@anthropic-ai/claude-agent-sdk'

const agent = new ClaudeAgent({
  model: 'claude-sonnet-4',
  systemPrompt: 'You are a careful research assistant.',
  tools: [webSearchTool, fileTool],
  hooks: {
    beforeToolUse: async (call) => {
      console.log('about to call', call.name)
    },
  },
})

const result = await agent.run('Explain MCP in 5 bullets.')

강점

  • Claude Code에서 단련된 루프 — 컨텍스트 관리·context rot 대응이 가장 성숙.
  • 서브에이전트와 권한 게이트가 1급 — 코드 실행 같은 고위험 도구를 안전하게 다룬다.
  • MCP가 네이티브 — Anthropic이 표준 만들었으니 당연.

약점

  • Anthropic 모델 락인 (다른 모델은 어댑터를 직접 짜야 한다).
  • Python/TS 둘 다 있지만 생태계는 OpenAI보다 작다.
  • 그래프형 워크플로 모델링은 LangGraph만큼 명시적이지 않다.

6장 · LangGraph — 상태 머신 그래프

LangGraph는 LangChain 팀이 만든 "에이전트를 그래프로 짜는" 프레임워크다. LangChain의 자유로운 chain 구성이 디버깅 악몽을 만들자, 명시적 노드·엣지·상태를 도입했다.

핵심 모델

  • State — 그래프 전체에서 공유되는 단일 상태 객체.
  • Node — 상태를 받아 변형한 상태를 돌려주는 함수.
  • Edge — 다음에 어떤 노드로 갈지 결정.
  • Conditional Edge — 상태에 따라 분기.
  • Checkpoint — 어디서든 상태 스냅숏을 저장하고 복원.

코드 예시

from langgraph.graph import StateGraph, END

graph = StateGraph(State)
graph.add_node("planner", planner_node)
graph.add_node("executor", executor_node)
graph.add_node("verifier", verifier_node)

graph.set_entry_point("planner")
graph.add_edge("planner", "executor")
graph.add_conditional_edges(
    "verifier",
    lambda s: "retry" if s.needs_retry else "done",
    {"retry": "executor", "done": END},
)

app = graph.compile()
result = app.invoke({"goal": "deploy app"})

강점

  • 명시성 — 그래프가 코드로 그려져 디버깅이 쉽다.
  • 인간이 개입할 지점을 노드로 명시 가능.
  • 체크포인트로 중단·재개·시간 여행이 가능.
  • LangSmith로 trace가 강력.

약점

  • 학습 곡선이 가장 가파른 편 — 그래프 멘탈 모델이 익숙해질 때까지 시간 필요.
  • 단순한 ReAct에는 과한 추상화.
  • LangChain의 무거운 의존성을 일부 끌고 들어옴.

7장 · AutoGen 0.4 (Microsoft) — 멀티 에이전트 대화

Microsoft Research가 만든 AutoGen은 2023년부터 멀티 에이전트의 대표 주자였다. 2024년 말~2025년 초에 0.4 버전으로 거의 재작성되었고, 핵심은 비동기 actor 모델로 옮겨갔다.

핵심 컨셉

  • AssistantAgent — LLM을 가진 에이전트.
  • UserProxyAgent — 사용자(혹은 결정론적 코드)를 대리.
  • GroupChat — 여러 에이전트가 한 채팅방에 있고, 매니저가 다음 화자를 고른다.
  • AutoGen Studio — GUI로 멀티 에이전트 워크플로 설계.

코드 예시 (0.4 새 API)

from autogen_agentchat.agents import AssistantAgent
from autogen_agentchat.teams import RoundRobinGroupChat
from autogen_ext.models.openai import OpenAIChatCompletionClient

model = OpenAIChatCompletionClient(model="gpt-4o")
coder = AssistantAgent("coder", model_client=model)
reviewer = AssistantAgent("reviewer", model_client=model)

team = RoundRobinGroupChat([coder, reviewer], termination_condition=...)
result = await team.run(task="Implement quicksort in Python")

강점

  • 멀티 에이전트 대화 메타포가 가장 자연스럽다.
  • AutoGen Studio로 비코더도 워크플로를 만들 수 있다.
  • Microsoft Research가 만든 만큼 연구 패턴 구현이 빠르다(debate, society of minds, ...).

약점

  • 0.3 → 0.4 마이그레이션이 만만치 않다.
  • 단일 에이전트만 필요할 때는 과하다.
  • "대화"라는 메타포가 모든 워크플로에 맞지는 않는다.

8장 · CrewAI — 역할 기반 크루

CrewAI는 2024년에 등장해, "프로토타이핑이 가장 빠른 멀티 에이전트 프레임워크" 자리를 차지했다. 메타포가 직관적이다: 에이전트는 역할(role)을 갖고, 크루(crew)는 임무(task)를 처리한다.

핵심 컨셉

  • Agent — role·goal·backstory·tools를 가진 1인 인격체.
  • Task — 누가, 무엇을, 어떤 출력 형식으로 할지.
  • Crew — 에이전트들의 묶음. Process로 실행 방식 선택(sequential·hierarchical·...).
  • Flow — 결정론적 워크플로 + 에이전트 결합 (2024 후반 추가).

코드 예시

from crewai import Agent, Task, Crew, Process

researcher = Agent(
    role="Senior Researcher",
    goal="Find the latest trends in AI agents.",
    backstory="You are a tireless researcher with 10 years of experience.",
    tools=[search_tool],
)
writer = Agent(
    role="Tech Writer",
    goal="Turn research into a clear blog post.",
    backstory="You write for developers who want signal, not hype.",
)

research_task = Task(description="Research the top 5 trends.", agent=researcher)
write_task = Task(description="Write a 1000-word post.", agent=writer)

crew = Crew(agents=[researcher, writer], tasks=[research_task, write_task], process=Process.sequential)
result = crew.kickoff()

강점

  • 프로토타이핑 속도가 최고 — 10분이면 멀티 에이전트가 돈다.
  • 메타포가 비기술자에게 잘 통한다 — PM·디자이너와도 설계 가능.
  • 무료 사용량 한도 안에서 학습이 쉽다.

약점

  • 내부 동작이 블랙박스에 가까워 디버깅이 까다롭다.
  • 복잡한 분기 로직은 LangGraph에 비해 표현이 약하다.
  • 프로덕션에서 신뢰도를 끌어올리려면 결국 Flows 같은 더 결정론적 구조로 옮겨야 한다.

9장 · smolagents, Mastra, Pydantic AI — 새로운 미니멀 진영

대형 프레임워크의 무거움에 지친 사람들을 위해 2024~2025년에 미니멀 진영이 등장했다.

9.1 smolagents (Hugging Face, 2024)

Hugging Face가 만든 의도적으로 작은 에이전트 라이브러리. 한 줄 요약: "코드는 새로운 함수 호출이다(Code is the new function call)."

  • 기본 에이전트 타입이 CodeAgent — JSON 도구 호출 대신 Python 코드 한 조각을 모델이 직접 짜고, 샌드박스에서 실행한다.
  • 의존성과 코드가 매우 작다(수천 줄).
  • 어떤 모델도 끼울 수 있도록 추상화가 얇다.
from smolagents import CodeAgent, HfApiModel

agent = CodeAgent(tools=[search_tool], model=HfApiModel())
agent.run("What is the GDP per capita of Korea in 2025?")
  • 장점: 코드 실행이 강력 — 도구 N개를 직접 부르는 대신 한 코드 블록으로 묶을 수 있다. 단순 디버깅.
  • 단점: 코드 실행 샌드박싱이 사용자 책임. 큰 규모 워크플로 추상화가 빈약.

9.2 Mastra (TypeScript, 2025년에 부상)

Mastra는 TypeScript의 풀스택 백엔드 프레임워크다. Vercel AI SDK가 React/Next.js 프론트 통합에 강하다면, Mastra는 백엔드 측 워크플로·메모리·에이전트·RAG를 한 박스에 담는다.

  • 워크플로(deterministic)와 에이전트(LLM)가 1급 시민으로 공존.
  • 메모리·벡터 스토어·RAG 파이프라인이 빌트인.
  • Cloudflare Workers·Vercel·자체 호스팅 모두 가능.
import { Agent } from '@mastra/core'

const agent = new Agent({
  name: 'support',
  instructions: 'You answer support questions.',
  model: { provider: 'OPEN_AI', name: 'gpt-4o' },
  tools: { lookupOrder, refund },
})

const result = await agent.generate('Where is my order?')
  • 장점: TypeScript 풀스택 백엔드에서 자연스러움. 워크플로와 에이전트 결합이 깔끔.
  • 단점: 생태계 신생. Python 생태계에는 없는 부분이 많다.

9.3 Pydantic AI (Pydantic 팀, 2024 후반)

Pydantic 팀이 만든 라이브러리. 한 줄 요약: "FastAPI가 웹에 해준 일을 LLM에 한다."

  • 모든 입출력은 Pydantic 모델로 강제 타입.
  • 에이전트 함수가 데코레이터 기반으로 가볍게 짜진다.
  • 모델 의존성 주입이 자연스럽다.
from pydantic import BaseModel
from pydantic_ai import Agent

class Order(BaseModel):
    id: str
    status: str

agent = Agent('openai:gpt-4o', result_type=Order)
result = await agent.run('Look up order 12345.')
print(result.data.status)  # 타입 안전
  • 장점: 타입 안전·구조화 출력이 최우선. FastAPI/Pydantic 친화적 코드베이스에서 마찰이 적다.
  • 단점: 멀티 에이전트·그래프 워크플로는 직접 짜야 한다. 신생.

10장 · Model Context Protocol (MCP, 2024.11) — 도구 통합 표준의 등장

2024년 11월, Anthropic은 **Model Context Protocol(MCP)**을 공개했다. 한 줄 요약: 에이전트와 도구 사이의 USB-C.

문제의식

지금까지 각 프레임워크는 자기만의 도구 정의 포맷을 가졌다. LangChain Tool·OpenAI function·Anthropic tool_use가 다 조금씩 달랐다. 새 도구를 만들면 N개 프레임워크에 N번 짰다. MCP가 해결하려는 게 이거다.

핵심 컨셉

  • MCP Server — 도구·리소스·프롬프트를 제공하는 프로세스.
  • MCP Client — LLM 클라이언트(에이전트)가 서버에 붙는다.
  • Transport — stdio, HTTP+SSE, WebSocket.
  • Schema — JSON Schema로 도구 시그니처를 기술.

어떻게 쓰이나

  • Anthropic Claude Desktop과 Claude Code가 네이티브 MCP 클라이언트.
  • 2025년 중반 이후 OpenAI Agents SDK, LangGraph, Cursor, Windsurf 같은 메이저 도구들이 MCP 클라이언트 지원을 추가.
  • 결과: 한 번 짠 MCP 서버가 여러 에이전트 도구에서 그대로 쓰인다.

의의

MCP는 "어떤 프레임워크를 고르느냐"와 별개의 결정으로 도구를 표준화한다. 프레임워크는 갈아탈 수 있어도, 잘 짠 MCP 도구는 다음 프레임워크에서도 쓸 수 있다. 이건 큰 락인 해소 장치다.


11장 · A2A (Agent-to-Agent) — 에이전트 간 통신 표준

MCP가 "에이전트 ↔ 도구"의 표준이라면, A2A는 "에이전트 ↔ 에이전트"의 표준 후보다. 2025년 봄에 Google이 처음 공개를 주도했고, 여러 업체가 참여하고 있다.

왜 필요한가

서로 다른 회사의 에이전트가 협업해야 하는 시대가 오고 있다. 예: 우리 회사의 영업 에이전트가, 파트너 회사의 가격 에이전트에 견적을 요청한다. 둘은 서로 다른 프레임워크·다른 모델·다른 호스트.

이때 필요한 것:

  • 에이전트가 자기 능력(skill)을 광고하는 방법.
  • 에이전트가 다른 에이전트의 능력을 발견하는 방법.
  • 에이전트끼리 작업을 위임하고 결과를 받는 방법.
  • 인증·권한·감사 추적.

핵심 아이디어

  • Agent Card — 각 에이전트는 자기 능력을 기술한 JSON 카드를 노출.
  • A2A 호출 — HTTP·JSON-RPC 기반. 비동기 작업과 스트리밍 지원.
  • MCP와 직교 — MCP는 도구 추상화, A2A는 에이전트 추상화.

A2A는 2026년 현재 아직 표준이 "확정"되지 않은 단계지만, 멀티 에이전트가 회사·플랫폼 경계를 넘으려면 결국 이런 표준이 필요하다. MCP가 1년 만에 사실상 표준이 된 것처럼, A2A도 빠르게 자리잡을 가능성이 있다.


12장 · 어떤 프레임워크를 골라야 하나

이제 결정 가이드. 시나리오별로 추천을 정리한다.

시나리오 A — "주피터 노트북으로 빠르게 한 번 돌려보고 싶다"

OpenAI Agents SDK 또는 CrewAI. 10분이면 결과가 나온다.

시나리오 B — "프로덕션 챗봇·서포트 에이전트가 필요하다"

OpenAI Agents SDK (OpenAI 모델 위주) 또는 Anthropic Agent SDK (Claude 위주). guardrail·trace·권한 게이트가 1급이다.

시나리오 C — "워크플로가 복잡하고 분기·재시도가 많다"

LangGraph. 명시적 그래프와 체크포인트가 빛난다.

시나리오 D — "에이전트 여러 명이 토론하고 협업해야 한다"

AutoGen 0.4 또는 CrewAI. 멀티 에이전트 메타포가 강한 쪽이다.

시나리오 E — "RAG 중심 — 우리 문서를 잘 검색하는 에이전트"

LlamaIndex Agents. 인덱싱·retrieval이 1급. 또는 Mastra TS 백엔드.

시나리오 F — "TypeScript/Next.js 풀스택. 백엔드+프론트 통합"

Vercel AI SDK (UI 중심) + Mastra (백엔드 워크플로).

시나리오 G — "타입 안전성과 구조화 출력이 최우선"

Pydantic AI (Python) 또는 Vercel AI SDK (TS).

시나리오 H — "코드 실행이 핵심 도구다 — 데이터 분석·과학"

smolagents의 CodeAgent. 또는 OpenAI Code Interpreter.

시나리오 I — "엔터프라이즈 — 다중 모델 벤더, 감사, 거버넌스"

Bee Agent Framework (IBM) 또는 LangGraph + LangSmith.

시나리오 J — "나중에 다른 회사 에이전트와 협업할 가능성"

→ MCP 지원이 있는 어떤 프레임워크든. A2A 발전 동향을 주시.

결정 체크리스트 (10 항목)

  1. 어떤 모델을 1순위로 쓸 건가? (벤더 락인 SDK를 받아들일 수 있나)
  2. 단일 에이전트인가 멀티인가?
  3. ReAct로 충분한가, Plan-and-Execute가 필요한가?
  4. 그래프 시각화와 상태 머신이 필요한가?
  5. 인간 개입(human-in-the-loop)이 필요한가?
  6. 체크포인트·시간 여행이 필요한가?
  7. 도구는 MCP로 표준화할 가치가 있는가?
  8. trace 대시보드는 어디서 볼 건가? (LangSmith, OpenAI traces, 자체)
  9. 언어 선호? Python인가 TypeScript인가?
  10. 6개월 후 다른 프레임워크로 갈아탈 출구가 있는가?

13장 · 한국·일본 기업의 에이전트 도입

마지막으로 동아시아의 도입 현황을 짧게.

한국

  • LG AI Research (EXAONE) — 자사 거대 모델 EXAONE 위에서 자체 에이전트 플랫폼을 개발. 사내 R&D·문서 검색 에이전트를 우선 도입.
  • 카카오엔터프라이즈 / 카카오브레인 — KoGPT 후속 모델과 자사 에이전트 도구. 사내 생산성 봇으로 시작해 외부 서비스로 확장 시도.
  • 네이버 클로바 / HyperCLOVA X — 자체 에이전트 플랫폼 CLOVA Studio 위에서 코드 에이전트·콜센터 에이전트를 사내 검증.
  • 스타트업 — Upstage·Squeeze AI 같은 회사들이 RAG·문서 에이전트에서 강점. LangGraph·CrewAI 채택이 일반적.
  • 삼성/SK — 사내 코딩 어시스턴트, 운영 에이전트 등에 Claude Code SDK·OpenAI Agents SDK 양쪽을 평가하는 중.

일본

  • NTT (tsuzumi) — 자사 LLM tsuzumi와 NTT DOCOMO 음성·통신 데이터를 결합한 산업 에이전트. R&D는 AutoGen·LangGraph 양쪽 실험.
  • ソフトバンク (SoftBank) — OpenAI와의 협업을 기반으로 Stargate Japan 데이터센터·에이전트 인프라 투자. 자사 콜센터·영업 에이전트에 OpenAI Agents SDK를 검증.
  • Preferred Networks — 자체 PLaMo 모델 위에서 산업 자동화 에이전트. 제조·물류 영역.
  • 楽天 (Rakuten) — Rakuten AI라는 자체 모델과 LangChain/LangGraph 기반 사내 에이전트.
  • メルカリ (Mercari) — 고객 지원·중고 거래 분류에 Anthropic Claude 기반 에이전트 실험.

공통 패턴

  • "자체 모델 + 외부 SDK" 조합이 흔하다. 모델은 데이터 주권 때문에 자국산을 쓰지만, 에이전트 SDK는 글로벌 표준을 따라간다.
  • 사내 생산성(코딩 어시스턴트, 회의록·문서 자동화, 운영 봇)이 가장 먼저 들어가는 영역.
  • 일본은 NTT·SoftBank가 통신 인프라와 결합한 에이전트에 강점. 한국은 검색·콘텐츠·게임 사용 사례가 빠른 편.
  • MCP 채택이 2026년에 가속화 — Cursor·Claude Code의 국내 사용 증가가 큰 견인 요인.

14장 · 참고 / References

공식 문서 우선, 주요 학술/공개 발표 자료만 모았다.

프레임워크 공식 문서

프로토콜과 표준

핵심 논문 / 디자인 패턴

참고 글


에필로그 — 의견을 고른다는 것

이 글의 한 문장 요약: 에이전트 프레임워크는 도구가 아니라 의견이다. OpenAI Agents SDK는 "에이전트는 함수처럼 서로 handoff한다"고 본다. LangGraph는 "에이전트는 상태 머신이다"라고 본다. CrewAI는 "에이전트는 역할이다"고 본다. Anthropic Agent SDK는 "에이전트는 컨텍스트 관리가 모든 것을 결정한다"고 본다. smolagents는 "에이전트는 코드를 짠다"고 본다.

같은 문제도 의견이 다르면 해법이 다르다. 그래서 — 모델을 고를 때만큼 — 프레임워크의 의견을 의식하고 고르자.

다음 글 후보: 에이전트 평가 시스템 심층(Inspect AI·Promptfoo·LangSmith), MCP 서버 직접 짜기, 서브에이전트 오케스트레이션 패턴.

"프레임워크는 라이브러리가 아니라 의견이다. 의견을 고른다는 자각이, 도구 선택의 첫 단추다."

— AI 에이전트 프레임워크 2026, 끝.

AI Agent Frameworks in 2026 — A Deep Dive on LangGraph, AutoGen, CrewAI, OpenAI Agents SDK, Anthropic Agent SDK, and More

Prologue — 2026 and the Cambrian Explosion of Agent Frameworks

In spring 2023, when the LangChain ReAct notebook first went viral, "agent framework" was practically a synonym for LangChain. In 2024, AutoGen and CrewAI arrived and the multi-agent buzzword era began. In 2025, OpenAI promoted its experimental Swarm to a formal Agents SDK, and Anthropic released its internal Claude Code engine as the Claude Agent SDK. And in 2026, the market is in full Cambrian explosion mode.

Under the single label "tools for writing AI agents" you now find: official vendor SDKs, graph-based state machine frameworks, role-based crews, minimalist code-execution agents, full-stack TypeScript backend frameworks, structured-output-first libraries, and UI-integrated SDKs. This post draws the map.

An agent framework is not a library — it is an opinion. Choosing a framework means agreeing with its opinion of "this is how an agent should be written." So you are not picking a tool, you are picking an opinion.

This guide covers:

  1. The 2026 map — who builds what, who uses what
  2. What is an agent — Andrew Ng's four design patterns
  3. ReAct, Plan-and-Execute, Tree-of-Thought
  4. OpenAI Agents SDK (March 2025) — heir to Swarm
  5. Anthropic Agent SDK / Claude Code SDK (Sep 2025)
  6. LangGraph — state-machine graphs
  7. AutoGen 0.4 — multi-agent conversation
  8. CrewAI — role-based crews
  9. smolagents, Mastra, Pydantic AI — the minimalist wave
  10. MCP (Nov 2024) — the tool-integration standard
  11. A2A — agent-to-agent protocol
  12. Which framework to pick
  13. Adoption notes from Korea and Japan
  14. References

1. The 2026 Agent Framework Map

Big picture first. Group by who built the framework:

Model-vendor official SDKs

  • OpenAI Agents SDK (released March 2025). Promotes the experimental Swarm library to an official SDK. Handoffs, tracing, and guardrails are first-class.
  • Anthropic Agent SDK / Claude Code SDK (GA September 2025). Exposes the agent loop battle-tested inside Claude Code. Subagents and hooks are core.
  • Vercel AI SDK (technically a model aggregator). React/Next.js UI components are the strength.

Orchestration frameworks

  • LangGraph (LangChain's heir). State machines and graph workflows. Explicit nodes and edges describe the flow.
  • AutoGen 0.4 (Microsoft Research). Multi-agent conversations. Asynchronous actor model after a major rewrite.
  • CrewAI. "Role-based crews" — fastest prototyping. You compose agents like a manager, a researcher, a writer.
  • LlamaIndex Agents. RAG-centric. Indexing and retrieval are first-class.
  • Bee Agent Framework (IBM). Enterprise agents, multi-model and multi-vendor.

Minimalist and code-first

  • smolagents (Hugging Face, 2024). Code execution as a first-class agent tool. "Code is the new function call."
  • Mastra (TypeScript). Full-stack backend. Workflows, agents, memory, and RAG in one box.
  • Pydantic AI (Pydantic team). Structured outputs first. Type safety is the core value.

Standards camp — protocols, not frameworks

  • MCP (Model Context Protocol) — Anthropic's tool integration protocol (November 2024).
  • A2A (Agent-to-Agent) — emerging in 2025 as a candidate protocol for cross-vendor agent collaboration.

The map's takeaway is simple: there is no single right framework. It depends on the problem, the team, and the model.


2. What Is an Agent — Andrew Ng's Four Patterns

Andrew Ng's spring 2024 talk gave us the cleanest taxonomy of agent design patterns. Two years later it still holds up.

Pattern 1: Reflection. The model critiques and revises its own output. A "draft -> critique -> revise" loop. You get a big quality lift without changing models.

Pattern 2: Tool Use. The model calls external tools — search, calculator, code execution, APIs. This is the step that turns an LLM into an "agent."

Pattern 3: Planning. The model plans a multi-step task before executing. Plan-and-Execute. More efficient than ad-hoc ReAct for complex tasks.

Pattern 4: Multi-Agent. Multiple agents specialize and collaborate. Manager-worker, debate, writer-editor. Distributes the context-overflow problem that single agents suffer from.

A framework's identity is largely defined by which of these it treats as first-class:

FrameworkReflectionTool UsePlanningMulti-Agent
OpenAI Agents SDKDIYFirst-classSupportFirst-class (handoff)
Anthropic Agent SDKDIYFirst-classSupportFirst-class (subagent)
LangGraphExpress as nodesFirst-classFirst-class (graph)First-class
AutoGenFirst-class (critic)First-classFirst-classFirst-class (conversation)
CrewAIDIYFirst-classFirst-class (Process)First-class (Crew)
smolagentsSupportFirst-class (CodeAgent)SupportSupport
Pydantic AISupportFirst-classSupportSupport
LlamaIndex AgentsSupportFirst-classFirst-classSupport
MastraSupportFirst-classFirst-class (workflow)First-class
Vercel AI SDKSupportFirst-classSupportSupport

3. ReAct, Plan-and-Execute, Tree-of-Thought — Comparing the Patterns

Beneath every framework is a runtime algorithm. Three are the most common.

3.1 ReAct (Reasoning + Acting)

The original ReAct paper is Yao et al. 2022. The model alternates Thought, Action, and Observation. In code it's a plain while loop.

while not done and step < max_steps:
    response = model.complete(messages)
    if response.is_final_answer:
        break
    tool_result = execute(response.tool_call)
    messages.append(response)
    messages.append(tool_result)
    step += 1
  • Pros: simple, uses raw model reasoning, adapts on failure.
  • Cons: context grows quickly, easy to lose direction on complex tasks.

LangGraph's prebuilt ReAct agent, the OpenAI Agents SDK default agent, and CrewAI's default task execution all sit on this pattern.

3.2 Plan-and-Execute

Plan first, execute second. Wang et al. 2023's "Plan-and-Solve." The planner calls the model once; the executor can use a smaller model or deterministic code.

Stage 1 (Planner):  goal -> step 1, step 2, ..., step N
Stage 2 (Executor): run steps sequentially/in parallel, replan if needed
  • Pros: token-efficient, parallelizable, auditable.
  • Cons: slower to adapt; bad plans force expensive replanning.

LangGraph has a canonical Plan-and-Execute example. CrewAI's hierarchical Process expresses this too.

3.3 Tree-of-Thought

Branch multiple reasoning paths into a tree and pick the most promising. Yao et al. 2023. Expensive but strong on hard reasoning and planning.

        goal
       /  |  \
   thoughtA  thoughtB  thoughtC
     |    |    |
   ... evaluate, pick best branch ...
  • Pros: powerful on hard problems, self-verification built in.
  • Cons: cost explodes, complex to implement.

Few frameworks support pure ToT first-class. LangGraph can model it; AutoGen's GroupChat can approximate it.


4. OpenAI Agents SDK (March 2025) — The Heir to Swarm

In March 2025, OpenAI graduated the experimental Swarm into the official Agents SDK. Python (official) and TypeScript (late 2025).

Core abstractions

  • Agent — system prompt + tools + model.
  • Handoff — one agent transfers control to another.
  • Guardrail — input/output validation (PII, policy).
  • Tracing — every step shows up in the OpenAI dashboard.

Example

from agents import Agent, Runner, handoff

triage = Agent(
    name="triage",
    instructions="Classify the customer's question and hand off.",
    handoffs=[refund_agent, support_agent],
)

result = Runner.run_sync(triage, "I want a refund")
print(result.final_output)

Handoff is similar to a LangGraph edge or AutoGen's next-speaker selection, but here an agent calls another agent like a function. The mental model is more imperative.

Strengths

  • Best integration with OpenAI models — Realtime API, Voice, Computer Use are first-class.
  • Tracing dashboard is excellent — every tool call and handoff is visualized.
  • Combined with structured outputs it's easy to write type-safe workflows.

Weaknesses

  • Vendor lock-in — non-OpenAI models go through a LiteLLM adapter.
  • Graph visualization and complex state machines are weaker than LangGraph.
  • "Conversation" as multi-agent metaphor isn't as strong as in AutoGen.

5. Anthropic Agent SDK / Claude Code SDK (September 2025)

Anthropic has run Claude Code, its own coding agent, since 2024. In September 2025 it exposed that internal engine as the Claude Agent SDK.

Core concepts

  • Agent loop — built on top of Anthropic's tool_use tokens.
  • Subagent — an agent spawns a child agent that runs in an isolated context window.
  • Hook — user code injectable around tool calls, model responses, and other lifecycle events.
  • Permission gate — high-risk tools require explicit user approval.
  • MCP integration — Anthropic's MCP standard is first-class.

Example

import { ClaudeAgent } from '@anthropic-ai/claude-agent-sdk'

const agent = new ClaudeAgent({
  model: 'claude-sonnet-4',
  systemPrompt: 'You are a careful research assistant.',
  tools: [webSearchTool, fileTool],
  hooks: {
    beforeToolUse: async (call) => {
      console.log('about to call', call.name)
    },
  },
})

const result = await agent.run('Explain MCP in 5 bullets.')

Strengths

  • Loop hardened by years of Claude Code production use — context management and context-rot mitigation are the most mature.
  • Subagents and permission gates are first-class — code execution and other high-risk tools are safer.
  • MCP is native — Anthropic invented it.

Weaknesses

  • Anthropic model lock-in (other models need adapters).
  • Smaller ecosystem than OpenAI's despite Python and TypeScript support.
  • Graph-shaped workflow modeling isn't as explicit as LangGraph.

6. LangGraph — State-Machine Graphs

LangGraph is the LangChain team's "agents as graphs" framework. Free-form LangChain chains became debugging nightmares, so LangGraph introduced explicit nodes, edges, and shared state.

Core model

  • State — a single state object shared across the graph.
  • Node — a function that consumes and produces state.
  • Edge — decides which node runs next.
  • Conditional edge — routes based on state.
  • Checkpoint — snapshot and resume from any point.

Example

from langgraph.graph import StateGraph, END

graph = StateGraph(State)
graph.add_node("planner", planner_node)
graph.add_node("executor", executor_node)
graph.add_node("verifier", verifier_node)

graph.set_entry_point("planner")
graph.add_edge("planner", "executor")
graph.add_conditional_edges(
    "verifier",
    lambda s: "retry" if s.needs_retry else "done",
    {"retry": "executor", "done": END},
)

app = graph.compile()
result = app.invoke({"goal": "deploy app"})

Strengths

  • Explicitness — the graph is in the code, debugging is easy.
  • Human-in-the-loop points can be made explicit nodes.
  • Checkpoints enable pause, resume, and time-travel.
  • LangSmith gives you strong tracing.

Weaknesses

  • Steepest learning curve — the graph mental model takes time.
  • Overkill for simple ReAct.
  • Drags in some heavy LangChain dependencies.

7. AutoGen 0.4 (Microsoft) — Multi-Agent Conversation

Microsoft Research's AutoGen has been the multi-agent flagship since 2023. Late 2024 to early 2025 saw an almost complete rewrite at 0.4, moving to an asynchronous actor model.

Core concepts

  • AssistantAgent — an LLM-backed agent.
  • UserProxyAgent — proxies the user (or deterministic code).
  • GroupChat — multiple agents in one chat room, a manager picks the next speaker.
  • AutoGen Studio — a GUI for designing multi-agent workflows.

Example (0.4 new API)

from autogen_agentchat.agents import AssistantAgent
from autogen_agentchat.teams import RoundRobinGroupChat
from autogen_ext.models.openai import OpenAIChatCompletionClient

model = OpenAIChatCompletionClient(model="gpt-4o")
coder = AssistantAgent("coder", model_client=model)
reviewer = AssistantAgent("reviewer", model_client=model)

team = RoundRobinGroupChat([coder, reviewer], termination_condition=...)
result = await team.run(task="Implement quicksort in Python")

Strengths

  • The most natural multi-agent conversation metaphor.
  • AutoGen Studio lets non-coders build workflows.
  • Microsoft Research backing means fast adoption of research patterns (debate, society of minds, etc).

Weaknesses

  • The 0.3 -> 0.4 migration is non-trivial.
  • Overkill for single-agent needs.
  • "Conversation" doesn't suit every workflow shape.

8. CrewAI — Role-Based Crews

CrewAI appeared in 2024 and quickly took the "fastest multi-agent prototyping" crown. The metaphor is intuitive: agents have roles, and crews execute tasks.

Core concepts

  • Agent — has a role, goal, backstory, and tools.
  • Task — who does what, in what output format.
  • Crew — a bundle of agents. Process picks the execution mode (sequential, hierarchical, etc).
  • Flow — deterministic workflow + agents (added late 2024).

Example

from crewai import Agent, Task, Crew, Process

researcher = Agent(
    role="Senior Researcher",
    goal="Find the latest trends in AI agents.",
    backstory="You are a tireless researcher with 10 years of experience.",
    tools=[search_tool],
)
writer = Agent(
    role="Tech Writer",
    goal="Turn research into a clear blog post.",
    backstory="You write for developers who want signal, not hype.",
)

research_task = Task(description="Research the top 5 trends.", agent=researcher)
write_task = Task(description="Write a 1000-word post.", agent=writer)

crew = Crew(agents=[researcher, writer], tasks=[research_task, write_task], process=Process.sequential)
result = crew.kickoff()

Strengths

  • Top-tier prototyping speed — ten minutes from zero to a working multi-agent.
  • The role/crew metaphor reads well to non-technical stakeholders.
  • Easy to learn within a free tier.

Weaknesses

  • Internal behavior is somewhat opaque, debugging is harder.
  • Complex branching is weaker than LangGraph.
  • Production reliability often means migrating onto Flows for more determinism.

9. smolagents, Mastra, Pydantic AI — The Minimalist Wave

For people tired of heavy frameworks, 2024 and 2025 brought a minimalist camp.

9.1 smolagents (Hugging Face, 2024)

A deliberately small agent library from Hugging Face. One-liner: "Code is the new function call."

  • The default agent type is CodeAgent — instead of JSON tool calls, the model writes Python and a sandbox executes it.
  • The codebase is tiny (a few thousand lines).
  • Thin abstraction so any model plugs in.
from smolagents import CodeAgent, HfApiModel

agent = CodeAgent(tools=[search_tool], model=HfApiModel())
agent.run("What is the GDP per capita of Korea in 2025?")
  • Pros: code execution is powerful — one code block can chain N tool calls, much easier to debug than a tool-call trace.
  • Cons: sandbox security is on you. Few abstractions for large workflows.

9.2 Mastra (TypeScript, gaining traction in 2025)

Mastra is a TypeScript full-stack backend framework. If Vercel AI SDK is strong on the frontend React side, Mastra puts backend workflows, memory, agents, and RAG in one box.

  • Deterministic workflows and LLM agents coexist as first-class citizens.
  • Built-in memory, vector store, and RAG pipeline.
  • Runs on Cloudflare Workers, Vercel, or self-hosted.
import { Agent } from '@mastra/core'

const agent = new Agent({
  name: 'support',
  instructions: 'You answer support questions.',
  model: { provider: 'OPEN_AI', name: 'gpt-4o' },
  tools: { lookupOrder, refund },
})

const result = await agent.generate('Where is my order?')
  • Pros: natural for TypeScript full-stack backends. Clean integration between workflows and agents.
  • Cons: young ecosystem. Many gaps relative to Python.

9.3 Pydantic AI (Pydantic team, late 2024)

From the Pydantic team. One-liner: "What FastAPI did for the web, this does for LLMs."

  • All I/O is typed via Pydantic models.
  • Agent functions are decorator-based and lightweight.
  • Model dependency injection feels natural.
from pydantic import BaseModel
from pydantic_ai import Agent

class Order(BaseModel):
    id: str
    status: str

agent = Agent('openai:gpt-4o', result_type=Order)
result = await agent.run('Look up order 12345.')
print(result.data.status)  # type-safe
  • Pros: type safety and structured outputs are top priority. Almost zero friction in FastAPI/Pydantic-shaped codebases.
  • Cons: multi-agent and graph workflows are DIY. Young library.

10. Model Context Protocol (MCP, November 2024) — A Tool Standard Arrives

In November 2024 Anthropic released the Model Context Protocol (MCP). One-liner: USB-C between agents and tools.

The problem

Every framework had its own tool definition format. LangChain Tools, OpenAI functions, Anthropic tool_use — all slightly different. Writing a new tool meant writing it N times for N frameworks. MCP exists to fix this.

Core concepts

  • MCP server — a process that exposes tools, resources, and prompts.
  • MCP client — an LLM client (agent) that connects to servers.
  • Transport — stdio, HTTP plus SSE, or WebSocket.
  • Schema — JSON Schema describes tool signatures.

Where it's used

  • Anthropic Claude Desktop and Claude Code are native MCP clients.
  • Since mid-2025, major tools — OpenAI Agents SDK, LangGraph, Cursor, Windsurf — have added MCP client support.
  • Result: one well-written MCP server is reusable across many agent runtimes.

Why it matters

MCP standardizes tools independently of the framework choice. You may swap frameworks, but a good MCP server lives across them. That's a real reduction in lock-in.


11. A2A (Agent-to-Agent) — The Cross-Agent Protocol

If MCP standardizes "agent and tool," A2A is the candidate standard for "agent and agent." Google led the initial 2025 release, and several vendors are participating.

Why it's needed

Cross-company agent collaboration is on the horizon. Example: our sales agent asks a partner company's pricing agent for a quote. The two agents run on different frameworks, models, and hosts.

You then need:

  • A way for an agent to advertise its capabilities (skills).
  • A way for an agent to discover another agent's capabilities.
  • A way to delegate work and receive results.
  • Auth, permissions, and audit trails.

Core ideas

  • Agent Card — each agent exposes a JSON card describing its capabilities.
  • A2A calls — HTTP plus JSON-RPC. Asynchronous tasks and streaming supported.
  • Orthogonal to MCP — MCP is tool abstraction, A2A is agent abstraction.

As of 2026 A2A is not yet a "settled" standard, but multi-agent systems crossing org boundaries will eventually need this. MCP went from launch to de facto standard in about a year; A2A could follow.


12. Which Framework Should You Pick?

Recommendations by scenario.

Scenario A — "Spin up a notebook and try one quickly"

-> OpenAI Agents SDK or CrewAI. Results within ten minutes.

Scenario B — "Production chatbot or support agent"

-> OpenAI Agents SDK (if OpenAI-heavy) or Anthropic Agent SDK (if Claude-heavy). Guardrails, tracing, permission gates are first-class.

Scenario C — "Complex workflow with branches and retries"

-> LangGraph. Explicit graphs and checkpoints shine.

Scenario D — "Multiple agents debating or collaborating"

-> AutoGen 0.4 or CrewAI. Strong multi-agent metaphors.

Scenario E — "RAG-centric — search our docs well"

-> LlamaIndex Agents. First-class indexing and retrieval. Or Mastra for a TS backend.

Scenario F — "TypeScript / Next.js full-stack"

-> Vercel AI SDK for the UI + Mastra for backend workflows.

Scenario G — "Type safety and structured outputs above all"

-> Pydantic AI (Python) or Vercel AI SDK (TS).

Scenario H — "Code execution is the main tool — data and science"

-> smolagents CodeAgent. Or OpenAI Code Interpreter.

Scenario I — "Enterprise — multi-vendor models, audit, governance"

-> Bee Agent Framework (IBM) or LangGraph with LangSmith.

Scenario J — "Future cross-vendor agent collaboration"

-> Any framework with MCP support. Watch A2A.

Decision checklist (10 items)

  1. Which model is your primary? (Can you accept a vendor-locked SDK?)
  2. Single agent or multi?
  3. Is ReAct enough, or do you need Plan-and-Execute?
  4. Do you need a graph and state machine?
  5. Do you need human-in-the-loop?
  6. Do you need checkpoints and time travel?
  7. Are your tools worth standardizing on MCP?
  8. Where do you watch traces? (LangSmith, OpenAI traces, custom)
  9. Language preference? Python or TypeScript?
  10. Six months from now, what's the exit to another framework?

13. Adoption Notes from Korea and Japan

A brief look at East Asia.

Korea

  • LG AI Research (EXAONE) — Building an internal agent platform on top of the EXAONE model line. Internal R&D and document search agents come first.
  • Kakao Enterprise / Kakao Brain — Successor models to KoGPT plus in-house agent tooling. Started with internal productivity bots and is expanding outward.
  • Naver Clova / HyperCLOVA X — Coding and call-center agents being trialed inside CLOVA Studio.
  • Startups — Companies like Upstage and Squeeze AI lead in RAG and document agents. LangGraph and CrewAI adoption is common.
  • Samsung / SK — Evaluating Claude Code SDK and OpenAI Agents SDK side by side for internal coding assistants and ops agents.

Japan

  • NTT (tsuzumi) — Industrial agents combining NTT's own LLM tsuzumi with NTT DOCOMO's voice and telecom data. R&D experiments span AutoGen and LangGraph.
  • SoftBank — Building on the OpenAI partnership and the Stargate Japan data-center buildout. Validating OpenAI Agents SDK for in-house call-center and sales agents.
  • Preferred Networks — Industrial automation agents on top of their PLaMo model. Manufacturing and logistics focus.
  • Rakuten — Rakuten AI as the in-house model, with internal agents built on LangChain and LangGraph.
  • Mercari — Anthropic Claude-based agents in customer support and used-goods classification trials.

Common patterns

  • "Own model plus external SDK" is the dominant combination. Sovereignty pushes the model to be domestic; the SDK follows global standards.
  • Internal productivity (coding assistants, meeting transcripts, ops bots) is usually the first wave.
  • Japan plays to telecom-and-LLM strengths via NTT and SoftBank. Korea moves faster on search, content, and gaming use cases.
  • MCP adoption accelerated in 2026 — pulled by domestic Cursor and Claude Code usage.

14. References

Official docs first, then a few key academic and design-pattern references.

Framework official docs

Protocols and standards

Core papers and design patterns

Further reading


Epilogue — Choosing an Opinion

One-sentence summary: an agent framework is not a tool, it's an opinion. OpenAI Agents SDK says "agents hand off like functions." LangGraph says "agents are state machines." CrewAI says "agents are roles." Anthropic Agent SDK says "agents are governed by context management." smolagents says "agents write code."

The same problem gets different solutions under different opinions. So — as much as you debate the model — be conscious that you are also choosing the framework's opinion.

Next post candidates: a deep dive on agent evaluation systems (Inspect AI, Promptfoo, LangSmith), writing your own MCP server, and patterns for subagent orchestration.

"A framework is not a library, it is an opinion. Realizing you are choosing an opinion is the first button on the tool-selection coat."

— AI Agent Frameworks in 2026, end.