- Published on
LLM 평가는 모델을 측정한다. 에이전트 평가는 모델 + 하네스 + 도구가 실제 작업을 끝까지 끌고 가는지를 측정한다. 두 개는 완전히 다른 문제다. 2026년 현재 에이전트 평가 프레임워크의 지도를 그린다 — UK AISI의 Inspect AI(점점 골든 스탠더드), Promptfoo(OSS CLI), Arize Phoenix(OSS 옵저버빌리티+eval), LangSmith(LangChain 호스티드), OpenAI Evals(원조), Braintrust(유료 SaaS), Helicone, Langfuse. eval 분류학(결정론적·LLM-as-judge·human·task-completion·trajectory·efficiency), 비결정성과 재현성 문제, 첫 에이전트 eval 스위트 만들기, 실제 사례(SWE-bench Verified, Anthropic Inspect 기반 safety eval), 그리고 평가하지 말아야 할 때까지.