Evaluation

All Posts

Published on
2026년 7월 17일
AI 코드 리뷰는 실제로 쓸 만한가 — 측정된 증거가 말하는 정확도와 거짓 양성
ai code-review static-analysis evaluation software-engineering
AI 코드 리뷰 도구의 마케팅 문구에는 "PR의 80%에 사람 코멘트가 필요 없다" 같은 숫자가 넘치지만, 정작 정밀도와 거짓 양성률을 함께 공개한 곳은 거의 없습니다. 공개된 측정치를 모아 보면 방향은 대체로 일치합니다 — 오픈소스 PR에서 AI 리뷰 코멘트가 실제 코드 변경으로 이어진 비율은 도구에 따라 0.9~19.2%로, 사람 코멘트의 60%에 크게 못 미쳤습니다(Gan 등, 깃허브 액션 16종·저장소 178곳·코멘트 22,326건). 반면 코멘트 해결을 정책으로 강제한 한 기업 사례에서는 같은 지표가 73.8%로 나왔고, 대신 PR 종료 시간이 5시간 52분에서 8시간 20분으로 늘었습니다. 80배 차이는 도구가 아니라 데이터셋과 측정 방식에서 나옵니다. 이 글은 그 숫자들의 조건을 하나씩 뜯어보고, 텐센트의 정적 분석 알람 76%가 거짓 양성이었다는 측정, 구글이 2018년부터 지켜 온 "거짓 양성 10% 넘으면 분석기를 끈다"는 규칙, 그리고 개발자의 "해결함" 라벨조차 정답이 아니라는 후속 연구(LLM 심사의 MCC가 거의 0)를 정리합니다. 결론은 AI 리뷰가 쓸모없다는 것이 아니라, 좁게 설정했을 때만 값을 한다는 것입니다.
Published on
2026년 7월 16일
시뮬레이션된 고객은 절대 떠나지 않는다 — LLM 유저 시뮬레이터가 에이전트 점수를 부풀리는 지점
ai llm evaluation agents simulation
τ-bench 계열의 대화형 에이전트 벤치마크에서 "사용자" 역할은 또 다른 LLM이 맡습니다. 그런데 이 시뮬레이터는 측정 대상이 아니라 측정 도구이고, 도구는 교정을 받아야 합니다. 2026년에 나온 세 편의 검증 연구는 같은 방향을 가리킵니다 — 시뮬레이션된 사용자는 너무 협조적입니다. 실제 사람 451명으로 τ-bench 프로토콜을 그대로 돌린 연구는 시뮬레이터가 만드는 "이지 모드"가 에이전트 성공률을 인간 기준선 위로 부풀린다고 보고했고, 다른 연구는 유저 LLM을 무엇으로 고르느냐에 따라 성공률이 최대 9%p 흔들린다고 보고했습니다. 가장 날카로운 증거는 실제 결제 기록이 붙은 2,790건의 프로덕션 판매 대화에서 나왔습니다 — 시뮬레이터는 결국 구매한 사람은 거의 정확히 재현하지만, 결국 떠난 사람은 구매 프레임 쪽으로 끌어당깁니다. 이 글은 그 측정 방법과 숫자, 프롬프트로는 왜 고쳐지지 않는지, 그리고 저자들이 직접 밝힌 한계(단일 도메인·단일 언어, LLM 심사자, 자유 롤아웃 미측정)까지 정리합니다.
Published on
2026년 7월 11일
코딩 벤치마크는 에이전트 시대와 어긋나 있다 — 리더보드가 에이전트를 잘못 비교하는 세 가지 이유
ai agents evaluation software-engineering coding-benchmarks
Tessl 연구진이 2026년 6월 arXiv에 올린 포지션 논문은, 오늘날의 코딩 벤치마크가 에이전트형 소프트웨어 엔지니어링과 근본적으로 어긋나 있다고 주장합니다. 벤치마크는 개별 모델을 재려고 만들어졌는데, 우리는 그것으로 모델·하네스·컨텍스트·환경·피드백이 얽힌 시스템 전체를 비교하고 있기 때문입니다. 논문은 세 가지 구체적 어긋남 — 모델과 하네스를 뭉뚱그리는 점수, 단일 정답 채점이 정당한 대안을 벌주는 점, 컴포넌트 단위 신호가 없어 개선을 이끌 수 없는 점 — 을 짚습니다. 이 글은 그 논증을 정리하고, 더 나은 평가가 컴포넌트 단위·다중 정답·시스템 인식이라는 방향으로 어떻게 생겨야 하는지 따져 봅니다.
Published on
2026년 7월 11일
tts-bench: 품질이 주관적일 때 로컬 TTS를 비교하는 법
tts text-to-speech benchmark local-ai evaluation open-source
tts-bench는 개발자 5uck1ess가 만든 로컬 벤치마크로, 손에 있는 하드웨어에서 55개 TTS 모델을 비교한다. 평가를 세 렌즈로 나눈다. 속도(TTFA·RTF·메모리), 청취(모든 모델을 귀로 판단), 점수(UTMOS·WER·SIM)다. 가장 흥미로운 건 주관성에 대한 정직함이다. "가장 좋게 들리는" 단일 점수는 없다. 품질은 당신의 귀와 용도에 달렸기 때문이다. 이 글은 이 도구가 실제로 무엇을 재는지, 객관 지표가 어디서 돕고 어디서 오도하는지, 그리고 내 워크로드에 맞는 TTS를 어떻게 고를지 정리한다.
Published on
2026년 7월 11일
UniClawBench로 보는 2026년의 에이전트 벤치마크 — 살아 있는 컨테이너와 숨은 감독자
ai agents evaluation benchmark llm
홍콩대(HKU) MMLab이 2026년 7월 arXiv에 올린 UniClawBench는 "능력 중심(capability-driven)"을 표방하는 프로액티브 에이전트 벤치마크입니다. 정적으로 미리 기록된 정답을 맞히는 대신, 살아 있는 Docker 컨테이너 안에서 단계별 체크포인트로 채점하고, 실행자·숨은 감독자·사용자 에이전트로 이루어진 닫힌 고리로 다중 턴 피드백을 시뮬레이션합니다. 400개의 이중 언어 과제를 다섯 가지 능력으로 나누고, 베이스 모델의 실력과 에이전트 프레임워크 설계를 분리해 측정하려 한다는 점이 핵심입니다. 정적 벤치마크가 오염과 잡음으로 흔들리는 지금, 좋은 에이전트 벤치마크가 갖춰야 할 조건을 구체적으로 보여 줍니다.
Published on
2026년 5월 16일
AI 안전 & 얼라인먼트 2026 완벽 가이드 - Constitutional AI · RLHF · DPO · GRPO · Mechanistic Interpretability · AISI Evals · Red Team 심층 분석
ai-safety ai-alignment constitutional-ai rlhf dpo grpo mechanistic-interpretability aisi red-team evaluation
2026년 AI 안전과 얼라인먼트의 전체 지형을 한 번에 정리한다. outer/inner alignment와 mesa-optimization 같은 개념적 토대부터 RLHF·DPO·GRPO·Constitutional AI로 이어지는 학습 정렬 기법, Anthropic RSP와 OpenAI Preparedness Framework, Google DeepMind Frontier Safety Framework 같은 프런티어 정책, Mechanistic Interpretability와 Sparse Autoencoder, MMLU·GPQA·SWE-bench·METR 같은 능력 평가와 Apollo Research scheming evals 같은 안전 평가, AISI(영·미·한·일)와 Bletchley·Seoul·Paris 정상회담, Red Teaming과 GCG·PAIR·AutoDAN 같은 jailbreak·Llama Guard·NeMo Guardrails·Constitutional Classifiers 같은 방어, EU AI Act·Korean AI Basic Act·METI 가이드라인까지 — 24개 챕터로 펼친다.
Published on
2026년 5월 16일
AI 안전 / 평가 / 레드티밍 2026 — Inspect AI / Garak / PyRIT / Promptfoo / OpenAI Evals / lm-eval-harness 심층 가이드
ai-safety red-teaming evaluation inspect-ai garak pyrit promptfoo openai-evals lm-evaluation-harness deepeval phoenix giskard ai-safety-institute aisi rsp mitre-atlas owasp-llm-top-10 deep-dive
2026년의 AI 안전·평가·레드티밍 생태계를 한 장에 모은다. Inspect AI(Anthropic, UK AISI 채택)·Garak(NVIDIA→독립)·PyRIT(Microsoft)·Promptfoo(YC)·OpenAI Evals·lm-evaluation-harness(EleutherAI), 그리고 MLflow Evals·Arize Phoenix·DeepEval(Confident AI)·Giskard·Atla. 벤치마크 배터리(HumanEval·MMLU·GPQA·SWE-Bench·BigCodeBench), 정책 측의 OpenAI Preparedness Framework와 Anthropic RSP, 표준 측의 MITRE ATLAS와 OWASP LLM Top 10, 그리고 AI Safety Institute(UK·US·일본·한국·싱가포르·프랑스). 한국 KAIST·KISTI, 일본 AISI·RIKEN AIP까지. 누가 무엇을 골라야 하는지를 모델 출시·앱 통합·거버넌스·학술 네 갈래로 정리.
Published on
2026년 4월 15일
AI 엔지니어링 실전 — LLM API, RAG, 에이전트, LoRA/DPO, 벡터 DB, 평가, 관측, Prompt Injection 완전 가이드 (2025)
ai-engineering llm rag ai-agent lora dpo vector-database embeddings evaluation observability prompt-injection langgraph
LLM API 프로덕션 호출의 진짜 어려움, RAG가 단순 조회가 아닌 이유, 에이전트 패턴(ReAct/Plan-Execute/ReWOO), 파인튜닝 언제/언제 하지 말까(LoRA/QLoRA/DPO), 벡터 DB 선택 매트릭스, LLM 평가의 근본적 어려움, 비용 최적화, Prompt Injection 방어까지. 데모가 아닌 '진짜 프로덕션' AI 앱을 만드는 법.
Published on
2026년 4월 15일
AI Engineering 프로덕션 실전 완전 가이드 — RAG·Evals·Fine-tuning·LLMOps·Guardrails·Prompt Caching·비용 최적화까지 2025-2026년 현장 노하우
ai-engineering llm rag evaluation fine-tuning llmops guardrails prompt-caching cost-optimization production deep-dive guide
LLM을 프로토타입에서 프로덕션으로 가져가는 여정은 Jupyter 노트북의 데모와 다르다. RAG 파이프라인 설계, eval harness 구축, fine-tuning 결정 트리, LLMOps 관측 가능성, Guardrails와 안전성, Prompt Caching과 비용 최적화까지 2025-2026년 AI 엔지니어의 현장 가이드를 500줄로 정리한다.
Published on
2026년 4월 15일
LLM 완전 가이드 — Transformer·Attention·RLHF·RAG·Agent·Evaluation (Season 2 Ep 6, 2025)
llm transformer attention rlhf dpo rag ai-agent evaluation ai-engineering reasoning-models season-2
LLM을 "프롬프트에 답하는 블랙박스"로만 쓰면 임계점에서 막힌다. Transformer의 Attention이 실제로 어떻게 토큰 관계를 계산하는지, Pre-training → SFT → RLHF → DPO 파이프라인이 왜 이 순서로 설계됐는지, RAG 1/2/3세대의 차이와 Agentic RAG의 본질, Agent 설계(ReAct, Plan-and-Execute, Multi-Agent)의 근본 패턴, 그리고 LLM 평가가 왜 미해결 문제인지까지 — 블랙박스를 뜯어보는 한 편. Season 2의 여섯 번째, 2025년 엔지니어의 필수 교양.
Published on
2026년 4월 13일
Advanced RAG 파이프라인 완전 가이드 2025: 청킹 전략, 리랭킹, 에이전틱 RAG, 평가
rag chunking reranking agentic-rag evaluation langchain llamaindex embedding llm 2026-04
Advanced RAG의 모든 것! 문서 청킹 전략(Semantic/Recursive/Agentic), 리랭킹(Cohere/ColBERT/Cross-encoder), Query Transformation, 에이전틱 RAG(Self-RAG/CRAG), Multi-modal RAG, 평가(RAGAS/TruLens), 프로덕션 최적화.
Published on
2026년 4월 12일
OpenAI, Azure, AWS 엔터프라이즈 에이전트 관측성과 평가 비교 가이드
openai azure aws observability evaluation ai-agent opentelemetry
OpenAI, Azure, AWS의 에이전트 관측성, 평가, 대시보드, OpenTelemetry 연동을 비교하고 플랫폼, 제품, 인프라 팀이 롤아웃 결정을 내리는 방법을 정리한 실무 가이드입니다.
Published on
2026년 4월 12일
Mastra 실전 가이드: 2026년 TypeScript 팀이 프로덕션 AI 에이전트에 채택하는 이유
mastra typescript ai-agent mcp memory workflows observability evaluation rag ai-platform 2026-04
오픈소스 TypeScript 스택 안에서 에이전트, 메모리, 워크플로, 관측 가능성, 평가, 프로덕션 배포를 함께 다뤄야 하는 팀을 위한 Mastra 실전 가이드입니다.
Published on
2026년 4월 12일
OpenAI RFT with Custom Graders: A Practical Guide for Product and Platform Teams
ai-platform openai rft reinforcement-fine-tuning custom-graders evaluation reasoning-models 2026-04
A practical guide to OpenAI reinforcement fine-tuning with custom graders, including when to use it, how to prepare data, how to evaluate checkpoints, and how to roll it out safely.
Published on
2026년 4월 12일
PydanticAI 실전 가이드: 2026년 Python 팀이 프로덕션 에이전트에 채택하는 이유
pydantic pydantic-ai python ai-agent mcp durable-execution observability evaluation ai-platform 2026-04
Python 중심 에이전트 시스템, 모델 유연성, 내구성 있는 워크플로, 관측 가능성, 평가 체계가 필요한 팀을 위한 PydanticAI 실전 가이드입니다.
Published on
2026년 3월 25일
BFCL 벤치마크 완전 가이드 2025: Tool Calling 성능 평가, 리더보드 분석, 모델 비교
bfcl benchmark tool-calling function-calling evaluation leaderboard llm claude gpt gemini 2026-03
BFCL(Berkeley Function Calling Leaderboard)의 모든 것! 벤치마크 카테고리(Simple/Multiple/Parallel/Relevance/AST), 평가 메트릭, 모델 성능 비교(Claude/GPT/Gemini/Llama), 자체 모델 평가 방법, Tool Calling 개선 전략.
Published on
2026년 3월 17일
AI 벤치마크 데이터셋 완전 가이드: ImageNet, COCO, GLUE, MMLU, HumanEval
benchmark datasets imagenet coco glue mmlu evaluation ai 2026-03
AI 모델 평가를 위한 주요 벤치마크 데이터셋 완전 가이드. 컴퓨터 비전(ImageNet, COCO, ADE20K), NLP(GLUE, SuperGLUE, SQuAD, MMLU), 코드(HumanEval, MBPP), LLM 평가(HELM, MT-Bench)까지 상세히 분석합니다.
Published on
2026년 3월 17일
Gemini API를 프로덕션에 올릴 때 필요한 Prompt, Guardrails, Evaluation
gemini generative-ai ai llmops prompt-engineering evaluation 2026-03
Gemini API를 실서비스에 붙일 때 필요한 프롬프트 설계, structured output, safety 정책, 평가 루프, 비용 통제 방법을 운영 관점에서 정리한 가이드입니다.
Published on
2026년 3월 17일
LLM 평가와 벤치마킹 완전 가이드: MMLU, MT-Bench, RAGAS, LM-Eval
llm evaluation benchmark ragas lm-eval 2026-03
LLM을 올바르게 평가하는 완전 가이드. MMLU, MT-Bench, HumanEval 같은 표준 벤치마크부터 RAGAS로 RAG 시스템 평가, LM-Evaluation-Harness 실전 사용, 그리고 프로덕션 LLM 평가 파이프라인까지 상세히 다룹니다.
Published on
2026년 3월 10일
챗봇 평가 체계 구축 가이드: LLM-as-Judge·RAGAS·자동화 테스트 파이프라인
chatbot evaluation ragas llm-as-judge testing 2026-03
LLM 기반 챗봇의 품질 평가 체계를 체계적으로 구축하는 방법을 다룹니다. RAGAS 프레임워크를 활용한 RAG 파이프라인 평가, LLM-as-Judge 패턴, 자동화 테스트 파이프라인 구축, 프로덕션 모니터링까지 실전 가이드를 제공합니다.
Published on
2026년 3월 7일
RAG 품질 평가와 실패 패턴 분석: 검색 증강 생성의 진단과 개선
rag llm evaluation ragas deepeval hallucination vector-search 2026-03
RAG(Retrieval-Augmented Generation) 시스템의 품질을 체계적으로 평가하는 방법과 흔히 발생하는 실패 패턴들을 분석합니다. Retriever, Reranker, Generator 각 컴포넌트의 평가 지표부터 RAGAS, DeepEval 같은 프레임워크 비교, 그리고 실전 디버깅 워크플로우까지 다룹니다.
Published on
2026년 3월 4일
RAG 챗봇 평가 실전: 오프라인/온라인 품질 측정부터 프로덕션 가드레일까지
chatbot rag evaluation llmops production ragas deepeval trulens
RAG 챗봇을 실제 서비스에서 안정적으로 운영하기 위한 평가 체계를 정리한다. 오프라인 벤치마크, LLM-as-a-Judge, 온라인 실험, 알림 임계치, 회귀 방지 파이프라인까지 코드 중심으로 다룬다.

Evaluation

evaluation (22)