Benchmark

All Posts

Published on
2026년 7월 17일
AI 에이전트의 메모리는 실제로 어떻게 만드는가 — 네 가지 설계와, 벤치마크가 실제로 증명한 것
ai ai-agent agent-memory llm benchmark
"에이전트 메모리"는 한 가지 기술이 아니라 최소 네 가지 서로 다른 설계를 뭉뚱그린 말입니다 — 파일 스크래치패드, 요약/컴팩션, 벡터 회수, 지식 그래프. 이 글은 각각이 실제로 무엇을 하는지 제품 문서로 확인하고, 그다음 훨씬 불편한 질문을 던집니다: 어느 쪽이 낫다는 근거가 실제로 측정된 적이 있나? Mem0 논문(arXiv:2504.19413)의 표를 직접 읽어 보면, 헤드라인인 "OpenAI 대비 26% 개선"은 사실이지만 같은 표에서 대화 전체를 그냥 프롬프트에 붙이는 풀컨텍스트 방식이 J 72.90%로 모든 메모리 시스템(최고 68.44%)을 이겼습니다. 왜 그런지 확인하려고 LoCoMo 공개 데이터셋을 직접 내려받아 토큰을 세어 봤더니, 논문이 기술한 50개 대화·평균 9,209 토큰이 아니라 10개 대화·평균 약 20,034 토큰(tiktoken cl100k_base 기준)이었습니다 — 즉 요즘 컨텍스트 윈도우에 통째로 들어갑니다. 여기에 Mem0와 Zep이 서로의 측정을 반박하다 한쪽이 계산 오류를 인정하고도 두 진영의 숫자가 끝내 일치하지 않은 기록까지, "측정된 것"과 "주장된 것"을 갈라서 정리합니다.
Published on
2026년 7월 17일
브라우저·컴퓨터를 조작하는 AI 에이전트, 지금 어디까지 왔나 — 벤치마크 숫자가 실제로 재는 것
ai computer-use browser-agents benchmark prompt-injection
"컴퓨터 유즈 에이전트가 OSWorld에서 83.5%를 찍었다"와 "가장 강한 에이전트도 20.6%밖에 못 끝낸다"는 둘 다 2026년에 나온 사실이고, 둘 다 맞습니다. 앞은 OSWorld 1.0, 뒤는 같은 팀이 만든 OSWorld 2.0입니다. 이 글은 그 간극이 어디서 오는지를 원 논문과 벤치마크 저자들의 자체 측정으로 따라갑니다. OSWorld 과제의 절반 가까이는 GUI를 거의 쓰지 않고 터미널로 풀린다는 Epoch AI의 독립 분석, 같은 o3가 스텝 예산만 바꿔도 9.1%에서 23.0%로 흔들린다는 저자 재측정, 그리고 벤치마크 자체가 300건 넘게 수리돼 왔다는 사실까지. 마지막으로 보안을 다룹니다 — 브라우저 에이전트에서 프롬프트 인젝션은 더 이상 잘못된 텍스트가 아니라 잘못된 행동이 되고, Anthropic은 자사 공격기 기준 공격 성공률 1%도 "의미 있는 위험"이라고 스스로 적었습니다. 공격 레시피가 아니라 방어의 구조와, 오늘 도입해도 되는 경계선을 정리합니다.
Published on
2026년 7월 11일
tts-bench: 품질이 주관적일 때 로컬 TTS를 비교하는 법
tts text-to-speech benchmark local-ai evaluation open-source
tts-bench는 개발자 5uck1ess가 만든 로컬 벤치마크로, 손에 있는 하드웨어에서 55개 TTS 모델을 비교한다. 평가를 세 렌즈로 나눈다. 속도(TTFA·RTF·메모리), 청취(모든 모델을 귀로 판단), 점수(UTMOS·WER·SIM)다. 가장 흥미로운 건 주관성에 대한 정직함이다. "가장 좋게 들리는" 단일 점수는 없다. 품질은 당신의 귀와 용도에 달렸기 때문이다. 이 글은 이 도구가 실제로 무엇을 재는지, 객관 지표가 어디서 돕고 어디서 오도하는지, 그리고 내 워크로드에 맞는 TTS를 어떻게 고를지 정리한다.
Published on
2026년 7월 11일
UniClawBench로 보는 2026년의 에이전트 벤치마크 — 살아 있는 컨테이너와 숨은 감독자
ai agents evaluation benchmark llm
홍콩대(HKU) MMLab이 2026년 7월 arXiv에 올린 UniClawBench는 "능력 중심(capability-driven)"을 표방하는 프로액티브 에이전트 벤치마크입니다. 정적으로 미리 기록된 정답을 맞히는 대신, 살아 있는 Docker 컨테이너 안에서 단계별 체크포인트로 채점하고, 실행자·숨은 감독자·사용자 에이전트로 이루어진 닫힌 고리로 다중 턴 피드백을 시뮬레이션합니다. 400개의 이중 언어 과제를 다섯 가지 능력으로 나누고, 베이스 모델의 실력과 에이전트 프레임워크 설계를 분리해 측정하려 한다는 점이 핵심입니다. 정적 벤치마크가 오염과 잡음으로 흔들리는 지금, 좋은 에이전트 벤치마크가 갖춰야 할 조건을 구체적으로 보여 줍니다.
Published on
2026년 3월 25일
BFCL 벤치마크 완전 가이드 2025: Tool Calling 성능 평가, 리더보드 분석, 모델 비교
bfcl benchmark tool-calling function-calling evaluation leaderboard llm claude gpt gemini 2026-03
BFCL(Berkeley Function Calling Leaderboard)의 모든 것! 벤치마크 카테고리(Simple/Multiple/Parallel/Relevance/AST), 평가 메트릭, 모델 성능 비교(Claude/GPT/Gemini/Llama), 자체 모델 평가 방법, Tool Calling 개선 전략.
Published on
2026년 3월 22일
2025 오픈소스 AI 모델 완전 비교: DeepSeek R1 vs Llama 4 vs Qwen 3 vs Mistral — 누가 왕인가
open-source ai llm deepseek llama qwen mistral moe benchmark 2026-03
DeepSeek R1(671B/37B), Llama 4 Scout/Maverick, Qwen 3(235B MoE), Mistral 8x22B — 2025년 오픈소스 AI 모델 4강 완전 비교. 벤치마크, 라이센스, 배포 방법, 비용 분석까지.
Published on
2026년 3월 21일
2025년 3월 테크·AI·K-POP 위클리 다이제스트: GTC부터 BTS 컴백까지
culture ai kpop nvidia gtc mcp deepseek gemini weekly-digest open-source benchmark 2026-03
NVIDIA GTC 2025 Blackwell Ultra 발표, Gemini 2.5 Pro 등장, MCP의 업계 표준화, DeepSeek-R1 오픈소스 충격, BTS 5년만의 완전체 컴백, JENNIE 솔로 앨범 밀리언셀러 등 2025년 3월 테크·AI·K-POP 핵심 트렌드를 한눈에 정리합니다.
Published on
2026년 3월 17일
AI 벤치마크 데이터셋 완전 가이드: ImageNet, COCO, GLUE, MMLU, HumanEval
benchmark datasets imagenet coco glue mmlu evaluation ai 2026-03
AI 모델 평가를 위한 주요 벤치마크 데이터셋 완전 가이드. 컴퓨터 비전(ImageNet, COCO, ADE20K), NLP(GLUE, SuperGLUE, SQuAD, MMLU), 코드(HumanEval, MBPP), LLM 평가(HELM, MT-Bench)까지 상세히 분석합니다.
Published on
2026년 3월 17일
LLM, Tool Calling, Embedding 벤치마크 완전 분석: 각 벤치마크가 측정하는 것
llm benchmark mmlu mteb bfcl embedding tool-calling document-parsing
MMLU, HellaSwag, HumanEval, BFCL, MTEB 등 주요 AI 벤치마크들이 정확히 무엇을 측정하는지, 각 점수의 의미와 한계, 그리고 실제 활용 시 어떤 벤치마크를 참고해야 하는지 완전히 분석합니다.
Published on
2026년 3월 17일
LLM 평가와 벤치마킹 완전 가이드: MMLU, MT-Bench, RAGAS, LM-Eval
llm evaluation benchmark ragas lm-eval 2026-03
LLM을 올바르게 평가하는 완전 가이드. MMLU, MT-Bench, HumanEval 같은 표준 벤치마크부터 RAGAS로 RAG 시스템 평가, LM-Evaluation-Harness 실전 사용, 그리고 프로덕션 LLM 평가 파이프라인까지 상세히 다룹니다.

Benchmark

benchmark (10)