Published on2026년 3월 17일LLM, Tool Calling, Embedding 벤치마크 완전 분석: 각 벤치마크가 측정하는 것LLM벤치마크MMLUMTEBBFCLEmbeddingTool-Calling문서파싱MMLU, HellaSwag, HumanEval, BFCL, MTEB 등 주요 AI 벤치마크들이 정확히 무엇을 측정하는지, 각 점수의 의미와 한계, 그리고 실제 활용 시 어떤 벤치마크를 참고해야 하는지 완전히 분석합니다.