Published on2026년 3월 17일AI 벤치마크 데이터셋 완전 가이드: ImageNet, COCO, GLUE, MMLU, HumanEvalbenchmarkdatasetsimagenetcocogluemmluevaluationai2026-032026-03-17AI 모델 평가를 위한 주요 벤치마크 데이터셋 완전 가이드. 컴퓨터 비전(ImageNet, COCO, ADE20K), NLP(GLUE, SuperGLUE, SQuAD, MMLU), 코드(HumanEval, MBPP), LLM 평가(HELM, MT-Bench)까지 상세히 분석합니다.