Tools/AI 벤치마크 모음

AI 벤치마크 모음

AI Benchmark Collection

AI 모델 벤치마크 및 리더보드 사이트를 한눈에 모아 정리했습니다.

LLM·코딩·에이전트·추론·멀티모달 등 AI 벤치마크와 리더보드를 카테고리별로 모았습니다.

58개 사이트 · 10개 카테고리

LMArena

사용자 투표 기반 LLM 랭킹 (구 LMSYS Chatbot Arena). 텍스트·코드·비전·웹·이미지·영상 등 9개 리더보드.

LLM랭킹투표Arena

Artificial Analysis

LLM 품질·속도·가격을 한눈에 비교. API 성능 벤치마크의 사실상 표준.

LLM속도가격API

LLM-Stats

300개 이상의 모델을 지능·속도·가격 종합 점수로 비교하는 애그리게이터.

LLM종합비교애그리게이터

OpenRouter Rankings

실제 API 사용량(토큰 점유율) 기반 모델 랭킹. "사람들이 실제로 무엇을 쓰는가".

LLM사용량실사용API

LiveBench

주기적으로 새 문제로 갱신되는 오염 방지 LLM 벤치마크.

LLM갱신오염 방지

Vellum LLM Leaderboard

주요 상용 모델의 벤치마크 점수·컨텍스트 길이·가격을 표 하나로 비교하는 리더보드.

LLM비교표가격컨텍스트

HELM (Stanford CRFM)

스탠퍼드 CRFM의 전방위(holistic) LLM 평가 프레임워크. 투명한 방법론과 재현성이 강점.

LLM학술재현성

Kagi LLM Benchmark

검색엔진 Kagi가 비공개 문제로 주기 갱신하는 소규모 벤치마크. 오염에 강한 것이 특징.

LLM오염 방지갱신

EQ-Bench

감성 지능·창작 글쓰기·롱폼 등 "소프트 스킬"을 평가하는 독립 벤치마크.

LLM감성 지능창작

MTEB Leaderboard

임베딩 모델의 표준 벤치마크(MTEB). RAG·검색 파이프라인의 모델 선정 필수 참고 자료.

LLM임베딩RAG

SWE-bench

실제 GitHub 이슈 해결 능력 벤치마크. SWE-bench Verified가 프런티어 모델의 표준 지표.

Coding코딩GitHub에이전트

LiveCodeBench

학습 컷오프 이후 출제된 문제만 사용해 데이터 오염을 막는 코딩 벤치마크.

Coding코딩오염 방지

Aider Polyglot Leaderboard

Aider의 다국어 코드 편집 벤치마크 리더보드.

Coding코딩다국어

Terminal-Bench

실제 터미널 셸에서 장기 과제를 수행하는 에이전트 벤치마크.

Coding터미널에이전트코딩

BigCodeBench

코드 생성 모델의 실용적 프로그래밍 능력을 평가.

Coding코딩벤치마크

WebDev Arena

LMArena의 웹 개발 특화 아레나. 두 모델이 만든 웹앱을 나란히 놓고 투표로 랭킹.

Coding웹 개발투표

Design Arena

AI가 생성한 UI·프런트엔드 디자인을 토너먼트 방식 투표로 랭킹화.

Coding디자인UI투표

SciCode

과학자들이 직접 만든 연구 코딩 벤치마크. 물리·수학·생물 등 실제 연구 코드 작성 능력 평가.

Coding과학연구 코드

OSWorld

실제 OS 환경에서 컴퓨터를 직접 조작하는 에이전트 벤치마크.

Agentic컴퓨터 사용에이전트

WebArena

실제 웹사이트에서 작업을 수행하는 웹 에이전트 벤치마크.

Agentic웹에이전트

tau-bench

도구 사용과 대화형 작업에서 에이전트의 신뢰성·일관성을 측정.

Agentic도구 사용신뢰성

Berkeley Function-Calling Leaderboard

함수 호출·도구 사용 능력을 전문적으로 평가하는 리더보드 (BFCL).

Agentic함수 호출도구

GAIA

범용 AI 어시스턴트의 실생활 과제 해결 능력을 평가하는 벤치마크.

Agentic어시스턴트범용

METR

AI가 수행 가능한 작업의 "시간 지평"을 측정하는 연구기관. 장기 자율 작업 평가의 기준점.

Agentic장기 과제자율성

MLE-bench

OpenAI의 ML 엔지니어링 벤치마크. 에이전트가 실제 Kaggle 대회 75개를 수행.

AgenticML 엔지니어링Kaggle

GPQA

대학원 전문가 수준의 과학 질문 벤치마크. GPQA Diamond가 핵심 지표.

Reasoning전문가과학추론

Humanity's Last Exam

프런티어 모델을 가르기 위해 설계된, 가장 어려운 전문 분야 시험.

Reasoning최난도프런티어

ARC-AGI

추상적 추론·일반화 능력을 측정하는 벤치마크. ARC-AGI-2가 현재 버전.

Reasoning추상 추론일반화

FrontierMath

Epoch AI의 연구 수준 수학 벤치마크. 극도로 어렵게 설계됨.

Reasoning수학연구 수준

Epoch AI Benchmarking Hub

주요 벤치마크를 엄밀하게 추적·집계하는 연구 기관의 허브.

Reasoning집계연구

SimpleBench

사람에겐 쉽지만 모델에겐 어려운 함정 문제 벤치마크. 상식·공간 추론의 허점을 드러냄.

Reasoning상식함정 문제

OpenCompass

텍스트·이미지·코딩을 통합 평가하는 멀티모달 종합 벤치마크.

Multimodal멀티모달종합

OpenVLM Leaderboard

비전-언어 모델(VLM) 벤치마크. 이미지 이해 능력을 평가.

Multimodal비전VLM

MMMU

대학 수준의 멀티모달 이해·추론 능력을 측정하는 벤치마크.

Multimodal멀티모달대학 수준

VBench

영상 생성 모델의 표준 벤치마크. 화질·일관성·미학 등 16개 차원으로 평가.

Video영상 생성품질

Video Arena (Artificial Analysis)

텍스트-투-비디오 모델을 나란히 비교 투표하는 아레나. ELO 랭킹 제공.

Video영상투표

TTS Arena

음성 합성(TTS) 모델을 블라인드 비교 투표로 랭킹. Hugging Face 커뮤니티 운영.

AudioTTS음성

MLCommons / MLPerf

MLPerf 표준 벤치마크. AI 하드웨어 및 추론 성능을 표준화된 방식으로 측정.

Hardware하드웨어GPU추론

LLM Perf Leaderboard

LLM 추론 성능 벤치마크. 처리량·지연시간 등을 측정.

Hardware추론성능

AI Safety Leaderboard

LLM 안전성·신뢰성 벤치마크. 편향·독성·강건성을 평가.

Safety안전신뢰성

Scale SEAL Leaderboards

Scale AI의 비공개·오염 없는 전문가 평가 리더보드.

Safety비공개 평가전문가

Cybench

CTF 스타일 사이버보안 과제로 모델의 해킹 능력과 리스크를 평가하는 벤치마크.

Safety보안CTF

Vectara Hallucination Leaderboard

문서 요약 시 모델별 환각(할루시네이션) 발생률을 측정. RAG 모델 선정에 유용.

Safety환각RAG

Open Ko-LLM Leaderboard

Upstage·NIA의 한국어 LLM 리더보드. Ko-H5(한국어 MMLU·ARC·HellaSwag·TruthfulQA·CommonGen) 기반이며 시즌2에서 실무 과제를 추가. 비공개 테스트셋으로 오염을 방지합니다.

Korean한국어리더보드Ko-H5

LogicKor

한국어 다분야 사고력 벤치마크(한국어판 MT-Bench). 추론·수학·글쓰기·문법 등 카테고리별 멀티턴 평가. (포화되어 업데이트 중단)

Korean한국어사고력MT-Bench

KMMLU

HAERAE-HUB의 한국어 MMLU. 번역이 아니라 한국 시험에서 발췌한 45개 분야 지식·추론 문제. 정제판 KMMLU-Redux와 전문 자격시험 기반 KMMLU-Pro도 있습니다.

Korean한국어지식MMLU

HAE-RAE Bench

한국어·한국문화 특화 지식 벤치마크. 어휘·역사·상식 등 한국어로 학습되지 않은 모델이 특히 약한 문제들.

Korean한국어문화지식

CLIcK

한국의 문화·언어 지능(Cultural and Linguistic Intelligence in Korean) 벤치마크. 문화·언어 2개 대분류, 11개 세부 분야.

Korean한국어문화언어

KoMT-Bench

LG AI 연구원(EXAONE)의 한국어 지시 따르기 벤치마크. MT-Bench를 한국어로 번역·현지화한 멀티턴 평가.

Korean한국어지시따르기MT-Bench

Horangi Korean LLM Leaderboard

Weights & Biases의 한국어 LLM 리더보드. 일반 언어 성능(GLP)과 가치 정렬(ALT) 두 축, 20여 개 한국어 벤치마크를 W&B Weave로 평가.

Korean한국어리더보드W&B

HRM8K

한국어·영어 병렬 수학 추론 벤치마크(8K 문항). 같은 문제의 한/영 쌍으로 언어에 따른 수학 성능 격차를 측정.

Korean한국어수학추론

BenchLM — Korea Leaderboard

한국어 특화 리더보드(KMMLU·CLIcK 등)로 EXAONE·HyperCLOVA X·Solar 같은 국산 모델을 비교. BenchLM.ai의 지역별 뷰.

Korean한국어리더보드국산모델

MMLU-Pro

MMLU의 강화판. 12K개 고난도 문항, 보기 10개, 추론 비중을 높여 포화된 MMLU를 대체. 지식과 추론을 함께 봅니다.

LLM지식추론MMLU

WildBench (AI2)

AI2의 실사용 과제 벤치마크. 실제 사용자 대화에서 뽑은 어려운 태스크를 WB-Elo로 채점해 "현장의 요청"에 강한 모델을 가려냅니다.

LLM실사용태스크Elo

BALROG

게임으로 에이전트 능력을 평가. NetHack·MiniHack 등 장기 상호작용 환경에서 계획·공간추론·탐험을 측정하며, 어려운 환경에선 모델이 크게 무너집니다.

Agentic에이전트게임VLM

ZeroBench

현세대 멀티모달 모델에겐 "불가능"하게 설계된 시각 추론 벤치마크. 100개 문항으로 출시 당시 최상위 모델도 0%를 기록했습니다.

Multimodal시각추론초고난도VLM

Dubesor LLM Benchmark

한 개인이 손으로 채점하는 소규모 독립 벤치마크(추론·코드·수학 등). 대형 리더보드와 다른 관점을 주는 매니아용 표. (아카이브됨)

LLM독립수작업소규모

BenchLM.ai

272개 모델 × 249개 벤치마크를 정규화·가중 합산해 랭킹하는 애그리게이터. 포화·오염된 벤치마크는 점수에서 빼고 표시만 합니다.

LLM애그리게이터종합가중치

벤치마크 정보는 주기적으로 업데이트됩니다 (2026년 7월 기준). 추가하면 좋을 벤치마크를 알고 계시면 블로그 댓글로 알려주세요!