LLM·코딩·에이전트·추론·멀티모달 등 AI 벤치마크와 리더보드를 카테고리별로 모았습니다.
27개
LMArena
LLM사용자 투표 기반 LLM 랭킹 (구 LMSYS Chatbot Arena). 텍스트·코드·비전·웹·이미지·영상 등 9개 리더보드.
Artificial Analysis
LLMLLM 품질·속도·가격을 한눈에 비교. API 성능 벤치마크의 사실상 표준.
LLM-Stats
LLM300개 이상의 모델을 지능·속도·가격 종합 점수로 비교하는 애그리게이터.
OpenRouter Rankings
LLM실제 API 사용량(토큰 점유율) 기반 모델 랭킹. "사람들이 실제로 무엇을 쓰는가".
LiveBench
LLM주기적으로 새 문제로 갱신되는 오염 방지 LLM 벤치마크.
SWE-bench
Coding실제 GitHub 이슈 해결 능력 벤치마크. SWE-bench Verified가 프런티어 모델의 표준 지표.
LiveCodeBench
Coding학습 컷오프 이후 출제된 문제만 사용해 데이터 오염을 막는 코딩 벤치마크.
Aider Polyglot Leaderboard
CodingAider의 다국어 코드 편집 벤치마크 리더보드.
Terminal-Bench
Coding실제 터미널 셸에서 장기 과제를 수행하는 에이전트 벤치마크.
BigCodeBench
Coding코드 생성 모델의 실용적 프로그래밍 능력을 평가.
OSWorld
Agentic실제 OS 환경에서 컴퓨터를 직접 조작하는 에이전트 벤치마크.
WebArena
Agentic실제 웹사이트에서 작업을 수행하는 웹 에이전트 벤치마크.
tau-bench
Agentic도구 사용과 대화형 작업에서 에이전트의 신뢰성·일관성을 측정.
Berkeley Function-Calling Leaderboard
Agentic함수 호출·도구 사용 능력을 전문적으로 평가하는 리더보드 (BFCL).
GAIA
Agentic범용 AI 어시스턴트의 실생활 과제 해결 능력을 평가하는 벤치마크.
GPQA
Reasoning대학원 전문가 수준의 과학 질문 벤치마크. GPQA Diamond가 핵심 지표.
Humanity's Last Exam
Reasoning프런티어 모델을 가르기 위해 설계된, 가장 어려운 전문 분야 시험.
ARC-AGI
Reasoning추상적 추론·일반화 능력을 측정하는 벤치마크. ARC-AGI-2가 현재 버전.
FrontierMath
ReasoningEpoch AI의 연구 수준 수학 벤치마크. 극도로 어렵게 설계됨.
Epoch AI Benchmarking Hub
Reasoning주요 벤치마크를 엄밀하게 추적·집계하는 연구 기관의 허브.
OpenCompass
Multimodal텍스트·이미지·코딩을 통합 평가하는 멀티모달 종합 벤치마크.
OpenVLM Leaderboard
Multimodal비전-언어 모델(VLM) 벤치마크. 이미지 이해 능력을 평가.
MMMU
Multimodal대학 수준의 멀티모달 이해·추론 능력을 측정하는 벤치마크.
MLCommons / MLPerf
HardwareMLPerf 표준 벤치마크. AI 하드웨어 및 추론 성능을 표준화된 방식으로 측정.
LLM Perf Leaderboard
HardwareLLM 추론 성능 벤치마크. 처리량·지연시간 등을 측정.
AI Safety Leaderboard
SafetyLLM 안전성·신뢰성 벤치마크. 편향·독성·강건성을 평가.
Scale SEAL Leaderboards
SafetyScale AI의 비공개·오염 없는 전문가 평가 리더보드.
벤치마크 정보는 주기적으로 업데이트됩니다 (2026년 5월 기준). 추가하면 좋을 벤치마크를 알고 계시면 블로그 댓글로 알려주세요!