Skip to content
Tools/AI 벤치마크 모음

AI 벤치마크 모음

AI Benchmark Collection

AI 모델 벤치마크 및 리더보드 사이트를 한눈에 모아 정리했습니다.

LLM·코딩·에이전트·추론·멀티모달 등 AI 벤치마크와 리더보드를 카테고리별로 모았습니다.

27개

LMArena

LLM

사용자 투표 기반 LLM 랭킹 (구 LMSYS Chatbot Arena). 텍스트·코드·비전·웹·이미지·영상 등 9개 리더보드.

랭킹투표Arena

Artificial Analysis

LLM

LLM 품질·속도·가격을 한눈에 비교. API 성능 벤치마크의 사실상 표준.

속도가격API

LLM-Stats

LLM

300개 이상의 모델을 지능·속도·가격 종합 점수로 비교하는 애그리게이터.

종합비교애그리게이터

OpenRouter Rankings

LLM

실제 API 사용량(토큰 점유율) 기반 모델 랭킹. "사람들이 실제로 무엇을 쓰는가".

사용량실사용API

LiveBench

LLM

주기적으로 새 문제로 갱신되는 오염 방지 LLM 벤치마크.

갱신오염 방지

SWE-bench

Coding

실제 GitHub 이슈 해결 능력 벤치마크. SWE-bench Verified가 프런티어 모델의 표준 지표.

코딩GitHub에이전트

LiveCodeBench

Coding

학습 컷오프 이후 출제된 문제만 사용해 데이터 오염을 막는 코딩 벤치마크.

코딩오염 방지

Aider Polyglot Leaderboard

Coding

Aider의 다국어 코드 편집 벤치마크 리더보드.

코딩다국어

Terminal-Bench

Coding

실제 터미널 셸에서 장기 과제를 수행하는 에이전트 벤치마크.

터미널에이전트코딩

BigCodeBench

Coding

코드 생성 모델의 실용적 프로그래밍 능력을 평가.

코딩벤치마크

OSWorld

Agentic

실제 OS 환경에서 컴퓨터를 직접 조작하는 에이전트 벤치마크.

컴퓨터 사용에이전트

WebArena

Agentic

실제 웹사이트에서 작업을 수행하는 웹 에이전트 벤치마크.

에이전트

tau-bench

Agentic

도구 사용과 대화형 작업에서 에이전트의 신뢰성·일관성을 측정.

도구 사용신뢰성

Berkeley Function-Calling Leaderboard

Agentic

함수 호출·도구 사용 능력을 전문적으로 평가하는 리더보드 (BFCL).

함수 호출도구

GAIA

Agentic

범용 AI 어시스턴트의 실생활 과제 해결 능력을 평가하는 벤치마크.

어시스턴트범용

GPQA

Reasoning

대학원 전문가 수준의 과학 질문 벤치마크. GPQA Diamond가 핵심 지표.

전문가과학추론

Humanity's Last Exam

Reasoning

프런티어 모델을 가르기 위해 설계된, 가장 어려운 전문 분야 시험.

최난도프런티어

ARC-AGI

Reasoning

추상적 추론·일반화 능력을 측정하는 벤치마크. ARC-AGI-2가 현재 버전.

추상 추론일반화

FrontierMath

Reasoning

Epoch AI의 연구 수준 수학 벤치마크. 극도로 어렵게 설계됨.

수학연구 수준

Epoch AI Benchmarking Hub

Reasoning

주요 벤치마크를 엄밀하게 추적·집계하는 연구 기관의 허브.

집계연구

OpenCompass

Multimodal

텍스트·이미지·코딩을 통합 평가하는 멀티모달 종합 벤치마크.

멀티모달종합

OpenVLM Leaderboard

Multimodal

비전-언어 모델(VLM) 벤치마크. 이미지 이해 능력을 평가.

비전VLM

MMMU

Multimodal

대학 수준의 멀티모달 이해·추론 능력을 측정하는 벤치마크.

멀티모달대학 수준

MLCommons / MLPerf

Hardware

MLPerf 표준 벤치마크. AI 하드웨어 및 추론 성능을 표준화된 방식으로 측정.

하드웨어GPU추론

LLM Perf Leaderboard

Hardware

LLM 추론 성능 벤치마크. 처리량·지연시간 등을 측정.

추론성능

AI Safety Leaderboard

Safety

LLM 안전성·신뢰성 벤치마크. 편향·독성·강건성을 평가.

안전신뢰성

Scale SEAL Leaderboards

Safety

Scale AI의 비공개·오염 없는 전문가 평가 리더보드.

비공개 평가전문가

벤치마크 정보는 주기적으로 업데이트됩니다 (2026년 5월 기준). 추가하면 좋을 벤치마크를 알고 계시면 블로그 댓글로 알려주세요!