Skip to content
Tools/AI 벤치마크 모음

AI 벤치마크 모음

AI Benchmark Collection

AI 모델 벤치마크 및 리더보드 사이트를 한눈에 모아 정리했습니다.

Chatbot Arena (LMSYS)

LLM

사용자 투표 기반 LLM 랭킹. ELO 점수로 모델을 비교합니다.

랭킹투표ELO

Open LLM Leaderboard

LLM

Hugging Face의 오픈소스 LLM 벤치마크 리더보드.

오픈소스벤치마크

Artificial Analysis

LLM

LLM 품질, 속도, 가격 비교. API 성능 벤치마크.

속도가격API

LiveBench

LLM

주기적으로 갱신되는 LLM 벤치마크. 오염 방지를 위해 새 문제 출제.

벤치마크갱신

SWE-bench

Coding

AI 코딩 에이전트의 실제 GitHub 이슈 해결 능력 벤치마크.

코딩GitHub에이전트

Aider Polyglot Leaderboard

Coding

Aider의 다국어 코딩 벤치마크 리더보드.

코딩다국어

BigCodeBench

Coding

코드 생성 모델의 실용적 프로그래밍 능력 평가.

코딩벤치마크

OpenCompass

Multimodal

멀티모달 LLM 종합 벤치마크. 텍스트, 이미지, 코딩 등 통합 평가.

멀티모달종합

VLMEvalKit Leaderboard

Multimodal

비전-언어 모델 벤치마크. 이미지 이해 능력 평가.

비전이미지

MATH Benchmark

Reasoning

수학 문제 풀이 능력 벤치마크. 경시대회 수준의 문제.

수학추론

GPQA

Reasoning

대학원 수준의 전문가 질문 벤치마크 (물리, 화학, 생물).

전문가과학

AI Safety Leaderboard

Safety

LLM 안전성 및 신뢰성 벤치마크. 편향, 독성, 강건성 평가.

안전신뢰성

ML Commons

Hardware

MLPerf 벤치마크. AI 하드웨어 및 추론 성능 표준 측정.

하드웨어GPU추론

LLM Perf Leaderboard

Hardware

LLM 추론 성능 벤치마크. 처리량, 지연시간 등.

추론성능

벤치마크 사이트 정보는 주기적으로 업데이트됩니다. 새로운 벤치마크 정보를 알고 계시면 블로그 댓글로 알려주세요!