Chatbot Arena (LMSYS)
LLM사용자 투표 기반 LLM 랭킹. ELO 점수로 모델을 비교합니다.
랭킹투표ELO
Open LLM Leaderboard
LLMHugging Face의 오픈소스 LLM 벤치마크 리더보드.
오픈소스벤치마크
Artificial Analysis
LLMLLM 품질, 속도, 가격 비교. API 성능 벤치마크.
속도가격API
LiveBench
LLM주기적으로 갱신되는 LLM 벤치마크. 오염 방지를 위해 새 문제 출제.
벤치마크갱신
SWE-bench
CodingAI 코딩 에이전트의 실제 GitHub 이슈 해결 능력 벤치마크.
코딩GitHub에이전트
Aider Polyglot Leaderboard
CodingAider의 다국어 코딩 벤치마크 리더보드.
코딩다국어
BigCodeBench
Coding코드 생성 모델의 실용적 프로그래밍 능력 평가.
코딩벤치마크
OpenCompass
Multimodal멀티모달 LLM 종합 벤치마크. 텍스트, 이미지, 코딩 등 통합 평가.
멀티모달종합
VLMEvalKit Leaderboard
Multimodal비전-언어 모델 벤치마크. 이미지 이해 능력 평가.
비전이미지
MATH Benchmark
Reasoning수학 문제 풀이 능력 벤치마크. 경시대회 수준의 문제.
수학추론
GPQA
Reasoning대학원 수준의 전문가 질문 벤치마크 (물리, 화학, 생물).
전문가과학
AI Safety Leaderboard
SafetyLLM 안전성 및 신뢰성 벤치마크. 편향, 독성, 강건성 평가.
안전신뢰성
ML Commons
HardwareMLPerf 벤치마크. AI 하드웨어 및 추론 성능 표준 측정.
하드웨어GPU추론
LLM Perf Leaderboard
HardwareLLM 추론 성능 벤치마크. 처리량, 지연시간 등.
추론성능
벤치마크 사이트 정보는 주기적으로 업데이트됩니다. 새로운 벤치마크 정보를 알고 계시면 블로그 댓글로 알려주세요!