Language Learning Quiz
Based on: NVIDIA Triton Inference Server 프로덕션 가이드: GPU 모델 서빙 최적화 전략
Do you know this expression?
Dynamic Batching
동적 배칭
개별적으로 도착하는 추론 요청을 실시간으로 묶어 하나의 배치로 GPU에 전달하여 처리량을 극대화하는 스케줄링 기법입니다.
Tap to flip
Based on: NVIDIA Triton Inference Server 프로덕션 가이드: GPU 모델 서빙 최적화 전략
개별적으로 도착하는 추론 요청을 실시간으로 묶어 하나의 배치로 GPU에 전달하여 처리량을 극대화하는 스케줄링 기법입니다.
Tap to flip