Language Learning Quiz
Based on: LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략
Do you know this expression?
In-flight Batching
In-flight Batching (인플라이트 배칭)
요청이 완료될 때까지 기다리지 않고, 생성 중에도 새로운 요청을 배치에 동적으로 추가하여 GPU 활용률을 극대화하는 기법
Tap to flip