Language Learning Quiz
Based on: Ray Serve로 구현하는 확장 가능한 LLM 서빙 파이프라인
Do you know this expression?
Batch Inference
배치 추론
개별 요청을 묶어 GPU에 한꺼번에 처리하여 처리량을 높이는 기법으로, Ray Serve에서 데코레이터로 간단히 설정할 수 있습니다.
Tap to flip
Based on: Ray Serve로 구현하는 확장 가능한 LLM 서빙 파이프라인
개별 요청을 묶어 GPU에 한꺼번에 처리하여 처리량을 높이는 기법으로, Ray Serve에서 데코레이터로 간단히 설정할 수 있습니다.
Tap to flip