Skip to content

Language Learning Quiz

Based on: LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략

Do you know this expression?

Speculative Decoding
Speculative Decoding (투기적 디코딩)

작은 드래프트 모델로 여러 토큰을 빠르게 생성한 후, 큰 타겟 모델로 한 번에 검증하여 추론 속도를 높이는 기법

Tap to flip