Language Learning Quiz
Based on: LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략
Do you know this expression?
Speculative Decoding
Speculative Decoding (투기적 디코딩)
작은 드래프트 모델로 여러 토큰을 빠르게 생성한 후, 큰 타겟 모델로 한 번에 검증하여 추론 속도를 높이는 기법
Tap to flip