Skip to content

Language Learning Quiz

Based on: LLM 추론 최적화 완벽 가이드: vLLM, TensorRT-LLM, Speculative Decoding

Do you know this expression?

KV Cache
KV 캐시

Transformer의 어텐션 연산에서 이전 토큰의 Key/Value 벡터를 캐싱하여 중복 계산을 방지하는 기법으로, 추론 성능의 핵심 병목 중 하나이다

Tap to flip