Language Learning Quiz
Based on: LLM 추론 최적화 완벽 가이드: vLLM, TensorRT-LLM, Speculative Decoding
Do you know this expression?
KV Cache
KV 캐시
Transformer의 어텐션 연산에서 이전 토큰의 Key/Value 벡터를 캐싱하여 중복 계산을 방지하는 기법으로, 추론 성능의 핵심 병목 중 하나이다
Tap to flip
Based on: LLM 추론 최적화 완벽 가이드: vLLM, TensorRT-LLM, Speculative Decoding
Transformer의 어텐션 연산에서 이전 토큰의 Key/Value 벡터를 캐싱하여 중복 계산을 방지하는 기법으로, 추론 성능의 핵심 병목 중 하나이다
Tap to flip