Skip to content

Language Learning Quiz

Based on: KV Cache 최적화 심층 분석: GQA·MLA·MHA 어텐션 메커니즘과 메모리 효율화 전략

Do you know this expression?

PagedAttention
PagedAttention

vLLM에서 도입한 기법으로, KV Cache를 OS의 가상 메모리처럼 페이지 단위로 관리하여 메모리 단편화를 해소한다

Tap to flip