Skip to content

Language Learning Quiz

Based on: LLM 롱 컨텍스트 성능과 KV Cache 최적화 완전 가이드: MQA에서 Ring Attention까지

Do you know this expression?

PagedAttention
페이지드 어텐션

vLLM이 도입한 기법으로, KV Cache를 고정 크기 블록으로 분할하여 OS의 가상 메모리처럼 비연속 할당을 가능하게 하여 메모리 낭비를 제거

Tap to flip