Language Learning Quiz
Based on: LLM 롱 컨텍스트 성능과 KV Cache 최적화 완전 가이드: MQA에서 Ring Attention까지
Do you know this expression?
PagedAttention
페이지드 어텐션
vLLM이 도입한 기법으로, KV Cache를 고정 크기 블록으로 분할하여 OS의 가상 메모리처럼 비연속 할당을 가능하게 하여 메모리 낭비를 제거
Tap to flip
Based on: LLM 롱 컨텍스트 성능과 KV Cache 최적화 완전 가이드: MQA에서 Ring Attention까지
vLLM이 도입한 기법으로, KV Cache를 고정 크기 블록으로 분할하여 OS의 가상 메모리처럼 비연속 할당을 가능하게 하여 메모리 낭비를 제거
Tap to flip