Language Learning Quiz

Based on: LLM 롱 컨텍스트 성능과 KV Cache 최적화 완전 가이드: MQA에서 Ring Attention까지

Sliding Window Attention

슬라이딩 윈도우 어텐션

각 토큰이 고정 크기의 로컬 윈도우 내 토큰에만 어텐션을 수행하여 KV Cache 크기를 제한하는 Mistral 등의 기법

Tap to flip