Published on2026년 3월 11일KV Cache 최적화 심층 분석: GQA·MLA·MHA 어텐션 메커니즘과 메모리 효율화 전략ai-paperskv-cacheattention-mechanismgqamlatransformer2026-032026-03-11Transformer Self-Attention의 KV Cache 기본 원리부터 MHA, MQA, GQA(Llama 2/3), MLA(DeepSeek-V2/V3) 메커니즘의 메모리 분석과 비교, KV Cache 압축 기법(양자화, 퇴거 정책, 슬라이딩 윈도우), PagedAttention(vLLM) 구현, PyTorch 코드 예제, OOM 장애 사례와 최적화 체크리스트를 다룹니다.