Gqa

Published on
2026년 6월 26일
어텐션의 진화 — MQA, GQA, FlashAttention, 그리고 긴 컨텍스트
llm attention flashattention gqa mqa kv-cache long-context
표준 어텐션의 메모리와 연산 비용을 분석하고, MQA와 GQA가 KV cache를 어떻게 줄이는지, FlashAttention이 IO를 어떻게 최적화하는지 설명합니다. 슬라이딩 윈도우와 롱컨텍스트 기법, 그리고 이 모든 선택이 서빙 메모리에 미치는 영향까지 비교합니다.
Published on
2026년 3월 11일
KV Cache 최적화 심층 분석: GQA·MLA·MHA 어텐션 메커니즘과 메모리 효율화 전략
ai-papers kv-cache attention-mechanism gqa mla transformer 2026-03
Transformer Self-Attention의 KV Cache 기본 원리부터 MHA, MQA, GQA(Llama 2/3), MLA(DeepSeek-V2/V3) 메커니즘의 메모리 분석과 비교, KV Cache 압축 기법(양자화, 퇴거 정책, 슬라이딩 윈도우), PagedAttention(vLLM) 구현, PyTorch 코드 예제, OOM 장애 사례와 최적화 체크리스트를 다룹니다.

어텐션의 진화 — MQA, GQA, FlashAttention, 그리고 긴 컨텍스트