Published on2026년 6월 26일어텐션의 진화 — MQA, GQA, FlashAttention, 그리고 긴 컨텍스트llmattentionflashattentiongqamqakv-cachelong-context표준 어텐션의 메모리와 연산 비용을 분석하고, MQA와 GQA가 KV cache를 어떻게 줄이는지, FlashAttention이 IO를 어떻게 최적화하는지 설명합니다. 슬라이딩 윈도우와 롱컨텍스트 기법, 그리고 이 모든 선택이 서빙 메모리에 미치는 영향까지 비교합니다.