- Published on
KV Cache ์ต์ ํ ์ฌ์ธต ๋ถ์: GQAยทMLAยทMHA ์ดํ ์ ๋ฉ์ปค๋์ฆ๊ณผ ๋ฉ๋ชจ๋ฆฌ ํจ์จํ ์ ๋ต
Transformer Self-Attention์ KV Cache ๊ธฐ๋ณธ ์๋ฆฌ๋ถํฐ MHA, MQA, GQA(Llama 2/3), MLA(DeepSeek-V2/V3) ๋ฉ์ปค๋์ฆ์ ๋ฉ๋ชจ๋ฆฌ ๋ถ์๊ณผ ๋น๊ต, KV Cache ์์ถ ๊ธฐ๋ฒ(์์ํ, ํด๊ฑฐ ์ ์ฑ
, ์ฌ๋ผ์ด๋ฉ ์๋์ฐ), PagedAttention(vLLM) ๊ตฌํ, PyTorch ์ฝ๋ ์์ , OOM ์ฅ์ ์ฌ๋ก์ ์ต์ ํ ์ฒดํฌ๋ฆฌ์คํธ๋ฅผ ๋ค๋ฃน๋๋ค.