Published on2026년 3월 17일GPU 메모리 관리 & LLM 추론 최적화: vLLM, PagedAttention, GPTQ, TensorRT-LLM까지gpu-memoryllm-inferencevllmpaged-attentiongptqtensorrt-llm2026-03HBM 메모리 계층, KV 캐시 계산, PagedAttention, GPTQ/AWQ 양자화, continuous batching, vLLM vs TensorRT-LLM 비교까지 LLM 추론 최적화 완전 가이드입니다.