Chaos and Order

Chaos and Order https://www.youngju.dev/blog 천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering. ko fjvbn2003@gmail.com (Youngju Kim) fjvbn2003@gmail.com (Youngju Kim) Tue, 17 Mar 2026 00:00:00 GMT https://www.youngju.dev/blog/gpu-cuda/2026-03-17-gpu-memory-inference-optimization-guide GPU 메모리 관리 & LLM 추론 최적화: vLLM, PagedAttention, GPTQ, TensorRT-LLM까지 https://www.youngju.dev/blog/gpu-cuda/2026-03-17-gpu-memory-inference-optimization-guide HBM 메모리 계층, KV 캐시 계산, PagedAttention, GPTQ/AWQ 양자화, continuous batching, vLLM vs TensorRT-LLM 비교까지 LLM 추론 최적화 완전 가이드입니다. Tue, 17 Mar 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) gpu-memoryllm-inferencevllmpaged-attentiongptqtensorrt-llm2026-03