LLM 추론 최적화의 모든 것! vLLM(PagedAttention), TensorRT-LLM(FP8/INT4), KV Cache 관리, Speculative Decoding, Continuous Batching, FlashAttention, 양자화(GPTQ/AWQ/GGUF), 모델 서빙(Triton/vLLM/TGI), GPU 메모리 최적화, 비용 분석.
vLLM의 PagedAttention 아키텍처와 Ollama의 로컬 LLM 실행 환경을 심층 비교한다. 설치부터 서버 구동, API 호출, 주요 CLI 인자, 샘플링 파라미터, 환경변수, 양자화(AWQ/GPTQ/GGUF), 멀티 GPU 구성, Docker 배포, 성능 튜닝까지 — LLM 서빙에 필요한 모든 설정을 실전 예제와 함께 총정리한다.