Gpu-optimization

Published on
2026년 4월 14일
LLM 추론 최적화 완전 가이드 2025: vLLM, TensorRT-LLM, KV Cache, Speculative Decoding
llm-inference vllm tensorrt-llm kv-cache speculative-decoding quantization batching model-serving gpu-optimization 2026-04
LLM 추론 최적화의 모든 것! vLLM(PagedAttention), TensorRT-LLM(FP8/INT4), KV Cache 관리, Speculative Decoding, Continuous Batching, FlashAttention, 양자화(GPTQ/AWQ/GGUF), 모델 서빙(Triton/vLLM/TGI), GPU 메모리 최적화, 비용 분석.
Published on
2026년 3월 9일
FlashAttention 논문 분석: IO-Aware Exact Attention으로 Transformer 학습·추론 속도 혁신
ai-papers flash-attention transformer gpu-optimization attention-mechanism 2026-03
FlashAttention 시리즈(v1~v3) 핵심 논문 분석. IO-Aware 알고리즘의 tiling 전략, GPU SRAM/HBM 메모리 계층 활용, 역전파 recomputation, FlashAttention-2의 병렬화 개선, FlashAttention-3의 FP8 지원과 비동기 파이프라이닝까지 실전 벤치마크와 함께 다룹니다.

LLM 추론 최적화 완전 가이드 2025: vLLM, TensorRT-LLM, KV Cache, Speculative Decoding