Vllm

All Posts

Published on
2026년 6월 26일
KV 캐시와 PagedAttention — 추론 메모리의 모든 것
kv-cache paged-attention inference gpu-memory quantization transformer vllm
LLM 추론에서 메모리를 가장 많이 먹는 주범인 KV 캐시를 깊이 파헤칩니다. KV 캐시가 무엇이고 왜 메모리를 잡아먹는지, 메모리 산수와 단편화 문제, PagedAttention의 블록 관리, prefix 공유와 KV 양자화까지 개발자 관점에서 정리합니다.
Published on
2026년 6월 26일
LLM 추론 서빙 2026 — vLLM, SGLang, TensorRT-LLM 비교
llm-serving vllm sglang tensorrt-llm inference mlops batching
2026년의 LLM 추론 서빙을 한눈에 정리합니다. prefill과 decode의 성격 차이, continuous batching, paged KV 캐시 같은 핵심 원리부터 vLLM, SGLang, TensorRT-LLM의 강약점 비교와 선택 가이드, 실제 배포 설정까지 개발자 관점에서 다룹니다.
Published on
2026년 6월 26일
멀티모달 LLM 서빙 — 이미지 입력이 만드는 새로운 과제
mlops multimodal llm-serving vllm kv-cache inference
텍스트 전용 LLM 서빙과 무엇이 다른지부터, 비전 인코더 추가 단계, 가변 비주얼 토큰 수, 프리필 비용 급증, 멀티모달 KV 캐시와 배칭의 난점, 지연 분해와 처리량 최적화, 비용과 운영 함정까지 멀티모달 LLM 서빙의 실무를 정리합니다.
Published on
2026년 6월 12일
로컬 LLM 인퍼런스 최적화 — 양자화부터 VRAM 한계 돌파까지
llm inference quantization llama-cpp vllm ollama gpu
프라이버시와 비용, 그리고 빅테크 피로감 속에 로컬 LLM이 다시 뜨고 있습니다. VRAM 중심의 하드웨어 선택, GGUF와 AWQ 양자화, llama.cpp와 vLLM과 Ollama 비교, KV cache 메모리 산수, VRAM을 스왑으로 쓰는 역발상 해킹까지 로컬 인퍼런스 최적화의 전체 지도를 그립니다.
Published on
2026년 5월 16일
AI 추론 엔진 2026 완벽 가이드 - vLLM · SGLang · llama.cpp · TGI · TensorRT-LLM · MLX · mistral.rs · DeepSpeed-MII · Aphrodite 심층 분석
llm-inference vllm sglang llama-cpp tgi tensorrt-llm mlx mistral-rs deepspeed aphrodite inference
2026년 LLM 추론은 더 이상 모델 선택의 문제가 아니라 엔진 선택의 문제가 됐다. vLLM V1, SGLang 0.4, TensorRT-LLM, TGI 3.x, llama.cpp, MLX-LM, mistral.rs, DeepSpeed-MII, Aphrodite, CTranslate2, ExLlamaV3, OpenVINO, AWS Neuron, Triton — 10개+ 엔진을 PagedAttention·Continuous Batching·Speculative Decoding·Disaggregated Inference·KV 양자화·NIM·Groq LPU 관점에서 한 줄로 비교한다. 자가 호스팅 ROI 계산과 한국·일본 추론 인프라까지.
Published on
2026년 5월 16일
LLM 논문 큐레이션 2024-2026 - Llama · DeepSeek · Qwen · Mistral · Phi · RLHF · DPO · CoT · RAG · FlashAttention · vLLM 심층 가이드
llm papers llama deepseek qwen mistral phi rlhf dpo chain-of-thought rag flashattention vllm foundation-models moe
LLM을 만들고 운영하는 엔지니어를 위한 2024-2026 필독 논문 30+편 큐레이션. 파운데이션 모델(Llama 3/4, DeepSeek-V3/R1, Qwen3, Mistral, Phi-4, Gemma 3), 학습 혁신(MoE, MLA, GQA), 포스트-트레이닝(RLHF, DPO, ORPO, KTO), 추론(CoT, ToT, GRPO), 에이전트(ReAct, SWE-Agent), 검색(RAG, GraphRAG, ColBERT), 효율(FlashAttention 1/2/3, vLLM PagedAttention, SGLang), 평가(MMLU, GSM8K, SWE-Bench, OSWorld), 안전성, 한국·일본 모델까지 — 각 논문의 arXiv ID와 "왜 중요한지"를 한 단락으로 정리.
Published on
2026년 5월 16일
LLM 서빙 & 로컬 추론 2026 — vLLM / llama.cpp / MLX / Ollama / LM Studio / SGLang / TGI 심층 비교
llm model-serving inference vllm llama-cpp mlx llamafile ollama lm-studio gpt4all sglang tgi ktransformers tensorrt-llm modular-max quantization deep-dive
2026년 LLM 서빙·추론 프레임워크의 지도를 그린다. 데이터센터 진영(vLLM·SGLang·TGI·Triton·TensorRT-LLM), 로컬 진영(llama.cpp·MLX·llamafile·Ollama·LM Studio·GPT4All), 신생 진영(KTransformers·MLC LLM·Modular MAX), 그리고 클라우드 서빙 SaaS(Together·Fireworks·Groq·Cerebras·SambaNova·Lepton-NVIDIA 인수). 양자화 포맷(GGUF Q4_K_M·AWQ·GPTQ·FP8), 한국·일본 모델 생태계(Upstage Solar·KT Mi:dm·Sakana·NTT Tsuzumi·ELYZA)까지 — 누가 무엇을 골라야 하나.
Published on
2026년 4월 15일
로컬 LLM 시대 완전 가이드: Llama, Qwen, Mistral, vLLM, 양자화, Apple Silicon (2025)
local-llm llama qwen mistral vllm ollama apple-silicon quantization deep-dive series
외부 API에 모든 걸 의존하던 시절이 끝나간다. 2025년은 소비자 GPU와 Apple Silicon에서 30B–70B 모델이 "쓸 만하게" 돌아가는 시대. 모델 선택(Llama/Qwen/Mistral/Gemma/Solar), 엔진(vLLM/TGI/SGLang/llama.cpp/Ollama), 양자화(AWQ/GPTQ/EXL2/GGUF), 하드웨어, 비용·전력, 그리고 Privacy-first 제품의 실전까지.
Published on
2026년 4월 15일
MLOps 완전 가이드 — 모델 서빙·Feature Store·Drift·A/B 테스트·GPU 경제학 (Season 2 Ep 7, 2025)
mlops model-serving feature-store drift-detection ab-testing gpu-economics vllm triton mlflow ray kubernetes season-2
모델을 학습하는 것과 프로덕션에서 운영하는 것은 완전히 다른 게임이다. Serving(TorchServe·Triton·vLLM·TGI), Feature Store(Feast·Tecton), Training Infra(Ray·Determined), Experiment Tracking(MLflow·W&B), Data/Concept Drift 감지, Model A/B 테스트와 Shadow Deployment, 그리고 GPU 경제학(on-demand·spot·자체 구매)까지 — "논문에서 프로덕션까지의 거리"를 메우는 실전 MLOps 한 편. Season 2의 일곱 번째.
Published on
2026년 4월 14일
LLM 추론 최적화 완전 가이드 2025: vLLM, TensorRT-LLM, KV Cache, Speculative Decoding
llm-inference vllm tensorrt-llm kv-cache speculative-decoding quantization batching model-serving gpu-optimization 2026-04
LLM 추론 최적화의 모든 것! vLLM(PagedAttention), TensorRT-LLM(FP8/INT4), KV Cache 관리, Speculative Decoding, Continuous Batching, FlashAttention, 양자화(GPTQ/AWQ/GGUF), 모델 서빙(Triton/vLLM/TGI), GPU 메모리 최적화, 비용 분석.
Published on
2026년 3월 18일
LLM 서빙 최적화 완전 가이드: KV Cache, PagedAttention, 양자화의 모든 것
LLM서빙 KV캐시 paged-attention vllm 양자화 flash-attention 연속배칭
LLM 서빙의 핵심 최적화 기술을 완전 해부한다. KV Cache의 메모리 문제부터 PagedAttention의 가상 메모리 혁신, 연속 배칭, 추측 디코딩, 양자화, 그리고 vLLM/TGI/TensorRT-LLM 비교까지.
Published on
2026년 3월 17일
LLM 추론 최적화 완전 가이드: KV Cache, Speculative Decoding, Continuous Batching
llm inference optimization kv-cache speculative-decoding vllm 2026-03
LLM 추론을 극한까지 최적화하는 완전 가이드. KV Cache, Speculative Decoding, Continuous Batching, PagedAttention, FlashInfer, 멀티GPU 추론, 그리고 DeepSeek MLA까지 심층 분석합니다.
Published on
2026년 3월 17일
오픈소스 LLM 생태계 완전 가이드: 2026년 모델, 도구, 배포 전략
open-source llm llama mistral gemma qwen ollama vllm huggingface fine-tuning 2026-03
2026년 오픈소스 LLM 생태계를 총망라한 가이드. 주요 모델 패밀리(Llama, Mistral, Gemma, Qwen, DeepSeek), 로컬 추론 도구(Ollama, llama.cpp, vLLM), 파인튜닝 기법(LoRA, QLoRA), 그리고 나만의 LLM을 운영하기 위한 실전 배포 전략을 다룹니다.
Published on
2026년 3월 17일
GPU 메모리 관리 & LLM 추론 최적화: vLLM, PagedAttention, GPTQ, TensorRT-LLM까지
gpu-memory llm-inference vllm paged-attention gptq tensorrt-llm 2026-03
HBM 메모리 계층, KV 캐시 계산, PagedAttention, GPTQ/AWQ 양자화, continuous batching, vLLM vs TensorRT-LLM 비교까지 LLM 추론 최적화 완전 가이드입니다.
Published on
2026년 3월 17일
AI 모델 배포 & 서빙 완전 가이드: Triton, vLLM, BentoML, Kubernetes까지
model-serving triton vllm bentoml kubernetes llm-deployment 2026-03
Docker GPU 컨테이너, Kubernetes HPA, NVIDIA Triton, vLLM LLM 서빙, BentoML, Ray Serve까지 AI 모델 프로덕션 배포 완전 가이드입니다.
Published on
2026년 3월 17일
AI 모델 서빙과 추론 최적화 완전 가이드: vLLM, TensorRT, Triton, Ollama
mlops model-serving vllm tensorrt triton inference optimization 2026-03
AI 모델을 프로덕션에서 효율적으로 서빙하는 완전 가이드. vLLM, TensorRT, NVIDIA Triton Inference Server, Ollama, 양자화(INT8/INT4), 배치 처리, 지연 최적화까지 실전 예제로 마스터합니다.
Published on
2026년 3월 14일
LLM 추론 최적화 완벽 가이드: vLLM, TensorRT-LLM, Speculative Decoding
llm inference-optimization vllm tensorrt-llm speculative-decoding kv-cache 2026-03
LLM 추론 성능을 극대화하는 핵심 기술인 vLLM, TensorRT-LLM, Speculative Decoding, KV Cache 최적화를 실전 코드와 벤치마크로 비교 분석합니다.
Published on
2026년 3월 12일
LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략
llm inference tensorrt-llm vllm sglang model-serving gpu 2026-03
LLM 추론 서빙 3대 프레임워크를 비교합니다. TensorRT-LLM의 하드웨어 최적화, vLLM의 PagedAttention과 프로덕션 스택, SGLang의 RadixAttention과 구조화 생성까지 벤치마크 데이터와 배포 코드로 최적의 선택을 안내합니다.
Published on
2026년 3월 7일
vLLM 프로덕션 서빙 최적화 완전 가이드: PagedAttention부터 Kubernetes 배포까지
llm vllm paged-attention continuous-batching tensor-parallelism speculative-decoding model-serving kubernetes 2026-03
vLLM의 핵심 아키텍처인 PagedAttention부터 Continuous Batching, Tensor Parallelism, Speculative Decoding, Prefix Caching 등 최적화 기법, 상세 설정 가이드, TGI·TensorRT-LLM과의 성능 비교, Kubernetes 배포 패턴, 모니터링과 트러블슈팅까지 프로덕션 관점에서 포괄적으로 다룹니다.
Published on
2026년 3월 6일
vLLM PagedAttention 기반 LLM 프로덕션 서빙 최적화와 추론 엔진 비교 가이드
llm vllm paged-attention model-serving 2026-03
vLLM의 PagedAttention 알고리즘부터 프로덕션 배포, 성능 튜닝, SGLang·TensorRT-LLM과의 비교, Kubernetes 연동까지 다루는 LLM 서빙 종합 가이드.
Published on
2026년 3월 5일
LLM 멀티모달 비전-언어 모델 서빙과 최적화 실전 가이드
llm multimodal vlm vllm 2026-03
비전-언어 모델(VLM)의 서빙 아키텍처 설계부터 vLLM 멀티모달 배포, 이미지 전처리 파이프라인, 양자화 최적화, 프로덕션 운영까지 실전 가이드.
Published on
2026년 3월 3일
vLLM 완벽 가이드 — PagedAttention부터 프로덕션 최적화까지
llm vllm inference paged-attention model-serving 2026-03
vLLM의 핵심인 PagedAttention 메커니즘부터 Continuous Batching, Tensor/Pipeline Parallelism, Prefix Caching까지 LLM 추론 최적화의 모든 것을 다룹니다.
Published on
2026년 3월 2일
Speculative Decoding으로 LLM 추론 2~3배 빠르게: 원리부터 실전 구현까지
llm speculative-decoding inference optimization vllm draft-model token-verification latency throughput model-serving
Speculative Decoding의 수학적 원리, Draft-Verify 파이프라인, 수용 확률 분석, vLLM/TensorRT-LLM에서의 실전 적용법, 그리고 Apple의 Mirror Speculative Decoding까지 심층 분석한다.
Published on
2026년 3월 1일
LLM 추론 최적화: vLLM과 TensorRT-LLM 심층 분석
llm inference vllm tensorrt-llm optimization
vLLM과 TensorRT-LLM 공식 문서를 기반으로 PagedAttention, Continuous Batching, 양자화 등 LLM 추론 최적화 핵심 기술을 분석한다.
Published on
2026년 3월 1일
vLLM을 넘어선 새로운 왕좌: SGLang이 LLM 인퍼런스의 판도를 바꾸는 5가지 이유
sglang llm-inference vllm radix-attention model-serving gpu performance deep-learning structured-generation disaggregation
SGLang의 RadixAttention 기반 KV 캐시 관리, 29% 처리량 우위의 하이퍼 스페셜라이즈드 설계, 4000라인 Python Zero-Overhead 스케줄러, Prefill-Decode Disaggregation, Compressed FSM 기반 구조화된 생성까지 — vLLM을 넘어 차세대 LLM 인퍼런스 표준으로 부상한 SGLang의 5가지 혁신을 심층 분석한다.
Published on
2026년 3월 1일
vLLM & Ollama 완벽 가이드: LLM 서빙 엔진의 구동, 파라미터, 환경변수 총정리
vllm ollama model-serving inference gpu quantization openai-api deep-learning devops
vLLM의 PagedAttention 아키텍처와 Ollama의 로컬 LLM 실행 환경을 심층 비교한다. 설치부터 서버 구동, API 호출, 주요 CLI 인자, 샘플링 파라미터, 환경변수, 양자화(AWQ/GPTQ/GGUF), 멀티 GPU 구성, Docker 배포, 성능 튜닝까지 — LLM 서빙에 필요한 모든 설정을 실전 예제와 함께 총정리한다.

Vllm

vllm (26)