Serving

All Posts

Published on
2026년 5월 16일
LLM 서빙 & 로컬 추론 2026 — vLLM / llama.cpp / MLX / Ollama / LM Studio / SGLang / TGI 심층 비교
llm serving inference vllm llama-cpp mlx llamafile ollama lm-studio gpt4all sglang tgi ktransformers tensorrt-llm modular-max quantization 2026 deep-dive
2026년 LLM 서빙·추론 프레임워크의 지도를 그린다. 데이터센터 진영(vLLM·SGLang·TGI·Triton·TensorRT-LLM), 로컬 진영(llama.cpp·MLX·llamafile·Ollama·LM Studio·GPT4All), 신생 진영(KTransformers·MLC LLM·Modular MAX), 그리고 클라우드 서빙 SaaS(Together·Fireworks·Groq·Cerebras·SambaNova·Lepton-NVIDIA 인수). 양자화 포맷(GGUF Q4_K_M·AWQ·GPTQ·FP8), 한국·일본 모델 생태계(Upstage Solar·KT Mi:dm·Sakana·NTT Tsuzumi·ELYZA)까지 — 누가 무엇을 골라야 하나.
Published on
2026년 4월 14일
LLM 추론 최적화 완전 가이드 2025: vLLM, TensorRT-LLM, KV Cache, Speculative Decoding
llm-inference vllm tensorrt-llm kv-cache speculative-decoding quantization batching serving gpu-optimization 2026-04 2026-04-14
LLM 추론 최적화의 모든 것! vLLM(PagedAttention), TensorRT-LLM(FP8/INT4), KV Cache 관리, Speculative Decoding, Continuous Batching, FlashAttention, 양자화(GPTQ/AWQ/GGUF), 모델 서빙(Triton/vLLM/TGI), GPU 메모리 최적화, 비용 분석.
Published on
2026년 4월 13일
MLOps & AI 모델 배포 완전 가이드 — 학습부터 서빙, 모니터링까지
mlops ai deployment serving monitoring kubeflow mlflow 2026-04 2026-04-13
AI 모델을 학습하고 배포하고 운영하는 전 과정. MLflow, Kubeflow, 모델 서빙, A/B 테스트, 드리프트 감지까지 MLOps의 모든 것.
Published on
2026년 3월 12일
LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략
llm inference tensorrt-llm vllm sglang serving gpu 2026-03 2026-03-12
LLM 추론 서빙 3대 프레임워크를 비교합니다. TensorRT-LLM의 하드웨어 최적화, vLLM의 PagedAttention과 프로덕션 스택, SGLang의 RadixAttention과 구조화 생성까지 벤치마크 데이터와 배포 코드로 최적의 선택을 안내합니다.
Published on
2026년 3월 3일
vLLM 완벽 가이드 — PagedAttention부터 프로덕션 최적화까지
llm vllm inference paged-attention serving march-2026 2026-03-03
vLLM의 핵심인 PagedAttention 메커니즘부터 Continuous Batching, Tensor/Pipeline Parallelism, Prefix Caching까지 LLM 추론 최적화의 모든 것을 다룹니다.
Published on
2026년 3월 2일
Speculative Decoding으로 LLM 추론 2~3배 빠르게: 원리부터 실전 구현까지
llm speculative-decoding inference optimization vllm draft-model token-verification latency throughput serving
Speculative Decoding의 수학적 원리, Draft-Verify 파이프라인, 수용 확률 분석, vLLM/TensorRT-LLM에서의 실전 적용법, 그리고 Apple의 Mirror Speculative Decoding까지 심층 분석한다.
Published on
2026년 3월 1일
vLLM을 넘어선 새로운 왕좌: SGLang이 LLM 인퍼런스의 판도를 바꾸는 5가지 이유
sglang llm-inference vllm radix-attention serving gpu performance deep-learning structured-generation disaggregation
SGLang의 RadixAttention 기반 KV 캐시 관리, 29% 처리량 우위의 하이퍼 스페셜라이즈드 설계, 4000라인 Python Zero-Overhead 스케줄러, Prefill-Decode Disaggregation, Compressed FSM 기반 구조화된 생성까지 — vLLM을 넘어 차세대 LLM 인퍼런스 표준으로 부상한 SGLang의 5가지 혁신을 심층 분석한다.

Serving

serving (7)

LLM 서빙 & 로컬 추론 2026 — vLLM / llama.cpp / MLX / Ollama / LM Studio / SGLang / TGI 심층 비교

LLM 추론 최적화 완전 가이드 2025: vLLM, TensorRT-LLM, KV Cache, Speculative Decoding

MLOps & AI 모델 배포 완전 가이드 — 학습부터 서빙, 모니터링까지

LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략

vLLM 완벽 가이드 — PagedAttention부터 프로덕션 최적화까지

Speculative Decoding으로 LLM 추론 2~3배 빠르게: 원리부터 실전 구현까지

vLLM을 넘어선 새로운 왕좌: SGLang이 LLM 인퍼런스의 판도를 바꾸는 5가지 이유