Llm-inference

All Posts

Published on
2026년 5월 16일
AI 추론 엔진 2026 완벽 가이드 - vLLM · SGLang · llama.cpp · TGI · TensorRT-LLM · MLX · mistral.rs · DeepSpeed-MII · Aphrodite 심층 분석
llm-inference vllm sglang llama-cpp tgi tensorrt-llm mlx mistral-rs deepspeed aphrodite inference
2026년 LLM 추론은 더 이상 모델 선택의 문제가 아니라 엔진 선택의 문제가 됐다. vLLM V1, SGLang 0.4, TensorRT-LLM, TGI 3.x, llama.cpp, MLX-LM, mistral.rs, DeepSpeed-MII, Aphrodite, CTranslate2, ExLlamaV3, OpenVINO, AWS Neuron, Triton — 10개+ 엔진을 PagedAttention·Continuous Batching·Speculative Decoding·Disaggregated Inference·KV 양자화·NIM·Groq LPU 관점에서 한 줄로 비교한다. 자가 호스팅 ROI 계산과 한국·일본 추론 인프라까지.
Published on
2026년 4월 14일
LLM 추론 최적화 완전 가이드 2025: vLLM, TensorRT-LLM, KV Cache, Speculative Decoding
llm-inference vllm tensorrt-llm kv-cache speculative-decoding quantization batching model-serving gpu-optimization 2026-04
LLM 추론 최적화의 모든 것! vLLM(PagedAttention), TensorRT-LLM(FP8/INT4), KV Cache 관리, Speculative Decoding, Continuous Batching, FlashAttention, 양자화(GPTQ/AWQ/GGUF), 모델 서빙(Triton/vLLM/TGI), GPU 메모리 최적화, 비용 분석.
Published on
2026년 3월 18일
NPU 완전 해부: 트랜스포머 아키텍처가 실리콘 위에서 어떻게 달리는가
npu 트랜스포머 ai-hardware 양자화 KV캐시 apple-neural-engine llm-inference
NPU가 CPU/GPU와 무엇이 다른지, 트랜스포머의 모든 연산이 하드웨어에 어떻게 매핑되는지, 왜 LLM 추론은 메모리 바운드인지를 루프라인 모델과 실제 코드로 완전 해부합니다. Apple ANE부터 Qualcomm Hexagon, Groq LPU까지.
Published on
2026년 3월 17일
GPU 메모리 관리 & LLM 추론 최적화: vLLM, PagedAttention, GPTQ, TensorRT-LLM까지
gpu-memory llm-inference vllm paged-attention gptq tensorrt-llm 2026-03
HBM 메모리 계층, KV 캐시 계산, PagedAttention, GPTQ/AWQ 양자화, continuous batching, vLLM vs TensorRT-LLM 비교까지 LLM 추론 최적화 완전 가이드입니다.
Published on
2026년 3월 1일
vLLM을 넘어선 새로운 왕좌: SGLang이 LLM 인퍼런스의 판도를 바꾸는 5가지 이유
sglang llm-inference vllm radix-attention model-serving gpu performance deep-learning structured-generation disaggregation
SGLang의 RadixAttention 기반 KV 캐시 관리, 29% 처리량 우위의 하이퍼 스페셜라이즈드 설계, 4000라인 Python Zero-Overhead 스케줄러, Prefill-Decode Disaggregation, Compressed FSM 기반 구조화된 생성까지 — vLLM을 넘어 차세대 LLM 인퍼런스 표준으로 부상한 SGLang의 5가지 혁신을 심층 분석한다.

Llm-inference

llm-inference (5)

AI 추론 엔진 2026 완벽 가이드 - vLLM · SGLang · llama.cpp · TGI · TensorRT-LLM · MLX · mistral.rs · DeepSpeed-MII · Aphrodite 심층 분석

LLM 추론 최적화 완전 가이드 2025: vLLM, TensorRT-LLM, KV Cache, Speculative Decoding

NPU 완전 해부: 트랜스포머 아키텍처가 실리콘 위에서 어떻게 달리는가

GPU 메모리 관리 & LLM 추론 최적화: vLLM, PagedAttention, GPTQ, TensorRT-LLM까지

vLLM을 넘어선 새로운 왕좌: SGLang이 LLM 인퍼런스의 판도를 바꾸는 5가지 이유