Inference

All Posts

Published on
2026년 5월 16일
AI 추론 엔진 2026 완벽 가이드 - vLLM · SGLang · llama.cpp · TGI · TensorRT-LLM · MLX · mistral.rs · DeepSpeed-MII · Aphrodite 심층 분석
llm-inference vllm sglang llama-cpp tgi tensorrt-llm mlx mistral-rs deepspeed aphrodite inference
2026년 LLM 추론은 더 이상 모델 선택의 문제가 아니라 엔진 선택의 문제가 됐다. vLLM V1, SGLang 0.4, TensorRT-LLM, TGI 3.x, llama.cpp, MLX-LM, mistral.rs, DeepSpeed-MII, Aphrodite, CTranslate2, ExLlamaV3, OpenVINO, AWS Neuron, Triton — 10개+ 엔진을 PagedAttention·Continuous Batching·Speculative Decoding·Disaggregated Inference·KV 양자화·NIM·Groq LPU 관점에서 한 줄로 비교한다. 자가 호스팅 ROI 계산과 한국·일본 추론 인프라까지.
Published on
2026년 5월 16일
LLM 서빙 & 로컬 추론 2026 — vLLM / llama.cpp / MLX / Ollama / LM Studio / SGLang / TGI 심층 비교
llm serving inference vllm llama-cpp mlx llamafile ollama lm-studio gpt4all sglang tgi ktransformers tensorrt-llm modular-max quantization 2026 deep-dive
2026년 LLM 서빙·추론 프레임워크의 지도를 그린다. 데이터센터 진영(vLLM·SGLang·TGI·Triton·TensorRT-LLM), 로컬 진영(llama.cpp·MLX·llamafile·Ollama·LM Studio·GPT4All), 신생 진영(KTransformers·MLC LLM·Modular MAX), 그리고 클라우드 서빙 SaaS(Together·Fireworks·Groq·Cerebras·SambaNova·Lepton-NVIDIA 인수). 양자화 포맷(GGUF Q4_K_M·AWQ·GPTQ·FP8), 한국·일본 모델 생태계(Upstage Solar·KT Mi:dm·Sakana·NTT Tsuzumi·ELYZA)까지 — 누가 무엇을 골라야 하나.
Published on
2026년 4월 15일
FlashAttention & Efficient Attention Deep Dive — Tiling, Online Softmax, PagedAttention, GQA 완전 정복 (2025)
flashattention attention llm transformer gpu cuda inference machine-learning
LLaMA 3, GPT-4, Claude 같은 대형 모델을 효율적으로 훈련하고 서빙 가능하게 만든 핵심 최적화, FlashAttention과 그 후속 기법들. 이 글은 efficient attention을 처음부터 해부합니다. Naive attention의 O(N²) 메모리 문제, Tri Dao의 2022년 IO-aware 통찰, Tiling과 Online Softmax, SRAM vs HBM 활용, FlashAttention-2/3의 진화, PagedAttention(vLLM)이 KV cache를 OS 가상 메모리처럼 다룬 이유, Multi-Query/Grouped-Query Attention, Sliding Window, Ring Attention까지 — 현대 LLM 인프라의 성능 비밀을 제대로 이해하고 싶은 엔지니어를 위한 종합 가이드입니다.
Published on
2026년 4월 13일
Edge AI 완전 가이드 2025: 온디바이스 추론, 모델 최적화, TensorRT/ONNX/CoreML
edge-ai on-device inference tensorrt onnx coreml quantization pruning mobile-ai iot 2026-04 2026-04-13
Edge AI의 모든 것! 온디바이스 추론(TensorRT/ONNX Runtime/CoreML/TFLite), 모델 최적화(양자화/프루닝/지식 증류), 하드웨어(NVIDIA Jetson/Apple Neural Engine/Qualcomm NPU), Federated Learning, 프라이버시 보존 AI, 실전 배포.
Published on
2026년 3월 17일
LLM 추론 최적화 완전 가이드: KV Cache, Speculative Decoding, Continuous Batching
llm inference optimization kv-cache speculative-decoding vllm 2026-03 2026-03-17
LLM 추론을 극한까지 최적화하는 완전 가이드. KV Cache, Speculative Decoding, Continuous Batching, PagedAttention, FlashInfer, 멀티GPU 추론, 그리고 DeepSeek MLA까지 심층 분석합니다.
Published on
2026년 3월 17일
AI 모델 서빙과 추론 최적화 완전 가이드: vLLM, TensorRT, Triton, Ollama
mlops model-serving vllm tensorrt triton inference optimization 2026-03 2026-03-17
AI 모델을 프로덕션에서 효율적으로 서빙하는 완전 가이드. vLLM, TensorRT, NVIDIA Triton Inference Server, Ollama, 양자화(INT8/INT4), 배치 처리, 지연 최적화까지 실전 예제로 마스터합니다.
Published on
2026년 3월 15일
BitNet 1-bit LLM 추론 프레임워크: CPU에서 대규모 언어 모델 실행하기
llm bitnet 1-bit-llm inference cpu-deployment model-efficiency 2026-03 2026-03-15
Microsoft의 BitNet 프레임워크를 활용하여 GPU 없이 CPU만으로 대규모 언어 모델을 실행하는 방법을 분석합니다. 1-bit LLM의 원리, 기존 양자화와의 차이, 설치부터 배포까지의 실전 가이드를 다룹니다.
Published on
2026년 3월 12일
LLM 추론 서빙 프레임워크 비교: TensorRT-LLM vs vLLM vs SGLang 프로덕션 배포 전략
llm inference tensorrt-llm vllm sglang serving gpu 2026-03 2026-03-12
LLM 추론 서빙 3대 프레임워크를 비교합니다. TensorRT-LLM의 하드웨어 최적화, vLLM의 PagedAttention과 프로덕션 스택, SGLang의 RadixAttention과 구조화 생성까지 벤치마크 데이터와 배포 코드로 최적의 선택을 안내합니다.
Published on
2026년 3월 4일
AI Papers: Test-Time Scaling 핵심 논문 정리 — 추론 예산으로 성능을 끌어올리는 방법
ai-papers test-time-scaling reasoning inference llm best-of-n self-consistency
Test-Time Scaling(TTS)은 학습 파라미터를 늘리지 않고 추론 시점의 계산 예산을 늘려 성능을 높이는 접근이다. 이 글은 Best-of-N, Self-Consistency, Tree Search, Verifier/Reranker 기반 방법을 논문 맥락과 실무 적용 관점에서 정리한다.
Published on
2026년 3월 3일
vLLM 완벽 가이드 — PagedAttention부터 프로덕션 최적화까지
llm vllm inference paged-attention serving march-2026 2026-03-03
vLLM의 핵심인 PagedAttention 메커니즘부터 Continuous Batching, Tensor/Pipeline Parallelism, Prefix Caching까지 LLM 추론 최적화의 모든 것을 다룹니다.
Published on
2026년 3월 2일
Speculative Decoding으로 LLM 추론 2~3배 빠르게: 원리부터 실전 구현까지
llm speculative-decoding inference optimization vllm draft-model token-verification latency throughput serving
Speculative Decoding의 수학적 원리, Draft-Verify 파이프라인, 수용 확률 분석, vLLM/TensorRT-LLM에서의 실전 적용법, 그리고 Apple의 Mirror Speculative Decoding까지 심층 분석한다.
Published on
2026년 3월 1일
LLM 추론 최적화: vLLM과 TensorRT-LLM 심층 분석
llm inference vllm tensorrt-llm optimization
vLLM과 TensorRT-LLM 공식 문서를 기반으로 PagedAttention, Continuous Batching, 양자화 등 LLM 추론 최적화 핵심 기술을 분석한다.
Published on
2026년 3월 1일
vLLM & Ollama 완벽 가이드: LLM 서빙 엔진의 구동, 파라미터, 환경변수 총정리
vllm ollama llm-serving inference model-serving gpu quantization openai-api deep-learning devops
vLLM의 PagedAttention 아키텍처와 Ollama의 로컬 LLM 실행 환경을 심층 비교한다. 설치부터 서버 구동, API 호출, 주요 CLI 인자, 샘플링 파라미터, 환경변수, 양자화(AWQ/GPTQ/GGUF), 멀티 GPU 구성, Docker 배포, 성능 튜닝까지 — LLM 서빙에 필요한 모든 설정을 실전 예제와 함께 총정리한다.

Inference

inference (13)