KServe를 활용한 Kubernetes 기반 모델 서빙을 다룹니다. InferenceService CRD로 모델 배포, Canary 전략으로 안전한 롤아웃, Transformer로 전후처리 파이프라인, InferenceGraph로 DAG 기반 복합 추론까지 프로덕션 운영 전략을 코드와 함께 구현합니다.
NVIDIA Triton Inference Server를 활용한 GPU 모델 서빙 최적화 가이드. Dynamic Batching, Model Ensemble, TensorRT 통합, 멀티 모델 서빙, Kubernetes 배포, 성능 프로파일링과 프로덕션 트러블슈팅까지 다룹니다.
vLLM의 PagedAttention 아키텍처와 Ollama의 로컬 LLM 실행 환경을 심층 비교한다. 설치부터 서버 구동, API 호출, 주요 CLI 인자, 샘플링 파라미터, 환경변수, 양자화(AWQ/GPTQ/GGUF), 멀티 GPU 구성, Docker 배포, 성능 튜닝까지 — LLM 서빙에 필요한 모든 설정을 실전 예제와 함께 총정리한다.