오픈소스만으로 실시간 음성 챗봇을 구현하는 종합 가이드. Silero VAD, faster-whisper, Ollama, Piper TTS를 조합한 파이프라인에 barge-in(사용자 발화 시 즉시 응답 중단) 기능을 구현하는 상태머신 설계, Python 예시 코드, 지연시간 최적화, 한국어 품질 개선 팁까지 다룹니다.
NVIDIA Triton Inference Server를 활용한 GPU 모델 서빙 최적화 가이드. Dynamic Batching, Model Ensemble, TensorRT 통합, 멀티 모델 서빙, Kubernetes 배포, 성능 프로파일링과 프로덕션 트러블슈팅까지 다룹니다.