Published on2026년 3월 4일RAG 챗봇 평가 실전: 오프라인/온라인 품질 측정부터 프로덕션 가드레일까지chatbotragevaluationllmopsproductionragasdeepevaltrulensRAG 챗봇을 실제 서비스에서 안정적으로 운영하기 위한 평가 체계를 정리한다. 오프라인 벤치마크, LLM-as-a-Judge, 온라인 실험, 알림 임계치, 회귀 방지 파이프라인까지 코드 중심으로 다룬다.