Deepeval

All Posts

Published on
2026년 5월 16일
AI 안전 / 평가 / 레드티밍 2026 — Inspect AI / Garak / PyRIT / Promptfoo / OpenAI Evals / lm-eval-harness 심층 가이드
ai-safety red-teaming evaluation inspect-ai garak pyrit promptfoo openai-evals lm-evaluation-harness deepeval phoenix giskard ai-safety-institute aisi rsp mitre-atlas owasp-llm-top-10 deep-dive
2026년의 AI 안전·평가·레드티밍 생태계를 한 장에 모은다. Inspect AI(Anthropic, UK AISI 채택)·Garak(NVIDIA→독립)·PyRIT(Microsoft)·Promptfoo(YC)·OpenAI Evals·lm-evaluation-harness(EleutherAI), 그리고 MLflow Evals·Arize Phoenix·DeepEval(Confident AI)·Giskard·Atla. 벤치마크 배터리(HumanEval·MMLU·GPQA·SWE-Bench·BigCodeBench), 정책 측의 OpenAI Preparedness Framework와 Anthropic RSP, 표준 측의 MITRE ATLAS와 OWASP LLM Top 10, 그리고 AI Safety Institute(UK·US·일본·한국·싱가포르·프랑스). 한국 KAIST·KISTI, 일본 AISI·RIKEN AIP까지. 누가 무엇을 골라야 하는지를 모델 출시·앱 통합·거버넌스·학술 네 갈래로 정리.
Published on
2026년 5월 16일
LLM 관찰성 & 프롬프트 도구 2026 — Helicone / LangSmith / Langfuse / Braintrust / Athina / Comet Opik / Portkey 심층 비교
llm-observability prompt-engineering helicone langsmith langchain langfuse wandb-weave arize-phoenix braintrust athina comet-opik vellum prompthub portkey trulens ragas deepeval galileo patronus-ai bedrock-evals vertex-ai-eval deep-dive
2026년의 LLM ops 지도. Helicone (YC) · LangSmith (LangChain) · Langfuse (오픈소스 Series A) · W&B Weave · Arize Phoenix · Braintrust · Athina · Comet Opik (2025년 3월 출시) · Vellum · PromptHub · Portkey AI Gateway · TruLens · Ragas · DeepEval · Galileo · Patronus AI · OpenAI Evals · Bedrock Evals · Vertex AI Evaluation Service 까지. 관찰성 / 평가 / 프롬프트 관리 / 게이트웨이 네 영역으로 분류하고, 한국의 토스 LLM ops 와 NAVER HCX 모니터링, 일본의 Sakana 와 NTT Tsuzumi 운영까지 — 1인 개발자 · 스타트업 · 엔터프라이즈 · RAG 우선 조직이 각각 무엇을 골라야 하는가.
Published on
2026년 3월 7일
RAG 품질 평가와 실패 패턴 분석: 검색 증강 생성의 진단과 개선
rag llm evaluation ragas deepeval hallucination vector-search 2026-03
RAG(Retrieval-Augmented Generation) 시스템의 품질을 체계적으로 평가하는 방법과 흔히 발생하는 실패 패턴들을 분석합니다. Retriever, Reranker, Generator 각 컴포넌트의 평가 지표부터 RAGAS, DeepEval 같은 프레임워크 비교, 그리고 실전 디버깅 워크플로우까지 다룹니다.
Published on
2026년 3월 4일
RAG 챗봇 평가 실전: 오프라인/온라인 품질 측정부터 프로덕션 가드레일까지
chatbot rag evaluation llmops production ragas deepeval trulens
RAG 챗봇을 실제 서비스에서 안정적으로 운영하기 위한 평가 체계를 정리한다. 오프라인 벤치마크, LLM-as-a-Judge, 온라인 실험, 알림 임계치, 회귀 방지 파이프라인까지 코드 중심으로 다룬다.

Deepeval

deepeval (4)

AI 안전 / 평가 / 레드티밍 2026 — Inspect AI / Garak / PyRIT / Promptfoo / OpenAI Evals / lm-eval-harness 심층 가이드

LLM 관찰성 & 프롬프트 도구 2026 — Helicone / LangSmith / Langfuse / Braintrust / Athina / Comet Opik / Portkey 심층 비교

RAG 품질 평가와 실패 패턴 분석: 검색 증강 생성의 진단과 개선

RAG 챗봇 평가 실전: 오프라인/온라인 품질 측정부터 프로덕션 가드레일까지