- Published on
LLM 可観測性 & プロンプトツール 2026 — Helicone / LangSmith / Langfuse / Braintrust / Athina / Comet Opik / Portkey 徹底比較
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — 「LLM を立ち上げるのは簡単になった。運用するのが難しい」
2024年までは LLM を本番に乗せること自体が珍しいことだった。2026年5月、それはもう普通の出来事になった。OpenAI · Anthropic · Google · Mistral · DeepSeek · 韓国の HyperCLOVA X · 日本の Sakana · NTT つづみ — いずれも API 一本で呼べる。本当の難しさはその先にある。
- 昨日まで上手く答えていたモデルが今日は変な答えを返す。なぜ?
- 同じユーザーが同じ質問を 5 回投げて 5 回とも違う答えが返ってきた。どうやって再現し、回帰テストにするか?
- トークン費用が月 30 万円から急に 150 万円に跳ねた。誰がどこでそんなに使ったのか?
- プロンプトを 1 行変えたら 100 件のテストケースのうち 7 件が壊れた。どの 7 件? 残り 93 件は影響なしか?
- RAG システムの答えがどれだけ ground truth に近いか、faithfulness はいくつか — それを 自動で測れるか?
この 5 つの問いが 2026 年の LLM ops のすべてだ。そして過去 2 年でこの問いそれぞれに答えるためのツールが一気に増えた。Helicone · LangSmith · Langfuse · W&B Weave · Arize Phoenix · Braintrust · Athina · Comet Opik · Vellum · PromptHub · Portkey · TruLens · Ragas · DeepEval · Galileo · Patronus AI · OpenAI Evals · Bedrock Evals · Vertex AI Evaluation Service — タイトルに並んだツール群がそれだ。
本稿は 2026 年 5 月時点の LLM ops 地図を描く。4 つの領域 (可観測性 · 評価 · プロンプト管理 · ゲートウェイ) に分類し、各ツールの強み・弱み・価格モデル・実際の現場事例を押さえる。最後に個人開発者・スタートアップ・エンタープライズ・RAG 優先組織の 4 つのペルソナで「何を選ぶべきか」を示す。
1章 · 2026 年の LLM ops 地図 — 4 領域分類
まず全体像。
4 領域 — 可観測性 / 評価 / プロンプト管理 / ゲートウェイ
LLM ops ツールは機能が重なり合うが、主要な価値提案で見ると 4 領域に分類できる。
| 領域 | 何をするか | 代表的なツール |
|---|---|---|
| 可観測性 | すべての LLM 呼び出しをトレース / トークン・遅延・コスト・エラー監視 / デバッグ | Helicone, LangSmith, Langfuse, W&B Weave, Arize Phoenix, Comet Opik |
| 評価 | モデル出力の品質をデータセット・メトリック・LLM-as-judge で自動測定 | Braintrust, Athina, Ragas, TruLens, DeepEval, Galileo, Patronus AI |
| プロンプト管理 | プロンプトのバージョン管理 / A·B テスト / 非エンジニア協業 / デプロイ | Vellum, PromptHub, LangSmith Prompts, Langfuse Prompts |
| ゲートウェイ | OpenAI / Anthropic / Bedrock など複数プロバイダのルーティング・キャッシュ・rate limit・fallback | Portkey, LiteLLM, Cloudflare AI Gateway |
ほとんどのツールが領域をまたぐ。LangSmith は可観測性も評価もプロンプトもやる。Langfuse も同じ。Portkey はゲートウェイが本業だが可観測性もやる。比較を難しくしている最大の理由がこの重なりだ。
2024 → 2026 の変化
2024 年初頭まで LangSmith が事実上唯一の選択肢だった。その後の 2 年間で市場が爆速で分化した。
- 2023~2024 年第一波 — Helicone (YC)・Langfuse・Braintrust・Athina・TruLens・Ragas が次々登場。LangChain が LangSmith を GA。
- 2024 年後半 — Comet が LLM 領域に本格進出。Arize は Phoenix を OSS として分離。Portkey と LiteLLM がゲートウェイとして定着。
- 2025 年 3 月 — Comet が Opik を正式 OSS としてリリース。Langfuse が Series A。
- 2025 年後半 ~ 2026 年初頭 — クラウドビッグ 3 が本格進出。Bedrock Evaluations · Vertex AI Evaluation Service · Azure AI Studio Evaluations。OpenAI も Evals ダッシュボードを強化。
- 2026 年現在 — ツールが 30 を超えた。「何を選ぶか」自体が最大の問いになった。
OpenTelemetry の台頭 — GenAI semantic conventions
2025 年後半に決定的な変化があった。OpenTelemetry の GenAI semantic conventions が事実上の標準になり、Langfuse · Phoenix · Helicone · Portkey · LangSmith がすべて OTel ベースの SDK を提供し始めた。つまり SDK は一度入れたらバックエンドは差し替え可能 になった。これが今後 5 年の LLM ops で最大の変化だ。
2章 · Helicone — Y Combinator の OSS 可観測性
まず最速で始められるツールから。
一行定義
Y Combinator W23 出身、OSS の LLM 可観測性。base URL を一行変えるだけ。 業界最低の参入障壁。
どう動くか
Helicone の最大の特徴は プロキシモード だ。OpenAI SDK の base_url を https://oai.helicone.ai/v1 に変えるだけで、すべての呼び出しが自動記録される。たった一行。
from openai import OpenAI
client = OpenAI(
base_url="https://oai.helicone.ai/v1",
default_headers={"Helicone-Auth": f"Bearer {os.getenv('HELICONE_API_KEY')}"},
)
この一行で次のものが自動で記録される。
- リクエスト / レスポンスの本文
- レイテンシ、time-to-first-token
- 入出力トークン数とコスト
- ユーザー ID・セッション・カスタムプロパティ (Helicone-User-Id のようなヘッダで渡す)
プロキシが不安なら非同期ロギング SDK もある。バックグラウンドで送る。
強み
- 導入コストゼロ — base URL を一行。
- OSS — Apache 2.0。セルフホスト可能。
- プロバイダ非依存 — OpenAI · Anthropic · Together · Anyscale · Bedrock 全部。
- カスタムプロパティ — ユーザー別・フィーチャーフラグ別・実験グループ別にスライス可能。
- 無料枠が太い — 月 10 万リクエストまで無料。
弱み
- プロキシがクリティカルパスに入る — レイテンシが 1 ホップ増える (実測で通常 10ms 以内)。
- 評価機能は弱め — LangSmith・Braintrust ほどの dataset / experiment 機能はない。
- プロンプト管理は最小限 — Vellum・PromptHub ほど本格的ではない。
誰が使うか
スタートアップ・個人開発者が最多。「今すぐ本番トレースが必要、コード変更は最小化」のシナリオで圧倒的。韓国の一部 LLM スタートアップが PoC 段階で最初に入れるツールとして挙がる。
3章 · LangSmith — LangChain の旗艦
最も有名なツール。
一行定義
LangChain が作った一体型 LLM ops プラットフォーム。 可観測性 · 評価 · Prompts · Datasets を一箇所で。SaaS とセルフホスト (Enterprise) の両方。
どう動くか
LangChain · LangGraph を使えば環境変数 2 つで自動トレーシング。
export LANGSMITH_TRACING=true
export LANGSMITH_API_KEY=ls_...
LangChain を使わない場合は @traceable デコレータで任意の関数をトレースできる。
from langsmith import traceable
@traceable(run_type="llm")
def call_model(prompt: str) -> str:
# 任意のモデル呼び出し
...
強み
- LangChain · LangGraph 統合が圧倒的 — 他のどのツールも追いつけない。agentic workflow の中間ステップトレーシングが自然。
- 評価が強力 — dataset 作成、LLM-as-judge、pairwise comparison、回帰テストが一箇所で。
- Prompts Hub — プロンプトのバージョン管理・共有。
- 本番グレード — Fortune 500 の一部がセルフホストで運用。
弱み
- 高い — 個人無料、Plus は 39 USD/シート/月、Enterprise は別見積り。
- LangChain ファミリーへのロックインが強い — 他ツールへの移行は容易でない。
- UI が重い — 小規模プロジェクトには過剰。
誰が使うか
LangChain · LangGraph を本番で使うチームの標準。韓国・日本の RAG チャットボット会社で LangChain スタックを選んだ所はほぼすべて LangSmith に課金している。
4章 · Langfuse — OSS、Series A
LangSmith の最強の OSS 代替。
一行定義
MIT ライセンス OSS の LLM ops。セルフホストが本当に簡単。 2025 年に Series A を調達し、この領域で最速成長中の OSS プロジェクト。
どう動くか
docker compose up 一発でセルフホスト版が立ち上がる。SDK は Python · TypeScript · OpenAI 自動トレーシング · LlamaIndex · LangChain すべて対応。
from langfuse.openai import openai # OpenAI の drop-in
response = openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "hi"}],
)
自動でトレースが生成される。手動でスパンを作ることもできる。
強み
- 本物の OSS — MIT ライセンス、コア機能にエンタープライズゲーティングがほぼない。
- セルフホストが本気で簡単 — docker compose だけで本番グレード。
- 可観測性 + 評価 + プロンプト + データセット が 1 パッケージ。
- プロンプト管理が意外と強い — Langfuse Prompts は Vellum の軽量代替。
- OpenTelemetry 互換 — 2025 年から OTel GenAI 規約のネイティブ対応。
弱み
- UI のポリッシュが LangSmith・Braintrust より一歩遅い — 急速にキャッチアップ中。
- agentic workflow の可視化は LangSmith が一枚上手。
- クラウド版が EU にある — 米国企業でレイテンシを気にするならセルフホスト推奨。
誰が使うか
OSS を好むすべてのチーム。韓国の一部フィンテック・ヘルスケア企業はデータ主権の都合からセルフホスト Langfuse を選ぶ。日本も同じ。
5章 · W&B Weave — Weights & Biases の LLM ライン
ML 側で W&B を使っていたチームが自然に流れていくツール。
一行定義
Weights & Biases が作った LLM 可観測性・評価。 既存 W&B の実験追跡と統合される。
どう動くか
weave.init("project") を一行打ってから @weave.op デコレータで関数をラップすれば自動トレーシング。
import weave
weave.init("my-rag-app")
@weave.op()
def answer(query: str) -> str:
docs = retrieve(query)
return generate(query, docs)
W&B の既存 UI 内に LLM トレースが現れる。
強み
- W&B の ML 実験追跡と同じ傘の下 — fine-tuning · 評価 · サービングを一箇所で。
- Evaluations が強力 —
weave.Evaluationで dataset · scorer · モデルの組み合わせを高速に回せる。 - エンタープライズの信頼 — 既存の W&B 顧客 (OpenAI · NVIDIA · Toyota) がそのまま使う。
弱み
- W&B 外の利用者には学習コスト — 既存の W&B 概念 (project · run) を知る必要がある。
- 無料枠は LangSmith・Helicone ほど太くない。
- 純粋に LLM だけのチームには過剰 — ML も同時にやるならベスト。
誰が使うか
既に W&B を使っていた ML チーム。韓国・日本の大企業 AI ラボで自社モデル学習をする所が多く使う。
6章 · Arize Phoenix — OSS
ML 可観測性の名門 Arize が作った OSS の LLM ツール。
一行定義
Arize AI が作った OSS の LLM 可観測性 + 評価。 ノートブックから本番まで同じツールで。
どう動くか
import phoenix as px
from phoenix.otel import register
tracer_provider = register(project_name="my-rag", auto_instrument=True)
# OpenAI · LangChain · LlamaIndex の呼び出しが全部自動トレース
Phoenix の強みは ノートブックですぐ立ち上げられる こと。px.launch_app() でローカルに UI が起動する。
強み
- ノートブック親和的 — 実験段階で最軽量に開始。
- OpenTelemetry GenAI 規約ネイティブ。
- 埋め込み・RAG 可視化が強力 — UMAP で埋め込みクラスタを可視化する機能は他ではあまり見ない。
- Arize の本番ティアに自然に接続 — PoC は Phoenix、本番は Arize。
弱み
- UI が LangSmith・Braintrust より ML カルチャー寄り — 普通のバックエンド開発者には参入障壁。
- プロンプト管理は基礎的。
誰が使うか
データサイエンス出身の ML エンジニア。RAG デバッグ (どのチャンクが誤って retrieve されたかの可視化) が必要なチーム。
7章 · Braintrust — 評価特化
評価が最重要なチームなら第一候補。
一行定義
評価を最優先に置く LLM ops プラットフォーム。 Stripe · Notion · Vercel のような会社が使う。2024 年に大型ラウンド。
どう動くか
Braintrust の核となる抽象は Eval。dataset · task · scorer の組み合わせで実験を回す。
import { Eval } from "braintrust";
Eval("MyRagApp", {
data: () => [
{ input: "What is the capital of France?", expected: "Paris" },
],
task: async (input) => myRagPipeline(input),
scores: [Factuality, AnswerRelevancy],
});
braintrust eval で回すとスコアが時系列で蓄積され、モデル・プロンプト変更の影響がすぐに比較できる。
強み
- Eval-first の思考様式 — 「プロンプトはコードだ。コードにはテストがあるべきだ」を最もよく実装している。
- Playground が本当に良い — プロンプト / モデル / データセットを高速比較。
- Loop (LLM-as-judge 自動チューニング) — judge 自体のキャリブレーションを自動化。
- TypeScript / Python SDK が両方一級。
弱み
- 有料優先 — 無料枠はあるが本格利用には課金が必要。
- 可観測性だけ欲しいチームには少し過剰。
誰が使うか
Stripe · Notion · Vercel · Airtable のような米国プロダクト企業。「プロンプトを PR 単位で自動評価しないと本番に出せない」が文化として根付いたチーム。
8章 · Athina — 急成長
評価・可観測性・dataset を 1 パッケージにまとめた急成長株。
一行定義
ダッシュボードが綺麗で 50 以上の事前定義 evaluator を内蔵した LLM ops。 参入が容易。
どう動くか
from athina.loaders import Loader
from athina.evals import Faithfulness
data = Loader().load_csv("eval_data.csv")
Faithfulness(model="gpt-4o").run_batch(data=data).to_df()
あるいは SDK で本番トレースを送り、ダッシュボードで evaluator を自動実行させる。
強み
- 事前定義 evaluator が多い — Faithfulness · Context Precision · Toxicity · PII Detection など。
- 非エンジニア親和的なダッシュボード — PM が直接入ってデータセット・ラベルを作れる。
- YAML 設定 — 評価パイプラインを YAML で宣言。
弱み
- OSS 寄与は部分的 — 核は SaaS。
- agentic workflow の深いトレーシングは LangSmith が優位。
誰が使うか
プロダクトチームとエンジニアチームが共に LLM 品質を管理する中規模スタートアップ。英語圏でシェアを急拡大中。
9章 · Comet Opik (2025 年 3 月リリース) — OSS
最も新しく登場した OSS ツール。
一行定義
Comet ML が 2025 年 3 月にリリースした OSS の LLM 可観測性 + 評価。 Apache 2.0。
どう動くか
import opik
from opik import track
opik.configure(use_local=True)
@track
def answer(query: str) -> str:
return llm_call(query)
use_local=True ならセルフホストインスタンスに送る。Comet cloud にも送れる。
強み
- 2025 年リリースなので最新の UX パターンが入っている — 後発ゆえ他ツールの良い所を吸収。
- Comet の ML 実験追跡と同じ傘の下 — W&B Weave に似たポジショニング。
- 無料 SaaS 枠が太い。
- Apache 2.0 — 本物の OSS。
弱み
- エコシステムがまだ最小 — 後発組。
- plugin / integration の数が Langfuse · LangSmith より少ない。
誰が使うか
Comet の既存 ML 顧客、そして「最新・OSS・最速スタート」の 3 つを揃って欲しい新規プロジェクト。
10章 · Vellum / PromptHub — プロンプト管理本格派
プロンプトをコードから分離するのが本業のツール。
Vellum — エンタープライズ向けプロンプト管理
プロンプトの GitHub。 バージョン · 環境 · デプロイ · A/B テスト · データセットが一箇所に。PM · CS · QA が直接プロンプトを触るワークフローに最適化。
- プロンプトの git スタイルの diff と PR レビュー。
- ワークフローエディタ (ビジュアルチェーンビルダー)。
- 本番トラフィックの一定比率に新プロンプトを canary。
- 大手顧客多数 (ヘルスケア · リーガル)。
PromptHub — 軽量版コラボ
Vellum より軽く、価格も安い。 小規模チームがプロンプトを git のように管理したいとき。
- プロンプトライブラリ (共有 / 検索)。
- A/B テスト。
- 多モデル比較 (同じプロンプトを OpenAI · Anthropic · Bedrock に同時送信)。
いつ専用 prompt ツールが必要になるか
ほとんどの小規模チームは LangSmith · Langfuse 内蔵のプロンプト機能で十分。次の時点で別ツールが要る。
- プロンプトを 非エンジニアが直接編集 する (PM · CS が毎週プロンプトをチューニング)。
- 環境別 (dev · staging · prod) の 昇格ワークフロー が git だけでは足りない。
- 複数モデルに同じプロンプト を送り結果を並べて比較する。
3 つ揃えば Vellum、1~2 つなら PromptHub、どれも当てはまらなければ LangSmith · Langfuse 内蔵。
11章 · Portkey — AI Gateway + 可観測性
ゲートウェイ領域の代表格。
一行定義
OpenAI / Anthropic / Bedrock / Google / Azure / Together / 200 以上のプロバイダ を統合する AI ゲートウェイ。 可観測性 · キャッシュ · fallback · rate limit · cost guard が全部入り。
どう動くか
OpenAI SDK の base_url を Portkey に向けて、ヘッダでルーティングルールを渡す。
from openai import OpenAI
client = OpenAI(
base_url="https://api.portkey.ai/v1",
default_headers={
"x-portkey-api-key": os.getenv("PORTKEY_API_KEY"),
"x-portkey-config": "your-config-id", # ルーティング・キャッシュ・リトライ規則
},
)
config の中で「primary は GPT-4o、失敗時は Claude Sonnet 4.5 にフォールバック、同じ入力は 1 時間キャッシュ」のようなポリシーを宣言的に定義。
強み
- 複数プロバイダ統合 — 200 以上。
- fallback / load balancing / canary がネイティブ。
- semantic cache — 意味が同じ質問はキャッシュヒット。
- 可観測性がついてくる — 別ツール不要でトレーシング。
- プロンプト管理も内蔵。
弱み
- ゲートウェイがクリティカルパスに入る — プロキシの本質的弱点。リージョン選択が細かくなくレイテンシが乗ることがある。
- Helicone · Langfuse ほどの可観測性の深さはない — 十分だが specialist には及ばない。
LiteLLM との比較
LiteLLM (OSS の SDK / プロキシ) が似た領域。違いは:
- LiteLLM — Python ライブラリとして始まり、セルフホストゲートウェイもある。コアは 100% OSS。より軽量で hackable。
- Portkey — SaaS 優先。UI · ポリシー管理 · 協業が中心。セルフホスト enterprise ティアあり。
スタートアップ / 個人は LiteLLM が多く、中規模以上は Portkey が多い。
12章 · TruLens / Ragas — RAG 評価の二大潮流
RAG が入ったシステムならほぼ必ずどちらか。
Ragas — RAG 評価メトリクスの事実上の標準
OSS。RAG の標準メトリクスをライブラリで。 最も引用される RAG 評価フレームワーク。
- Faithfulness — 答えが retrieved context に実際に根拠しているか?
- Answer Relevancy — 答えが質問に実際に答えているか?
- Context Precision / Recall — retrieval は正しいか?
- Context Entity Recall — 正解 entity が context に含まれているか?
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision
result = evaluate(
dataset=eval_dataset,
metrics=[faithfulness, answer_relevancy, context_precision],
)
print(result)
LangSmith · Langfuse · Athina など、ほぼすべての可観測性ツールが Ragas メトリクスを内蔵 evaluator として提供する。
TruLens — より広い評価 + トレーシング
TruEra (現 Snowflake) の OSS。 Ragas がメトリクスライブラリなら、TruLens はメトリクス + トレーシング + ダッシュボードを併せ持つ。
- RAG Triad — Context Relevance · Groundedness · Answer Relevance。
- トレーシング + 評価が同じツール。
- ノートブック親和的。
Ragas と TruLens の選び方
- 別の可観測性ツール (LangSmith · Langfuse · Athina) を既に使っていてメトリクスだけ欲しい → Ragas。
- 可観測性ツール抜きで RAG 評価だけを高速に回したい → TruLens。
- 併用も普通 — Ragas メトリクスを TruLens 内から呼ぶ。
13章 · Galileo / Patronus AI / DeepEval — エンタープライズ評価
規制 · セキュリティ · SLA が重い組織向け。
Galileo — Generative AI Studio
本番グレードのハルシネーション · 安全性 · ドリフト監視。 Fortune 500 · 政府 · 金融。
- Galileo Evaluate — pre-production 評価。
- Galileo Observe — 本番トレーシング · 監視。
- Galileo Protect — リアルタイム guardrail (PII · jailbreak · ハルシネーション ブロック)。
Patronus AI — 自動評価 + 安全性
自動化された LLM 評価に特化。 Lynx (ハルシネーション検出器)、Glider、FinanceBench といった自社評価モデルを提供。
- ユーザー定義 evaluator をプレーン英語で記述可能。
- 金融 · リーガル領域のベンチマークを自社で整備。
DeepEval (Confident AI) — pytest スタイルの LLM テスト
LLM の pytest。 開発者にとって最も親しみやすい API。
from deepeval import assert_test
from deepeval.test_case import LLMTestCase
from deepeval.metrics import AnswerRelevancyMetric
def test_answer_relevancy():
test_case = LLMTestCase(
input="What is the capital of France?",
actual_output="The capital is Paris.",
)
metric = AnswerRelevancyMetric(threshold=0.7)
assert_test(test_case, [metric])
CI で pytest のように回せる。Confident AI が結果を蓄積する SaaS ダッシュボード。
3 つの選び分け
- 金融 · リーガル + 自社ベンチマーク必要 → Patronus AI。
- 本番 guardrail まで 1 パッケージ → Galileo。
- 開発者が unit test のように LLM をテスト → DeepEval。
14章 · クラウドネイティブ — Bedrock Evals / Vertex AI Evaluation / OpenAI Evals
2025 年後半からクラウドビッグ 3 が本格進出した。
AWS Bedrock Evaluations
Bedrock 内でモデル · プロンプト · RAG を評価するマネージドサービス。
- Model Evaluation — 同じデータセットで複数 Bedrock モデルを比較。
- RAG Evaluation — Bedrock Knowledge Base と統合。retrieval + generation を同時評価。
- LLM-as-judge + 人手評価 (Amazon Mechanical Turk 統合) の両対応。
- Bedrock Guardrails と組み合わせて評価 → guardrail ポリシーに自動反映。
既に AWS にコミットしているチームの標準選択。
Vertex AI Evaluation Service (Google)
Gen AI Eval Service。 Vertex AI 内で Gemini · 3P モデルを評価。
- pointwise · pairwise · rubric ベースのメトリクス。
- Autoraters (LLM-as-judge) + カスタムメトリクス。
- Vertex AI Pipelines と統合 — eval を CI ステップとして自動実行。
Gemini · PaLM を本番で使う企業の標準。
OpenAI Evals (ダッシュボード)
OpenAI Platform の Evals タブ。 2024 年から OSS で出ていた openai/evals が SaaS ダッシュボードに統合された。
- Stored Completions ベースの評価 — 本番トラフィックの一部を自動で評価データセット化。
- model graded eval が標準。
- OpenAI Fine-tuning · Distillation と自然に連結。
Azure AI Studio Evaluations
Azure OpenAI の評価機能。PromptFlow と統合。Azure にコミットしたエンタープライズの標準。
クラウドネイティブの長所と短所
- 長所 — データが同じクラウド内に留まる (compliance · セキュリティ)、IAM · VPC · ロギングと自然に統合、別途 SaaS 契約不要。
- 短所 — マルチクラウド · マルチモデル比較が難しい (Bedrock Evals で OpenAI モデルは評価できない)、specialist ツールほど深くない、ベンダーロックインのリスク。
15章 · 韓国 / 日本 — トス · NAVER · Sakana · NTT つづみ
海外ツールばかりではない。韓国・日本の自前 LLM ops も急速に育っている。
韓国
- トス (Toss) — LLM ops の内製
- 自前 LLM ゲートウェイ (PortkeyLite 相当)、自前プロンプトレジストリ、Langfuse をセルフホストしてトレーシング。
- 金融規制 (網分離) のため SaaS LLM ops ツールがほぼ使えず、OSS を閉域網にセルフホストするのが事実上の標準。
- 社内 RAG チャットボット (人事 · 法務 · CS) の品質測定のため Ragas メトリクスを内部ライブラリで wrap。
- NAVER HCX 監視
- HyperCLOVA X (HCX) を自社運用する NAVER は自前監視スタック。社内 NSML / CLOVA Studio と統合。
- 社内 BizPlatform / CLOVA for Biz 顧客にプロンプト管理 · 評価を統合提供。
- カカオ / クーパン / ライン — 全部、自前 + OSS (Langfuse / Phoenix) のハイブリッド。
- 国内 LLM スタートアップ — Upstage · Wrtn · DeepL などは LangSmith / Langfuse / Helicone を状況に応じて混用。
日本
- Sakana AI — 自前モデル + 運用
- 自社モデル (EvoLLM · evo-ukiyoe など) の学習と評価に W&B · MLflow を併用。本番可観測性は Langfuse または自前ツール。
- NTT つづみ — 通信キャリア運用の標準
- NTT の自社 LLM。通信キャリアコンプライアンスから自前監視スタック + OSS の ragas / langfuse のハイブリッド。
- Mercari · CyberAgent · LINE ヤフー — LangSmith またはセルフホスト Langfuse。CyberAgent は自社学習モデルが多く W&B 比重が高い。
- メガバンク (MUFG · SMBC · みずほ) — 外部 SaaS の使用は困難。AWS Bedrock + Bedrock Evals あるいは Azure OpenAI + Azure AI Studio が事実上の標準。
韓日共通パターン
- 金融 · 通信 · 公共領域では SaaS LLM ops の直接利用が難しく、OSS (Langfuse · Phoenix · Opik · Helicone) のセルフホストが事実上の標準。
- B2C スタートアップは LangSmith · Helicone · Langfuse SaaS をそのまま使う。
- データ主権 (data residency) がますます大きな意思決定要因に — 日本は東京リージョン、韓国はソウルリージョンの有無がほぼ最初の質問。
16章 · 誰が何を選ぶべきか — 4 ペルソナ
最後に意思決定ガイド。
ペルソナ 1 · 個人開発者 / インディーハック
条件 — 一人でサイドプロジェクトとして LLM アプリを作る。費用は最低限。
- 可観測性 — Helicone (無料枠が最も太い) または Langfuse Cloud (無料枠 50k トレース / 月)。
- 評価 — 必要時のみ Ragas ライブラリを直接。
- プロンプト管理 — コード内 docstring で十分。LangSmith Prompts は無料。
- ゲートウェイ — LiteLLM (Python ライブラリだけ、無料)。
ペルソナ 2 · Seed/Series A スタートアップ (5~50 人)
条件 — 本番トラフィックあり。高速反復。費用も気にする。
- 可観測性 — Langfuse SaaS (OSS、合理的価格) または LangSmith Plus。
- 評価 — Braintrust (eval-first 文化を強調) または Athina (PM も一緒に使いやすい UI)。
- プロンプト管理 — LangSmith Prompts / Langfuse Prompts 内蔵から開始。
- ゲートウェイ — Portkey または LiteLLM。fallback / キャッシュが効いてきたら。
- RAG eval — Ragas メトリクスを上記ツールの evaluator として登録。
ペルソナ 3 · Series B+ / エンタープライズ
条件 — 規模が大きい。compliance · SOC2 · ISO 27001 が必要。SLA がそのまま売上。
- 可観測性 — LangSmith Enterprise またはセルフホスト Langfuse (データ主権)。本番 guardrail まで欲しければ Galileo。
- 評価 — Braintrust Enterprise + Patronus AI (ドメイン特化)。
- プロンプト管理 — Vellum (PM · CS · QA が一緒に触るワークフロー)。
- ゲートウェイ — Portkey Enterprise セルフホストまたは自前ゲートウェイ。
- クラウドネイティブ — AWS なら Bedrock Evals、GCP なら Vertex AI Evaluation を追加。
ペルソナ 4 · RAG 優先組織
条件 — RAG がプロダクトの核。retrieval の品質が事業の品質。
- 可観測性 — Arize Phoenix (埋め込み可視化) または Langfuse。
- 評価 — Ragas メトリクスと TruLens の RAG Triad を両方回し、Braintrust で dataset · experiment 管理。
- プロンプト管理 — Vellum のワークフローエディタが multi-step RAG チェーンに適合。
- ゲートウェイ — Portkey の semantic cache が RAG 費用削減に決定的。
ツール選びの前に問う 5 つの質問
ツールを比較する前に、自分自身に問うべき 5 つ。
- データ主権 — 自社データはどのリージョンに留まる必要があるか? (韓国 / 日本 / EU / 米国?)
- OSS vs SaaS — セルフホスト運用する人員はいるか?
- agentic workflow があるか? — あれば LangSmith · Langfuse が優位、なければ Helicone · Athina で十分。
- PM · CS がプロンプトを直接触るか? — そうなら Vellum または LangSmith Prompts UI が決定的。
- CI で自動 LLM 回帰テストを回すか? — そうなら Braintrust · DeepEval が優位。
17章 · おわりに — 「LLM を運用する」 という言葉がある時代
2024 年時点では「LLM 運用」 という言葉自体が違和感を持って受け止められていた。2026 年 5 月現在、LLM ops は立派な SRE の一分野になった。30 を超えるツールが競い、OpenTelemetry GenAI 規約が標準として定着し、クラウドビッグ 3 が自社評価サービスを出した。
本稿冒頭で投げた 5 つの問い — なぜ変な答えが出るのか、どう再現するか、誰がトークンを使ったか、どのテストが壊れたか、品質を自動で測れるか — に対する答えは、もうツールが提供できる。問題はどのツールを選ぶかだ。
- 最速で始めたいなら Helicone。
- LangChain ファミリーなら LangSmith。
- OSS · セルフホスト必須なら Langfuse か Phoenix か Opik。
- 評価が核なら Braintrust + Ragas。
- 複数プロバイダのトラフィック管理が必要なら Portkey か LiteLLM。
- エンタープライズ guardrail まで含めて Galileo + Patronus。
- クラウドネイティブなら Bedrock Evals / Vertex AI Evaluation。
ツールを使わない理由はもう存在しない。「プロンプトはコードだ。コードには監視とテストが必要だ。」 これが 2026 年の新しい常識だ。次のモデル (GPT-5.5 · Claude Opus 5 · Gemini 3 Ultra · Llama 5) が来てもこのインフラはそのまま使える。モデルは変わっても運用の原則は変わらない。
参考 / References
Observability — 一体型
- Helicone — https://www.helicone.ai/
- LangSmith — https://www.langchain.com/langsmith
- Langfuse — https://langfuse.com/
- W&B Weave — https://wandb.ai/site/weave
- Arize Phoenix — https://phoenix.arize.com/
- Comet Opik — https://www.comet.com/site/products/opik/
Evaluation 特化
- Braintrust — https://www.braintrust.dev/
- Athina — https://athina.ai/
- Ragas — https://docs.ragas.io/
- TruLens — https://www.trulens.org/
- DeepEval (Confident AI) — https://docs.confident-ai.com/
- Galileo — https://www.galileo.ai/
- Patronus AI — https://www.patronus.ai/
プロンプト管理
- Vellum — https://www.vellum.ai/
- PromptHub — https://www.prompthub.us/
- LangChain Studio — https://www.langchain.com/langgraph-studio
ゲートウェイ
- Portkey — https://portkey.ai/
- LiteLLM — https://www.litellm.ai/
- Cloudflare AI Gateway — https://developers.cloudflare.com/ai-gateway/
クラウドネイティブ eval
- AWS Bedrock Evaluations — https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html
- Vertex AI Generative AI Evaluation Service — https://cloud.google.com/vertex-ai/generative-ai/docs/models/evaluation-overview
- OpenAI Evals (open source) — https://github.com/openai/evals
- Azure AI Studio Evaluations — https://learn.microsoft.com/en-us/azure/ai-studio/concepts/evaluation-approach-gen-ai
標準 / 仕様
- OpenTelemetry GenAI semantic conventions — https://opentelemetry.io/docs/specs/semconv/gen-ai/
韓国・日本
- トス Tech ブログ — https://toss.tech/
- NAVER HyperCLOVA X — https://clova.ai/hyperclova
- Sakana AI — https://sakana.ai/
- NTT つづみ — https://www.rd.ntt/e/research/JN20231101_h.html
- CyberAgent AI Lab — https://research.cyberagent.ai/