필사 모드: LLM 可観測性 & プロンプトツール 2026 — Helicone / LangSmith / Langfuse / Braintrust / Athina / Comet Opik / Portkey 徹底比較
日本語プロローグ — 「LLM を立ち上げるのは簡単になった。運用するのが難しい」
2024年までは LLM を本番に乗せること自体が珍しいことだった。2026年5月、それはもう普通の出来事になった。OpenAI · Anthropic · Google · Mistral · DeepSeek · 韓国の HyperCLOVA X · 日本の Sakana · NTT つづみ — いずれも API 一本で呼べる。本当の難しさはその先にある。
- 昨日まで上手く答えていたモデルが今日は変な答えを返す。**なぜ?**
- 同じユーザーが同じ質問を 5 回投げて 5 回とも違う答えが返ってきた。**どうやって再現し、回帰テストにするか?**
- トークン費用が月 30 万円から急に 150 万円に跳ねた。**誰がどこでそんなに使ったのか?**
- プロンプトを 1 行変えたら 100 件のテストケースのうち 7 件が壊れた。**どの 7 件? 残り 93 件は影響なしか?**
- RAG システムの答えがどれだけ ground truth に近いか、faithfulness はいくつか — それを **自動で測れる**か?
この 5 つの問いが 2026 年の LLM ops のすべてだ。そして過去 2 年でこの問いそれぞれに答えるためのツールが一気に増えた。Helicone · LangSmith · Langfuse · W&B Weave · Arize Phoenix · Braintrust · Athina · Comet Opik · Vellum · PromptHub · Portkey · TruLens · Ragas · DeepEval · Galileo · Patronus AI · OpenAI Evals · Bedrock Evals · Vertex AI Evaluation Service — タイトルに並んだツール群がそれだ。
本稿は 2026 年 5 月時点の LLM ops 地図を描く。4 つの領域 (可観測性 · 評価 · プロンプト管理 · ゲートウェイ) に分類し、各ツールの強み・弱み・価格モデル・実際の現場事例を押さえる。最後に個人開発者・スタートアップ・エンタープライズ・RAG 優先組織の 4 つのペルソナで「何を選ぶべきか」を示す。
1章 · 2026 年の LLM ops 地図 — 4 領域分類
まず全体像。
4 領域 — 可観測性 / 評価 / プロンプト管理 / ゲートウェイ
LLM ops ツールは機能が重なり合うが、主要な価値提案で見ると 4 領域に分類できる。
| 領域 | 何をするか | 代表的なツール |
| --- | --- | --- |
| **可観測性** | すべての LLM 呼び出しをトレース / トークン・遅延・コスト・エラー監視 / デバッグ | Helicone, LangSmith, Langfuse, W&B Weave, Arize Phoenix, Comet Opik |
| **評価** | モデル出力の品質をデータセット・メトリック・LLM-as-judge で自動測定 | Braintrust, Athina, Ragas, TruLens, DeepEval, Galileo, Patronus AI |
| **プロンプト管理** | プロンプトのバージョン管理 / A·B テスト / 非エンジニア協業 / デプロイ | Vellum, PromptHub, LangSmith Prompts, Langfuse Prompts |
| **ゲートウェイ** | OpenAI / Anthropic / Bedrock など複数プロバイダのルーティング・キャッシュ・rate limit・fallback | Portkey, LiteLLM, Cloudflare AI Gateway |
ほとんどのツールが領域をまたぐ。LangSmith は可観測性も評価もプロンプトもやる。Langfuse も同じ。Portkey はゲートウェイが本業だが可観測性もやる。比較を難しくしている最大の理由がこの重なりだ。
2024 → 2026 の変化
2024 年初頭まで LangSmith が事実上唯一の選択肢だった。その後の 2 年間で市場が爆速で分化した。
- **2023~2024 年第一波** — Helicone (YC)・Langfuse・Braintrust・Athina・TruLens・Ragas が次々登場。LangChain が LangSmith を GA。
- **2024 年後半** — Comet が LLM 領域に本格進出。Arize は Phoenix を OSS として分離。Portkey と LiteLLM がゲートウェイとして定着。
- **2025 年 3 月** — Comet が Opik を正式 OSS としてリリース。Langfuse が Series A。
- **2025 年後半 ~ 2026 年初頭** — クラウドビッグ 3 が本格進出。Bedrock Evaluations · Vertex AI Evaluation Service · Azure AI Studio Evaluations。OpenAI も Evals ダッシュボードを強化。
- **2026 年現在** — ツールが 30 を超えた。「何を選ぶか」自体が最大の問いになった。
OpenTelemetry の台頭 — GenAI semantic conventions
2025 年後半に決定的な変化があった。OpenTelemetry の GenAI semantic conventions が事実上の標準になり、Langfuse · Phoenix · Helicone · Portkey · LangSmith がすべて OTel ベースの SDK を提供し始めた。つまり **SDK は一度入れたらバックエンドは差し替え可能** になった。これが今後 5 年の LLM ops で最大の変化だ。
2章 · Helicone — Y Combinator の OSS 可観測性
まず最速で始められるツールから。
一行定義
**Y Combinator W23 出身、OSS の LLM 可観測性。base URL を一行変えるだけ。** 業界最低の参入障壁。
どう動くか
Helicone の最大の特徴は **プロキシモード** だ。OpenAI SDK の `base_url` を `https://oai.helicone.ai/v1` に変えるだけで、すべての呼び出しが自動記録される。たった一行。
from openai import OpenAI
client = OpenAI(
base_url="https://oai.helicone.ai/v1",
default_headers={"Helicone-Auth": f"Bearer {os.getenv('HELICONE_API_KEY')}"},
)
この一行で次のものが自動で記録される。
- リクエスト / レスポンスの本文
- レイテンシ、time-to-first-token
- 入出力トークン数とコスト
- ユーザー ID・セッション・カスタムプロパティ (Helicone-User-Id のようなヘッダで渡す)
プロキシが不安なら非同期ロギング SDK もある。バックグラウンドで送る。
強み
- **導入コストゼロ** — base URL を一行。
- **OSS** — Apache 2.0。セルフホスト可能。
- **プロバイダ非依存** — OpenAI · Anthropic · Together · Anyscale · Bedrock 全部。
- **カスタムプロパティ** — ユーザー別・フィーチャーフラグ別・実験グループ別にスライス可能。
- **無料枠が太い** — 月 10 万リクエストまで無料。
弱み
- **プロキシがクリティカルパスに入る** — レイテンシが 1 ホップ増える (実測で通常 10ms 以内)。
- **評価機能は弱め** — LangSmith・Braintrust ほどの dataset / experiment 機能はない。
- **プロンプト管理は最小限** — Vellum・PromptHub ほど本格的ではない。
誰が使うか
スタートアップ・個人開発者が最多。「今すぐ本番トレースが必要、コード変更は最小化」のシナリオで圧倒的。韓国の一部 LLM スタートアップが PoC 段階で最初に入れるツールとして挙がる。
3章 · LangSmith — LangChain の旗艦
最も有名なツール。
一行定義
**LangChain が作った一体型 LLM ops プラットフォーム。** 可観測性 · 評価 · Prompts · Datasets を一箇所で。SaaS とセルフホスト (Enterprise) の両方。
どう動くか
LangChain · LangGraph を使えば環境変数 2 つで自動トレーシング。
export LANGSMITH_TRACING=true
export LANGSMITH_API_KEY=ls_...
LangChain を使わない場合は `@traceable` デコレータで任意の関数をトレースできる。
from langsmith import traceable
@traceable(run_type="llm")
def call_model(prompt: str) -> str:
任意のモデル呼び出し
...
強み
- **LangChain · LangGraph 統合が圧倒的** — 他のどのツールも追いつけない。agentic workflow の中間ステップトレーシングが自然。
- **評価が強力** — dataset 作成、LLM-as-judge、pairwise comparison、回帰テストが一箇所で。
- **Prompts Hub** — プロンプトのバージョン管理・共有。
- **本番グレード** — Fortune 500 の一部がセルフホストで運用。
弱み
- **高い** — 個人無料、Plus は 39 USD/シート/月、Enterprise は別見積り。
- **LangChain ファミリーへのロックインが強い** — 他ツールへの移行は容易でない。
- **UI が重い** — 小規模プロジェクトには過剰。
誰が使うか
LangChain · LangGraph を本番で使うチームの標準。韓国・日本の RAG チャットボット会社で LangChain スタックを選んだ所はほぼすべて LangSmith に課金している。
4章 · Langfuse — OSS、Series A
LangSmith の最強の OSS 代替。
一行定義
**MIT ライセンス OSS の LLM ops。セルフホストが本当に簡単。** 2025 年に Series A を調達し、この領域で最速成長中の OSS プロジェクト。
どう動くか
`docker compose up` 一発でセルフホスト版が立ち上がる。SDK は Python · TypeScript · OpenAI 自動トレーシング · LlamaIndex · LangChain すべて対応。
from langfuse.openai import openai # OpenAI の drop-in
response = openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "hi"}],
)
自動でトレースが生成される。手動でスパンを作ることもできる。
強み
- **本物の OSS** — MIT ライセンス、コア機能にエンタープライズゲーティングがほぼない。
- **セルフホストが本気で簡単** — docker compose だけで本番グレード。
- **可観測性 + 評価 + プロンプト + データセット** が 1 パッケージ。
- **プロンプト管理が意外と強い** — Langfuse Prompts は Vellum の軽量代替。
- **OpenTelemetry 互換** — 2025 年から OTel GenAI 規約のネイティブ対応。
弱み
- **UI のポリッシュが LangSmith・Braintrust より一歩遅い** — 急速にキャッチアップ中。
- **agentic workflow の可視化は LangSmith が一枚上手。**
- **クラウド版が EU にある** — 米国企業でレイテンシを気にするならセルフホスト推奨。
誰が使うか
OSS を好むすべてのチーム。韓国の一部フィンテック・ヘルスケア企業はデータ主権の都合からセルフホスト Langfuse を選ぶ。日本も同じ。
5章 · W&B Weave — Weights & Biases の LLM ライン
ML 側で W&B を使っていたチームが自然に流れていくツール。
一行定義
**Weights & Biases が作った LLM 可観測性・評価。** 既存 W&B の実験追跡と統合される。
どう動くか
`weave.init("project")` を一行打ってから `@weave.op` デコレータで関数をラップすれば自動トレーシング。
weave.init("my-rag-app")
@weave.op()
def answer(query: str) -> str:
docs = retrieve(query)
return generate(query, docs)
W&B の既存 UI 内に LLM トレースが現れる。
強み
- **W&B の ML 実験追跡と同じ傘の下** — fine-tuning · 評価 · サービングを一箇所で。
- **Evaluations が強力** — `weave.Evaluation` で dataset · scorer · モデルの組み合わせを高速に回せる。
- **エンタープライズの信頼** — 既存の W&B 顧客 (OpenAI · NVIDIA · Toyota) がそのまま使う。
弱み
- **W&B 外の利用者には学習コスト** — 既存の W&B 概念 (project · run) を知る必要がある。
- **無料枠は LangSmith・Helicone ほど太くない。**
- **純粋に LLM だけのチームには過剰** — ML も同時にやるならベスト。
誰が使うか
既に W&B を使っていた ML チーム。韓国・日本の大企業 AI ラボで自社モデル学習をする所が多く使う。
6章 · Arize Phoenix — OSS
ML 可観測性の名門 Arize が作った OSS の LLM ツール。
一行定義
**Arize AI が作った OSS の LLM 可観測性 + 評価。** ノートブックから本番まで同じツールで。
どう動くか
from phoenix.otel import register
tracer_provider = register(project_name="my-rag", auto_instrument=True)
OpenAI · LangChain · LlamaIndex の呼び出しが全部自動トレース
Phoenix の強みは **ノートブックですぐ立ち上げられる** こと。`px.launch_app()` でローカルに UI が起動する。
強み
- **ノートブック親和的** — 実験段階で最軽量に開始。
- **OpenTelemetry GenAI 規約ネイティブ。**
- **埋め込み・RAG 可視化が強力** — UMAP で埋め込みクラスタを可視化する機能は他ではあまり見ない。
- **Arize の本番ティアに自然に接続** — PoC は Phoenix、本番は Arize。
弱み
- **UI が LangSmith・Braintrust より ML カルチャー寄り** — 普通のバックエンド開発者には参入障壁。
- **プロンプト管理は基礎的。**
誰が使うか
データサイエンス出身の ML エンジニア。RAG デバッグ (どのチャンクが誤って retrieve されたかの可視化) が必要なチーム。
7章 · Braintrust — 評価特化
評価が最重要なチームなら第一候補。
一行定義
**評価を最優先に置く LLM ops プラットフォーム。** Stripe · Notion · Vercel のような会社が使う。2024 年に大型ラウンド。
どう動くか
Braintrust の核となる抽象は **Eval**。dataset · task · scorer の組み合わせで実験を回す。
Eval("MyRagApp", {
data: () => [
{ input: "What is the capital of France?", expected: "Paris" },
],
task: async (input) => myRagPipeline(input),
scores: [Factuality, AnswerRelevancy],
});
`braintrust eval` で回すとスコアが時系列で蓄積され、モデル・プロンプト変更の影響がすぐに比較できる。
強み
- **Eval-first の思考様式** — 「プロンプトはコードだ。コードにはテストがあるべきだ」を最もよく実装している。
- **Playground が本当に良い** — プロンプト / モデル / データセットを高速比較。
- **Loop (LLM-as-judge 自動チューニング)** — judge 自体のキャリブレーションを自動化。
- **TypeScript / Python SDK が両方一級。**
弱み
- **有料優先** — 無料枠はあるが本格利用には課金が必要。
- **可観測性だけ欲しいチームには少し過剰。**
誰が使うか
Stripe · Notion · Vercel · Airtable のような米国プロダクト企業。「プロンプトを PR 単位で自動評価しないと本番に出せない」が文化として根付いたチーム。
8章 · Athina — 急成長
評価・可観測性・dataset を 1 パッケージにまとめた急成長株。
一行定義
**ダッシュボードが綺麗で 50 以上の事前定義 evaluator を内蔵した LLM ops。** 参入が容易。
どう動くか
from athina.loaders import Loader
from athina.evals import Faithfulness
data = Loader().load_csv("eval_data.csv")
Faithfulness(model="gpt-4o").run_batch(data=data).to_df()
あるいは SDK で本番トレースを送り、ダッシュボードで evaluator を自動実行させる。
強み
- **事前定義 evaluator が多い** — Faithfulness · Context Precision · Toxicity · PII Detection など。
- **非エンジニア親和的なダッシュボード** — PM が直接入ってデータセット・ラベルを作れる。
- **YAML 設定** — 評価パイプラインを YAML で宣言。
弱み
- **OSS 寄与は部分的** — 核は SaaS。
- **agentic workflow の深いトレーシングは LangSmith が優位。**
誰が使うか
プロダクトチームとエンジニアチームが共に LLM 品質を管理する中規模スタートアップ。英語圏でシェアを急拡大中。
9章 · Comet Opik (2025 年 3 月リリース) — OSS
最も新しく登場した OSS ツール。
一行定義
**Comet ML が 2025 年 3 月にリリースした OSS の LLM 可観測性 + 評価。** Apache 2.0。
どう動くか
from opik import track
opik.configure(use_local=True)
@track
def answer(query: str) -> str:
return llm_call(query)
`use_local=True` ならセルフホストインスタンスに送る。Comet cloud にも送れる。
強み
- **2025 年リリースなので最新の UX パターンが入っている** — 後発ゆえ他ツールの良い所を吸収。
- **Comet の ML 実験追跡と同じ傘の下** — W&B Weave に似たポジショニング。
- **無料 SaaS 枠が太い。**
- **Apache 2.0** — 本物の OSS。
弱み
- **エコシステムがまだ最小** — 後発組。
- **plugin / integration の数が Langfuse · LangSmith より少ない。**
誰が使うか
Comet の既存 ML 顧客、そして「最新・OSS・最速スタート」の 3 つを揃って欲しい新規プロジェクト。
10章 · Vellum / PromptHub — プロンプト管理本格派
プロンプトをコードから分離するのが本業のツール。
Vellum — エンタープライズ向けプロンプト管理
**プロンプトの GitHub。** バージョン · 環境 · デプロイ · A/B テスト · データセットが一箇所に。PM · CS · QA が直接プロンプトを触るワークフローに最適化。
- プロンプトの git スタイルの diff と PR レビュー。
- ワークフローエディタ (ビジュアルチェーンビルダー)。
- 本番トラフィックの一定比率に新プロンプトを canary。
- 大手顧客多数 (ヘルスケア · リーガル)。
PromptHub — 軽量版コラボ
**Vellum より軽く、価格も安い。** 小規模チームがプロンプトを git のように管理したいとき。
- プロンプトライブラリ (共有 / 検索)。
- A/B テスト。
- 多モデル比較 (同じプロンプトを OpenAI · Anthropic · Bedrock に同時送信)。
いつ専用 prompt ツールが必要になるか
ほとんどの小規模チームは LangSmith · Langfuse 内蔵のプロンプト機能で十分。次の時点で別ツールが要る。
- プロンプトを **非エンジニアが直接編集** する (PM · CS が毎週プロンプトをチューニング)。
- 環境別 (dev · staging · prod) の **昇格ワークフロー** が git だけでは足りない。
- **複数モデルに同じプロンプト** を送り結果を並べて比較する。
3 つ揃えば Vellum、1~2 つなら PromptHub、どれも当てはまらなければ LangSmith · Langfuse 内蔵。
11章 · Portkey — AI Gateway + 可観測性
ゲートウェイ領域の代表格。
一行定義
**OpenAI / Anthropic / Bedrock / Google / Azure / Together / 200 以上のプロバイダ を統合する AI ゲートウェイ。** 可観測性 · キャッシュ · fallback · rate limit · cost guard が全部入り。
どう動くか
OpenAI SDK の `base_url` を Portkey に向けて、ヘッダでルーティングルールを渡す。
from openai import OpenAI
client = OpenAI(
base_url="https://api.portkey.ai/v1",
default_headers={
"x-portkey-api-key": os.getenv("PORTKEY_API_KEY"),
"x-portkey-config": "your-config-id", # ルーティング・キャッシュ・リトライ規則
},
)
config の中で「primary は GPT-4o、失敗時は Claude Sonnet 4.5 にフォールバック、同じ入力は 1 時間キャッシュ」のようなポリシーを宣言的に定義。
強み
- **複数プロバイダ統合** — 200 以上。
- **fallback / load balancing / canary** がネイティブ。
- **semantic cache** — 意味が同じ質問はキャッシュヒット。
- **可観測性がついてくる** — 別ツール不要でトレーシング。
- **プロンプト管理も内蔵。**
弱み
- **ゲートウェイがクリティカルパスに入る** — プロキシの本質的弱点。リージョン選択が細かくなくレイテンシが乗ることがある。
- **Helicone · Langfuse ほどの可観測性の深さはない** — 十分だが specialist には及ばない。
LiteLLM との比較
LiteLLM (OSS の SDK / プロキシ) が似た領域。違いは:
- **LiteLLM** — Python ライブラリとして始まり、セルフホストゲートウェイもある。コアは 100% OSS。より軽量で hackable。
- **Portkey** — SaaS 優先。UI · ポリシー管理 · 協業が中心。セルフホスト enterprise ティアあり。
スタートアップ / 個人は LiteLLM が多く、中規模以上は Portkey が多い。
12章 · TruLens / Ragas — RAG 評価の二大潮流
RAG が入ったシステムならほぼ必ずどちらか。
Ragas — RAG 評価メトリクスの事実上の標準
**OSS。RAG の標準メトリクスをライブラリで。** 最も引用される RAG 評価フレームワーク。
- **Faithfulness** — 答えが retrieved context に実際に根拠しているか?
- **Answer Relevancy** — 答えが質問に実際に答えているか?
- **Context Precision / Recall** — retrieval は正しいか?
- **Context Entity Recall** — 正解 entity が context に含まれているか?
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision
result = evaluate(
dataset=eval_dataset,
metrics=[faithfulness, answer_relevancy, context_precision],
)
print(result)
LangSmith · Langfuse · Athina など、ほぼすべての可観測性ツールが Ragas メトリクスを内蔵 evaluator として提供する。
TruLens — より広い評価 + トレーシング
**TruEra (現 Snowflake) の OSS。** Ragas がメトリクスライブラリなら、TruLens はメトリクス + トレーシング + ダッシュボードを併せ持つ。
- **RAG Triad** — Context Relevance · Groundedness · Answer Relevance。
- トレーシング + 評価が同じツール。
- ノートブック親和的。
Ragas と TruLens の選び方
- 別の可観測性ツール (LangSmith · Langfuse · Athina) を既に使っていてメトリクスだけ欲しい → **Ragas**。
- 可観測性ツール抜きで RAG 評価だけを高速に回したい → **TruLens**。
- 併用も普通 — Ragas メトリクスを TruLens 内から呼ぶ。
13章 · Galileo / Patronus AI / DeepEval — エンタープライズ評価
規制 · セキュリティ · SLA が重い組織向け。
Galileo — Generative AI Studio
**本番グレードのハルシネーション · 安全性 · ドリフト監視。** Fortune 500 · 政府 · 金融。
- **Galileo Evaluate** — pre-production 評価。
- **Galileo Observe** — 本番トレーシング · 監視。
- **Galileo Protect** — リアルタイム guardrail (PII · jailbreak · ハルシネーション ブロック)。
Patronus AI — 自動評価 + 安全性
**自動化された LLM 評価に特化。** Lynx (ハルシネーション検出器)、Glider、FinanceBench といった自社評価モデルを提供。
- ユーザー定義 evaluator をプレーン英語で記述可能。
- 金融 · リーガル領域のベンチマークを自社で整備。
DeepEval (Confident AI) — pytest スタイルの LLM テスト
**LLM の pytest。** 開発者にとって最も親しみやすい API。
from deepeval import assert_test
from deepeval.test_case import LLMTestCase
from deepeval.metrics import AnswerRelevancyMetric
def test_answer_relevancy():
test_case = LLMTestCase(
input="What is the capital of France?",
actual_output="The capital is Paris.",
)
metric = AnswerRelevancyMetric(threshold=0.7)
assert_test(test_case, [metric])
CI で `pytest` のように回せる。Confident AI が結果を蓄積する SaaS ダッシュボード。
3 つの選び分け
- **金融 · リーガル + 自社ベンチマーク必要** → Patronus AI。
- **本番 guardrail まで 1 パッケージ** → Galileo。
- **開発者が unit test のように LLM をテスト** → DeepEval。
14章 · クラウドネイティブ — Bedrock Evals / Vertex AI Evaluation / OpenAI Evals
2025 年後半からクラウドビッグ 3 が本格進出した。
AWS Bedrock Evaluations
**Bedrock 内でモデル · プロンプト · RAG を評価するマネージドサービス。**
- **Model Evaluation** — 同じデータセットで複数 Bedrock モデルを比較。
- **RAG Evaluation** — Bedrock Knowledge Base と統合。retrieval + generation を同時評価。
- **LLM-as-judge** + 人手評価 (Amazon Mechanical Turk 統合) の両対応。
- **Bedrock Guardrails** と組み合わせて評価 → guardrail ポリシーに自動反映。
既に AWS にコミットしているチームの標準選択。
Vertex AI Evaluation Service (Google)
**Gen AI Eval Service。** Vertex AI 内で Gemini · 3P モデルを評価。
- pointwise · pairwise · rubric ベースのメトリクス。
- Autoraters (LLM-as-judge) + カスタムメトリクス。
- Vertex AI Pipelines と統合 — eval を CI ステップとして自動実行。
Gemini · PaLM を本番で使う企業の標準。
OpenAI Evals (ダッシュボード)
**OpenAI Platform の Evals タブ。** 2024 年から OSS で出ていた `openai/evals` が SaaS ダッシュボードに統合された。
- Stored Completions ベースの評価 — 本番トラフィックの一部を自動で評価データセット化。
- model graded eval が標準。
- OpenAI Fine-tuning · Distillation と自然に連結。
Azure AI Studio Evaluations
Azure OpenAI の評価機能。PromptFlow と統合。Azure にコミットしたエンタープライズの標準。
クラウドネイティブの長所と短所
- **長所** — データが同じクラウド内に留まる (compliance · セキュリティ)、IAM · VPC · ロギングと自然に統合、別途 SaaS 契約不要。
- **短所** — マルチクラウド · マルチモデル比較が難しい (Bedrock Evals で OpenAI モデルは評価できない)、specialist ツールほど深くない、ベンダーロックインのリスク。
15章 · 韓国 / 日本 — トス · NAVER · Sakana · NTT つづみ
海外ツールばかりではない。韓国・日本の自前 LLM ops も急速に育っている。
韓国
- **トス (Toss) — LLM ops の内製**
- 自前 LLM ゲートウェイ (PortkeyLite 相当)、自前プロンプトレジストリ、Langfuse をセルフホストしてトレーシング。
- 金融規制 (網分離) のため SaaS LLM ops ツールがほぼ使えず、OSS を閉域網にセルフホストするのが事実上の標準。
- 社内 RAG チャットボット (人事 · 法務 · CS) の品質測定のため Ragas メトリクスを内部ライブラリで wrap。
- **NAVER HCX 監視**
- HyperCLOVA X (HCX) を自社運用する NAVER は自前監視スタック。社内 NSML / CLOVA Studio と統合。
- 社内 BizPlatform / CLOVA for Biz 顧客にプロンプト管理 · 評価を統合提供。
- **カカオ / クーパン / ライン** — 全部、自前 + OSS (Langfuse / Phoenix) のハイブリッド。
- **国内 LLM スタートアップ** — Upstage · Wrtn · DeepL などは LangSmith / Langfuse / Helicone を状況に応じて混用。
日本
- **Sakana AI — 自前モデル + 運用**
- 自社モデル (EvoLLM · evo-ukiyoe など) の学習と評価に W&B · MLflow を併用。本番可観測性は Langfuse または自前ツール。
- **NTT つづみ — 通信キャリア運用の標準**
- NTT の自社 LLM。通信キャリアコンプライアンスから自前監視スタック + OSS の ragas / langfuse のハイブリッド。
- **Mercari · CyberAgent · LINE ヤフー** — LangSmith またはセルフホスト Langfuse。CyberAgent は自社学習モデルが多く W&B 比重が高い。
- **メガバンク (MUFG · SMBC · みずほ)** — 外部 SaaS の使用は困難。AWS Bedrock + Bedrock Evals あるいは Azure OpenAI + Azure AI Studio が事実上の標準。
韓日共通パターン
- 金融 · 通信 · 公共領域では SaaS LLM ops の直接利用が難しく、OSS (Langfuse · Phoenix · Opik · Helicone) のセルフホストが事実上の標準。
- B2C スタートアップは LangSmith · Helicone · Langfuse SaaS をそのまま使う。
- **データ主権 (data residency)** がますます大きな意思決定要因に — 日本は東京リージョン、韓国はソウルリージョンの有無がほぼ最初の質問。
16章 · 誰が何を選ぶべきか — 4 ペルソナ
最後に意思決定ガイド。
ペルソナ 1 · 個人開発者 / インディーハック
**条件** — 一人でサイドプロジェクトとして LLM アプリを作る。費用は最低限。
- **可観測性** — Helicone (無料枠が最も太い) または Langfuse Cloud (無料枠 50k トレース / 月)。
- **評価** — 必要時のみ Ragas ライブラリを直接。
- **プロンプト管理** — コード内 docstring で十分。LangSmith Prompts は無料。
- **ゲートウェイ** — LiteLLM (Python ライブラリだけ、無料)。
ペルソナ 2 · Seed/Series A スタートアップ (5~50 人)
**条件** — 本番トラフィックあり。高速反復。費用も気にする。
- **可観測性** — Langfuse SaaS (OSS、合理的価格) または LangSmith Plus。
- **評価** — Braintrust (eval-first 文化を強調) または Athina (PM も一緒に使いやすい UI)。
- **プロンプト管理** — LangSmith Prompts / Langfuse Prompts 内蔵から開始。
- **ゲートウェイ** — Portkey または LiteLLM。fallback / キャッシュが効いてきたら。
- **RAG eval** — Ragas メトリクスを上記ツールの evaluator として登録。
ペルソナ 3 · Series B+ / エンタープライズ
**条件** — 規模が大きい。compliance · SOC2 · ISO 27001 が必要。SLA がそのまま売上。
- **可観測性** — LangSmith Enterprise またはセルフホスト Langfuse (データ主権)。本番 guardrail まで欲しければ Galileo。
- **評価** — Braintrust Enterprise + Patronus AI (ドメイン特化)。
- **プロンプト管理** — Vellum (PM · CS · QA が一緒に触るワークフロー)。
- **ゲートウェイ** — Portkey Enterprise セルフホストまたは自前ゲートウェイ。
- **クラウドネイティブ** — AWS なら Bedrock Evals、GCP なら Vertex AI Evaluation を追加。
ペルソナ 4 · RAG 優先組織
**条件** — RAG がプロダクトの核。retrieval の品質が事業の品質。
- **可観測性** — Arize Phoenix (埋め込み可視化) または Langfuse。
- **評価** — Ragas メトリクスと TruLens の RAG Triad を両方回し、Braintrust で dataset · experiment 管理。
- **プロンプト管理** — Vellum のワークフローエディタが multi-step RAG チェーンに適合。
- **ゲートウェイ** — Portkey の semantic cache が RAG 費用削減に決定的。
ツール選びの前に問う 5 つの質問
ツールを比較する前に、自分自身に問うべき 5 つ。
1. **データ主権** — 自社データはどのリージョンに留まる必要があるか? (韓国 / 日本 / EU / 米国?)
2. **OSS vs SaaS** — セルフホスト運用する人員はいるか?
3. **agentic workflow があるか?** — あれば LangSmith · Langfuse が優位、なければ Helicone · Athina で十分。
4. **PM · CS がプロンプトを直接触るか?** — そうなら Vellum または LangSmith Prompts UI が決定的。
5. **CI で自動 LLM 回帰テストを回すか?** — そうなら Braintrust · DeepEval が優位。
17章 · おわりに — 「LLM を運用する」 という言葉がある時代
2024 年時点では「LLM 運用」 という言葉自体が違和感を持って受け止められていた。2026 年 5 月現在、LLM ops は立派な SRE の一分野になった。30 を超えるツールが競い、OpenTelemetry GenAI 規約が標準として定着し、クラウドビッグ 3 が自社評価サービスを出した。
本稿冒頭で投げた 5 つの問い — なぜ変な答えが出るのか、どう再現するか、誰がトークンを使ったか、どのテストが壊れたか、品質を自動で測れるか — に対する答えは、もうツールが提供できる。問題はどのツールを選ぶかだ。
- 最速で始めたいなら **Helicone**。
- LangChain ファミリーなら **LangSmith**。
- OSS · セルフホスト必須なら **Langfuse** か **Phoenix** か **Opik**。
- 評価が核なら **Braintrust** + **Ragas**。
- 複数プロバイダのトラフィック管理が必要なら **Portkey** か **LiteLLM**。
- エンタープライズ guardrail まで含めて **Galileo** + **Patronus**。
- クラウドネイティブなら **Bedrock Evals** / **Vertex AI Evaluation**。
ツールを使わない理由はもう存在しない。「プロンプトはコードだ。コードには監視とテストが必要だ。」 これが 2026 年の新しい常識だ。次のモデル (GPT-5.5 · Claude Opus 5 · Gemini 3 Ultra · Llama 5) が来てもこのインフラはそのまま使える。モデルは変わっても運用の原則は変わらない。
参考 / References
Observability — 一体型
- Helicone — [https://www.helicone.ai/](https://www.helicone.ai/)
- LangSmith — [https://www.langchain.com/langsmith](https://www.langchain.com/langsmith)
- Langfuse — [https://langfuse.com/](https://langfuse.com/)
- W&B Weave — [https://wandb.ai/site/weave](https://wandb.ai/site/weave)
- Arize Phoenix — [https://phoenix.arize.com/](https://phoenix.arize.com/)
- Comet Opik — [https://www.comet.com/site/products/opik/](https://www.comet.com/site/products/opik/)
Evaluation 特化
- Braintrust — [https://www.braintrust.dev/](https://www.braintrust.dev/)
- Athina — [https://athina.ai/](https://athina.ai/)
- Ragas — [https://docs.ragas.io/](https://docs.ragas.io/)
- TruLens — [https://www.trulens.org/](https://www.trulens.org/)
- DeepEval (Confident AI) — [https://docs.confident-ai.com/](https://docs.confident-ai.com/)
- Galileo — [https://www.galileo.ai/](https://www.galileo.ai/)
- Patronus AI — [https://www.patronus.ai/](https://www.patronus.ai/)
プロンプト管理
- Vellum — [https://www.vellum.ai/](https://www.vellum.ai/)
- PromptHub — [https://www.prompthub.us/](https://www.prompthub.us/)
- LangChain Studio — [https://www.langchain.com/langgraph-studio](https://www.langchain.com/langgraph-studio)
ゲートウェイ
- Portkey — [https://portkey.ai/](https://portkey.ai/)
- LiteLLM — [https://www.litellm.ai/](https://www.litellm.ai/)
- Cloudflare AI Gateway — [https://developers.cloudflare.com/ai-gateway/](https://developers.cloudflare.com/ai-gateway/)
クラウドネイティブ eval
- AWS Bedrock Evaluations — [https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html](https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html)
- Vertex AI Generative AI Evaluation Service — [https://cloud.google.com/vertex-ai/generative-ai/docs/models/evaluation-overview](https://cloud.google.com/vertex-ai/generative-ai/docs/models/evaluation-overview)
- OpenAI Evals (open source) — [https://github.com/openai/evals](https://github.com/openai/evals)
- Azure AI Studio Evaluations — [https://learn.microsoft.com/en-us/azure/ai-studio/concepts/evaluation-approach-gen-ai](https://learn.microsoft.com/en-us/azure/ai-studio/concepts/evaluation-approach-gen-ai)
標準 / 仕様
- OpenTelemetry GenAI semantic conventions — [https://opentelemetry.io/docs/specs/semconv/gen-ai/](https://opentelemetry.io/docs/specs/semconv/gen-ai/)
韓国・日本
- トス Tech ブログ — [https://toss.tech/](https://toss.tech/)
- NAVER HyperCLOVA X — [https://clova.ai/hyperclova](https://clova.ai/hyperclova)
- Sakana AI — [https://sakana.ai/](https://sakana.ai/)
- NTT つづみ — [https://www.rd.ntt/e/research/JN20231101_h.html](https://www.rd.ntt/e/research/JN20231101_h.html)
- CyberAgent AI Lab — [https://research.cyberagent.ai/](https://research.cyberagent.ai/)
현재 단락 (1/345)
2024年までは LLM を本番に乗せること自体が珍しいことだった。2026年5月、それはもう普通の出来事になった。OpenAI · Anthropic · Google · Mistral · De...