LLM 可観測性 & プロンプトツール 2026 — Helicone / LangSmith / Langfuse / Braintrust / Athina / Comet Opik / Portkey 徹底比較

プロローグ — 「LLM を立ち上げるのは簡単になった。運用するのが難しい」

2024年までは LLM を本番に乗せること自体が珍しいことだった。2026年5月、それはもう普通の出来事になった。OpenAI · Anthropic · Google · Mistral · DeepSeek · 韓国の HyperCLOVA X · 日本の Sakana · NTT つづみ — いずれも API 一本で呼べる。本当の難しさはその先にある。

昨日まで上手く答えていたモデルが今日は変な答えを返す。なぜ?
同じユーザーが同じ質問を 5 回投げて 5 回とも違う答えが返ってきた。どうやって再現し、回帰テストにするか?
トークン費用が月 30 万円から急に 150 万円に跳ねた。誰がどこでそんなに使ったのか?
プロンプトを 1 行変えたら 100 件のテストケースのうち 7 件が壊れた。どの 7 件? 残り 93 件は影響なしか?
RAG システムの答えがどれだけ ground truth に近いか、faithfulness はいくつか — それを 自動で測れるか?

この 5 つの問いが 2026 年の LLM ops のすべてだ。そして過去 2 年でこの問いそれぞれに答えるためのツールが一気に増えた。Helicone · LangSmith · Langfuse · W&B Weave · Arize Phoenix · Braintrust · Athina · Comet Opik · Vellum · PromptHub · Portkey · TruLens · Ragas · DeepEval · Galileo · Patronus AI · OpenAI Evals · Bedrock Evals · Vertex AI Evaluation Service — タイトルに並んだツール群がそれだ。

本稿は 2026 年 5 月時点の LLM ops 地図を描く。4 つの領域 (可観測性 · 評価 · プロンプト管理 · ゲートウェイ) に分類し、各ツールの強み・弱み・価格モデル・実際の現場事例を押さえる。最後に個人開発者・スタートアップ・エンタープライズ・RAG 優先組織の 4 つのペルソナで「何を選ぶべきか」を示す。

1章 · 2026 年の LLM ops 地図 — 4 領域分類

まず全体像。

4 領域 — 可観測性 / 評価 / プロンプト管理 / ゲートウェイ

LLM ops ツールは機能が重なり合うが、主要な価値提案で見ると 4 領域に分類できる。

領域	何をするか	代表的なツール
可観測性	すべての LLM 呼び出しをトレース / トークン・遅延・コスト・エラー監視 / デバッグ	Helicone, LangSmith, Langfuse, W&B Weave, Arize Phoenix, Comet Opik
評価	モデル出力の品質をデータセット・メトリック・LLM-as-judge で自動測定	Braintrust, Athina, Ragas, TruLens, DeepEval, Galileo, Patronus AI
プロンプト管理	プロンプトのバージョン管理 / A·B テスト / 非エンジニア協業 / デプロイ	Vellum, PromptHub, LangSmith Prompts, Langfuse Prompts
ゲートウェイ	OpenAI / Anthropic / Bedrock など複数プロバイダのルーティング・キャッシュ・rate limit・fallback	Portkey, LiteLLM, Cloudflare AI Gateway

ほとんどのツールが領域をまたぐ。LangSmith は可観測性も評価もプロンプトもやる。Langfuse も同じ。Portkey はゲートウェイが本業だが可観測性もやる。比較を難しくしている最大の理由がこの重なりだ。

2024 → 2026 の変化

2024 年初頭まで LangSmith が事実上唯一の選択肢だった。その後の 2 年間で市場が爆速で分化した。

2023~2024 年第一波 — Helicone (YC)・Langfuse・Braintrust・Athina・TruLens・Ragas が次々登場。LangChain が LangSmith を GA。
2024 年後半 — Comet が LLM 領域に本格進出。Arize は Phoenix を OSS として分離。Portkey と LiteLLM がゲートウェイとして定着。
2025 年 3 月 — Comet が Opik を正式 OSS としてリリース。Langfuse が Series A。
2025 年後半 ~ 2026 年初頭 — クラウドビッグ 3 が本格進出。Bedrock Evaluations · Vertex AI Evaluation Service · Azure AI Studio Evaluations。OpenAI も Evals ダッシュボードを強化。
2026 年現在 — ツールが 30 を超えた。「何を選ぶか」自体が最大の問いになった。

OpenTelemetry の台頭 — GenAI semantic conventions

2025 年後半に決定的な変化があった。OpenTelemetry の GenAI semantic conventions が事実上の標準になり、Langfuse · Phoenix · Helicone · Portkey · LangSmith がすべて OTel ベースの SDK を提供し始めた。つまり SDK は一度入れたらバックエンドは差し替え可能 になった。これが今後 5 年の LLM ops で最大の変化だ。

2章 · Helicone — Y Combinator の OSS 可観測性

まず最速で始められるツールから。

一行定義

Y Combinator W23 出身、OSS の LLM 可観測性。base URL を一行変えるだけ。 業界最低の参入障壁。

どう動くか

Helicone の最大の特徴は プロキシモード だ。OpenAI SDK の base_url を https://oai.helicone.ai/v1 に変えるだけで、すべての呼び出しが自動記録される。たった一行。

from openai import OpenAI

client = OpenAI(
    base_url="https://oai.helicone.ai/v1",
    default_headers={"Helicone-Auth": f"Bearer {os.getenv('HELICONE_API_KEY')}"},
)

この一行で次のものが自動で記録される。

リクエスト / レスポンスの本文
レイテンシ、time-to-first-token
入出力トークン数とコスト
ユーザー ID・セッション・カスタムプロパティ (Helicone-User-Id のようなヘッダで渡す)

プロキシが不安なら非同期ロギング SDK もある。バックグラウンドで送る。

強み

導入コストゼロ — base URL を一行。
OSS — Apache 2.0。セルフホスト可能。
プロバイダ非依存 — OpenAI · Anthropic · Together · Anyscale · Bedrock 全部。
カスタムプロパティ — ユーザー別・フィーチャーフラグ別・実験グループ別にスライス可能。
無料枠が太い — 月 10 万リクエストまで無料。

弱み

プロキシがクリティカルパスに入る — レイテンシが 1 ホップ増える (実測で通常 10ms 以内)。
評価機能は弱め — LangSmith・Braintrust ほどの dataset / experiment 機能はない。
プロンプト管理は最小限 — Vellum・PromptHub ほど本格的ではない。

誰が使うか

スタートアップ・個人開発者が最多。「今すぐ本番トレースが必要、コード変更は最小化」のシナリオで圧倒的。韓国の一部 LLM スタートアップが PoC 段階で最初に入れるツールとして挙がる。

3章 · LangSmith — LangChain の旗艦

最も有名なツール。

一行定義

LangChain が作った一体型 LLM ops プラットフォーム。 可観測性 · 評価 · Prompts · Datasets を一箇所で。SaaS とセルフホスト (Enterprise) の両方。

どう動くか

LangChain · LangGraph を使えば環境変数 2 つで自動トレーシング。

export LANGSMITH_TRACING=true
export LANGSMITH_API_KEY=ls_...

LangChain を使わない場合は @traceable デコレータで任意の関数をトレースできる。

from langsmith import traceable

@traceable(run_type="llm")
def call_model(prompt: str) -> str:
    # 任意のモデル呼び出し
    ...

強み

LangChain · LangGraph 統合が圧倒的 — 他のどのツールも追いつけない。agentic workflow の中間ステップトレーシングが自然。
評価が強力 — dataset 作成、LLM-as-judge、pairwise comparison、回帰テストが一箇所で。
Prompts Hub — プロンプトのバージョン管理・共有。
本番グレード — Fortune 500 の一部がセルフホストで運用。

弱み

高い — 個人無料、Plus は 39 USD/シート/月、Enterprise は別見積り。
LangChain ファミリーへのロックインが強い — 他ツールへの移行は容易でない。
UI が重い — 小規模プロジェクトには過剰。

誰が使うか

LangChain · LangGraph を本番で使うチームの標準。韓国・日本の RAG チャットボット会社で LangChain スタックを選んだ所はほぼすべて LangSmith に課金している。

4章 · Langfuse — OSS、Series A

LangSmith の最強の OSS 代替。

一行定義

MIT ライセンス OSS の LLM ops。セルフホストが本当に簡単。 2025 年に Series A を調達し、この領域で最速成長中の OSS プロジェクト。

どう動くか

docker compose up 一発でセルフホスト版が立ち上がる。SDK は Python · TypeScript · OpenAI 自動トレーシング · LlamaIndex · LangChain すべて対応。

from langfuse.openai import openai  # OpenAI の drop-in

response = openai.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "hi"}],
)

自動でトレースが生成される。手動でスパンを作ることもできる。

強み

本物の OSS — MIT ライセンス、コア機能にエンタープライズゲーティングがほぼない。
セルフホストが本気で簡単 — docker compose だけで本番グレード。
可観測性 + 評価 + プロンプト + データセット が 1 パッケージ。
プロンプト管理が意外と強い — Langfuse Prompts は Vellum の軽量代替。
OpenTelemetry 互換 — 2025 年から OTel GenAI 規約のネイティブ対応。

弱み

UI のポリッシュが LangSmith・Braintrust より一歩遅い — 急速にキャッチアップ中。
agentic workflow の可視化は LangSmith が一枚上手。
クラウド版が EU にある — 米国企業でレイテンシを気にするならセルフホスト推奨。

誰が使うか

OSS を好むすべてのチーム。韓国の一部フィンテック・ヘルスケア企業はデータ主権の都合からセルフホスト Langfuse を選ぶ。日本も同じ。

5章 · W&B Weave — Weights & Biases の LLM ライン

ML 側で W&B を使っていたチームが自然に流れていくツール。

一行定義

Weights & Biases が作った LLM 可観測性・評価。 既存 W&B の実験追跡と統合される。

どう動くか

weave.init("project") を一行打ってから @weave.op デコレータで関数をラップすれば自動トレーシング。

import weave

weave.init("my-rag-app")

@weave.op()
def answer(query: str) -> str:
    docs = retrieve(query)
    return generate(query, docs)

W&B の既存 UI 内に LLM トレースが現れる。

強み

W&B の ML 実験追跡と同じ傘の下 — fine-tuning · 評価 · サービングを一箇所で。
Evaluations が強力 — weave.Evaluation で dataset · scorer · モデルの組み合わせを高速に回せる。
エンタープライズの信頼 — 既存の W&B 顧客 (OpenAI · NVIDIA · Toyota) がそのまま使う。

弱み

W&B 外の利用者には学習コスト — 既存の W&B 概念 (project · run) を知る必要がある。
無料枠は LangSmith・Helicone ほど太くない。
純粋に LLM だけのチームには過剰 — ML も同時にやるならベスト。

誰が使うか

既に W&B を使っていた ML チーム。韓国・日本の大企業 AI ラボで自社モデル学習をする所が多く使う。

6章 · Arize Phoenix — OSS

ML 可観測性の名門 Arize が作った OSS の LLM ツール。

一行定義

Arize AI が作った OSS の LLM 可観測性 + 評価。 ノートブックから本番まで同じツールで。

どう動くか

import phoenix as px
from phoenix.otel import register

tracer_provider = register(project_name="my-rag", auto_instrument=True)

# OpenAI · LangChain · LlamaIndex の呼び出しが全部自動トレース

Phoenix の強みは ノートブックですぐ立ち上げられる こと。px.launch_app() でローカルに UI が起動する。

強み

ノートブック親和的 — 実験段階で最軽量に開始。
OpenTelemetry GenAI 規約ネイティブ。
埋め込み・RAG 可視化が強力 — UMAP で埋め込みクラスタを可視化する機能は他ではあまり見ない。
Arize の本番ティアに自然に接続 — PoC は Phoenix、本番は Arize。

弱み

UI が LangSmith・Braintrust より ML カルチャー寄り — 普通のバックエンド開発者には参入障壁。
プロンプト管理は基礎的。

誰が使うか

データサイエンス出身の ML エンジニア。RAG デバッグ (どのチャンクが誤って retrieve されたかの可視化) が必要なチーム。

7章 · Braintrust — 評価特化

評価が最重要なチームなら第一候補。

一行定義

評価を最優先に置く LLM ops プラットフォーム。 Stripe · Notion · Vercel のような会社が使う。2024 年に大型ラウンド。

どう動くか

Braintrust の核となる抽象は Eval。dataset · task · scorer の組み合わせで実験を回す。

import { Eval } from "braintrust";

Eval("MyRagApp", {
  data: () => [
    { input: "What is the capital of France?", expected: "Paris" },
  ],
  task: async (input) => myRagPipeline(input),
  scores: [Factuality, AnswerRelevancy],
});

braintrust eval で回すとスコアが時系列で蓄積され、モデル・プロンプト変更の影響がすぐに比較できる。

強み

Eval-first の思考様式 — 「プロンプトはコードだ。コードにはテストがあるべきだ」を最もよく実装している。
Playground が本当に良い — プロンプト / モデル / データセットを高速比較。
Loop (LLM-as-judge 自動チューニング) — judge 自体のキャリブレーションを自動化。
TypeScript / Python SDK が両方一級。

弱み

有料優先 — 無料枠はあるが本格利用には課金が必要。
可観測性だけ欲しいチームには少し過剰。

誰が使うか

Stripe · Notion · Vercel · Airtable のような米国プロダクト企業。「プロンプトを PR 単位で自動評価しないと本番に出せない」が文化として根付いたチーム。

8章 · Athina — 急成長

評価・可観測性・dataset を 1 パッケージにまとめた急成長株。

一行定義

ダッシュボードが綺麗で 50 以上の事前定義 evaluator を内蔵した LLM ops。 参入が容易。

どう動くか

from athina.loaders import Loader
from athina.evals import Faithfulness

data = Loader().load_csv("eval_data.csv")
Faithfulness(model="gpt-4o").run_batch(data=data).to_df()

あるいは SDK で本番トレースを送り、ダッシュボードで evaluator を自動実行させる。

強み

事前定義 evaluator が多い — Faithfulness · Context Precision · Toxicity · PII Detection など。
非エンジニア親和的なダッシュボード — PM が直接入ってデータセット・ラベルを作れる。
YAML 設定 — 評価パイプラインを YAML で宣言。

弱み

OSS 寄与は部分的 — 核は SaaS。
agentic workflow の深いトレーシングは LangSmith が優位。

誰が使うか

プロダクトチームとエンジニアチームが共に LLM 品質を管理する中規模スタートアップ。英語圏でシェアを急拡大中。

9章 · Comet Opik (2025 年 3 月リリース) — OSS

最も新しく登場した OSS ツール。

一行定義

Comet ML が 2025 年 3 月にリリースした OSS の LLM 可観測性 + 評価。 Apache 2.0。

どう動くか

import opik
from opik import track

opik.configure(use_local=True)

@track
def answer(query: str) -> str:
    return llm_call(query)

use_local=True ならセルフホストインスタンスに送る。Comet cloud にも送れる。

強み

2025 年リリースなので最新の UX パターンが入っている — 後発ゆえ他ツールの良い所を吸収。
Comet の ML 実験追跡と同じ傘の下 — W&B Weave に似たポジショニング。
無料 SaaS 枠が太い。
Apache 2.0 — 本物の OSS。

弱み

エコシステムがまだ最小 — 後発組。
plugin / integration の数が Langfuse · LangSmith より少ない。

誰が使うか

Comet の既存 ML 顧客、そして「最新・OSS・最速スタート」の 3 つを揃って欲しい新規プロジェクト。

10章 · Vellum / PromptHub — プロンプト管理本格派

プロンプトをコードから分離するのが本業のツール。

Vellum — エンタープライズ向けプロンプト管理

プロンプトの GitHub。 バージョン · 環境 · デプロイ · A/B テスト · データセットが一箇所に。PM · CS · QA が直接プロンプトを触るワークフローに最適化。

プロンプトの git スタイルの diff と PR レビュー。
ワークフローエディタ (ビジュアルチェーンビルダー)。
本番トラフィックの一定比率に新プロンプトを canary。
大手顧客多数 (ヘルスケア · リーガル)。

PromptHub — 軽量版コラボ

Vellum より軽く、価格も安い。 小規模チームがプロンプトを git のように管理したいとき。

プロンプトライブラリ (共有 / 検索)。
A/B テスト。
多モデル比較 (同じプロンプトを OpenAI · Anthropic · Bedrock に同時送信)。

いつ専用 prompt ツールが必要になるか

ほとんどの小規模チームは LangSmith · Langfuse 内蔵のプロンプト機能で十分。次の時点で別ツールが要る。

プロンプトを 非エンジニアが直接編集 する (PM · CS が毎週プロンプトをチューニング)。
環境別 (dev · staging · prod) の 昇格ワークフロー が git だけでは足りない。
複数モデルに同じプロンプト を送り結果を並べて比較する。

3 つ揃えば Vellum、1~2 つなら PromptHub、どれも当てはまらなければ LangSmith · Langfuse 内蔵。

11章 · Portkey — AI Gateway + 可観測性

ゲートウェイ領域の代表格。

一行定義

OpenAI / Anthropic / Bedrock / Google / Azure / Together / 200 以上のプロバイダを統合する AI ゲートウェイ。 可観測性 · キャッシュ · fallback · rate limit · cost guard が全部入り。

どう動くか

OpenAI SDK の base_url を Portkey に向けて、ヘッダでルーティングルールを渡す。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.portkey.ai/v1",
    default_headers={
        "x-portkey-api-key": os.getenv("PORTKEY_API_KEY"),
        "x-portkey-config": "your-config-id",  # ルーティング・キャッシュ・リトライ規則
    },
)

config の中で「primary は GPT-4o、失敗時は Claude Sonnet 4.5 にフォールバック、同じ入力は 1 時間キャッシュ」のようなポリシーを宣言的に定義。

強み

複数プロバイダ統合 — 200 以上。
fallback / load balancing / canary がネイティブ。
semantic cache — 意味が同じ質問はキャッシュヒット。
可観測性がついてくる — 別ツール不要でトレーシング。
プロンプト管理も内蔵。

弱み

ゲートウェイがクリティカルパスに入る — プロキシの本質的弱点。リージョン選択が細かくなくレイテンシが乗ることがある。
Helicone · Langfuse ほどの可観測性の深さはない — 十分だが specialist には及ばない。

LiteLLM との比較

LiteLLM (OSS の SDK / プロキシ) が似た領域。違いは:

LiteLLM — Python ライブラリとして始まり、セルフホストゲートウェイもある。コアは 100% OSS。より軽量で hackable。
Portkey — SaaS 優先。UI · ポリシー管理 · 協業が中心。セルフホスト enterprise ティアあり。

スタートアップ / 個人は LiteLLM が多く、中規模以上は Portkey が多い。

12章 · TruLens / Ragas — RAG 評価の二大潮流

RAG が入ったシステムならほぼ必ずどちらか。

Ragas — RAG 評価メトリクスの事実上の標準

OSS。RAG の標準メトリクスをライブラリで。 最も引用される RAG 評価フレームワーク。

Faithfulness — 答えが retrieved context に実際に根拠しているか?
Answer Relevancy — 答えが質問に実際に答えているか?
Context Precision / Recall — retrieval は正しいか?
Context Entity Recall — 正解 entity が context に含まれているか?

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision

result = evaluate(
    dataset=eval_dataset,
    metrics=[faithfulness, answer_relevancy, context_precision],
)
print(result)

LangSmith · Langfuse · Athina など、ほぼすべての可観測性ツールが Ragas メトリクスを内蔵 evaluator として提供する。

TruLens — より広い評価 + トレーシング

TruEra (現 Snowflake) の OSS。 Ragas がメトリクスライブラリなら、TruLens はメトリクス + トレーシング + ダッシュボードを併せ持つ。

RAG Triad — Context Relevance · Groundedness · Answer Relevance。
トレーシング + 評価が同じツール。
ノートブック親和的。

Ragas と TruLens の選び方

別の可観測性ツール (LangSmith · Langfuse · Athina) を既に使っていてメトリクスだけ欲しい → Ragas。
可観測性ツール抜きで RAG 評価だけを高速に回したい → TruLens。
併用も普通 — Ragas メトリクスを TruLens 内から呼ぶ。

13章 · Galileo / Patronus AI / DeepEval — エンタープライズ評価

規制 · セキュリティ · SLA が重い組織向け。

Galileo — Generative AI Studio

本番グレードのハルシネーション · 安全性 · ドリフト監視。 Fortune 500 · 政府 · 金融。

Galileo Evaluate — pre-production 評価。
Galileo Observe — 本番トレーシング · 監視。
Galileo Protect — リアルタイム guardrail (PII · jailbreak · ハルシネーションブロック)。

Patronus AI — 自動評価 + 安全性

自動化された LLM 評価に特化。 Lynx (ハルシネーション検出器)、Glider、FinanceBench といった自社評価モデルを提供。

ユーザー定義 evaluator をプレーン英語で記述可能。
金融 · リーガル領域のベンチマークを自社で整備。

DeepEval (Confident AI) — pytest スタイルの LLM テスト

LLM の pytest。 開発者にとって最も親しみやすい API。

from deepeval import assert_test
from deepeval.test_case import LLMTestCase
from deepeval.metrics import AnswerRelevancyMetric

def test_answer_relevancy():
    test_case = LLMTestCase(
        input="What is the capital of France?",
        actual_output="The capital is Paris.",
    )
    metric = AnswerRelevancyMetric(threshold=0.7)
    assert_test(test_case, [metric])

CI で pytest のように回せる。Confident AI が結果を蓄積する SaaS ダッシュボード。

3 つの選び分け

金融 · リーガル + 自社ベンチマーク必要 → Patronus AI。
本番 guardrail まで 1 パッケージ → Galileo。
開発者が unit test のように LLM をテスト → DeepEval。

14章 · クラウドネイティブ — Bedrock Evals / Vertex AI Evaluation / OpenAI Evals

2025 年後半からクラウドビッグ 3 が本格進出した。

AWS Bedrock Evaluations

Bedrock 内でモデル · プロンプト · RAG を評価するマネージドサービス。

Model Evaluation — 同じデータセットで複数 Bedrock モデルを比較。
RAG Evaluation — Bedrock Knowledge Base と統合。retrieval + generation を同時評価。
LLM-as-judge + 人手評価 (Amazon Mechanical Turk 統合) の両対応。
Bedrock Guardrails と組み合わせて評価 → guardrail ポリシーに自動反映。

既に AWS にコミットしているチームの標準選択。

Vertex AI Evaluation Service (Google)

Gen AI Eval Service。 Vertex AI 内で Gemini · 3P モデルを評価。

pointwise · pairwise · rubric ベースのメトリクス。
Autoraters (LLM-as-judge) + カスタムメトリクス。
Vertex AI Pipelines と統合 — eval を CI ステップとして自動実行。

Gemini · PaLM を本番で使う企業の標準。

OpenAI Evals (ダッシュボード)

OpenAI Platform の Evals タブ。 2024 年から OSS で出ていた openai/evals が SaaS ダッシュボードに統合された。

Stored Completions ベースの評価 — 本番トラフィックの一部を自動で評価データセット化。
model graded eval が標準。
OpenAI Fine-tuning · Distillation と自然に連結。

Azure AI Studio Evaluations

Azure OpenAI の評価機能。PromptFlow と統合。Azure にコミットしたエンタープライズの標準。

クラウドネイティブの長所と短所

長所 — データが同じクラウド内に留まる (compliance · セキュリティ)、IAM · VPC · ロギングと自然に統合、別途 SaaS 契約不要。
短所 — マルチクラウド · マルチモデル比較が難しい (Bedrock Evals で OpenAI モデルは評価できない)、specialist ツールほど深くない、ベンダーロックインのリスク。

15章 · 韓国 / 日本 — トス · NAVER · Sakana · NTT つづみ

海外ツールばかりではない。韓国・日本の自前 LLM ops も急速に育っている。

韓国

トス (Toss) — LLM ops の内製
- 自前 LLM ゲートウェイ (PortkeyLite 相当)、自前プロンプトレジストリ、Langfuse をセルフホストしてトレーシング。
- 金融規制 (網分離) のため SaaS LLM ops ツールがほぼ使えず、OSS を閉域網にセルフホストするのが事実上の標準。
- 社内 RAG チャットボット (人事 · 法務 · CS) の品質測定のため Ragas メトリクスを内部ライブラリで wrap。
NAVER HCX 監視
- HyperCLOVA X (HCX) を自社運用する NAVER は自前監視スタック。社内 NSML / CLOVA Studio と統合。
- 社内 BizPlatform / CLOVA for Biz 顧客にプロンプト管理 · 評価を統合提供。
カカオ / クーパン / ライン — 全部、自前 + OSS (Langfuse / Phoenix) のハイブリッド。
国内 LLM スタートアップ — Upstage · Wrtn · DeepL などは LangSmith / Langfuse / Helicone を状況に応じて混用。

日本

Sakana AI — 自前モデル + 運用
- 自社モデル (EvoLLM · evo-ukiyoe など) の学習と評価に W&B · MLflow を併用。本番可観測性は Langfuse または自前ツール。
NTT つづみ — 通信キャリア運用の標準
- NTT の自社 LLM。通信キャリアコンプライアンスから自前監視スタック + OSS の ragas / langfuse のハイブリッド。
Mercari · CyberAgent · LINE ヤフー — LangSmith またはセルフホスト Langfuse。CyberAgent は自社学習モデルが多く W&B 比重が高い。
メガバンク (MUFG · SMBC · みずほ) — 外部 SaaS の使用は困難。AWS Bedrock + Bedrock Evals あるいは Azure OpenAI + Azure AI Studio が事実上の標準。

韓日共通パターン

金融 · 通信 · 公共領域では SaaS LLM ops の直接利用が難しく、OSS (Langfuse · Phoenix · Opik · Helicone) のセルフホストが事実上の標準。
B2C スタートアップは LangSmith · Helicone · Langfuse SaaS をそのまま使う。
データ主権 (data residency) がますます大きな意思決定要因に — 日本は東京リージョン、韓国はソウルリージョンの有無がほぼ最初の質問。

16章 · 誰が何を選ぶべきか — 4 ペルソナ

最後に意思決定ガイド。

ペルソナ 1 · 個人開発者 / インディーハック

条件 — 一人でサイドプロジェクトとして LLM アプリを作る。費用は最低限。

可観測性 — Helicone (無料枠が最も太い) または Langfuse Cloud (無料枠 50k トレース / 月)。
評価 — 必要時のみ Ragas ライブラリを直接。
プロンプト管理 — コード内 docstring で十分。LangSmith Prompts は無料。
ゲートウェイ — LiteLLM (Python ライブラリだけ、無料)。

ペルソナ 2 · Seed/Series A スタートアップ (5~50 人)

条件 — 本番トラフィックあり。高速反復。費用も気にする。

可観測性 — Langfuse SaaS (OSS、合理的価格) または LangSmith Plus。
評価 — Braintrust (eval-first 文化を強調) または Athina (PM も一緒に使いやすい UI)。
プロンプト管理 — LangSmith Prompts / Langfuse Prompts 内蔵から開始。
ゲートウェイ — Portkey または LiteLLM。fallback / キャッシュが効いてきたら。
RAG eval — Ragas メトリクスを上記ツールの evaluator として登録。

ペルソナ 3 · Series B+ / エンタープライズ

条件 — 規模が大きい。compliance · SOC2 · ISO 27001 が必要。SLA がそのまま売上。

可観測性 — LangSmith Enterprise またはセルフホスト Langfuse (データ主権)。本番 guardrail まで欲しければ Galileo。
評価 — Braintrust Enterprise + Patronus AI (ドメイン特化)。
プロンプト管理 — Vellum (PM · CS · QA が一緒に触るワークフロー)。
ゲートウェイ — Portkey Enterprise セルフホストまたは自前ゲートウェイ。
クラウドネイティブ — AWS なら Bedrock Evals、GCP なら Vertex AI Evaluation を追加。

ペルソナ 4 · RAG 優先組織

条件 — RAG がプロダクトの核。retrieval の品質が事業の品質。

可観測性 — Arize Phoenix (埋め込み可視化) または Langfuse。
評価 — Ragas メトリクスと TruLens の RAG Triad を両方回し、Braintrust で dataset · experiment 管理。
プロンプト管理 — Vellum のワークフローエディタが multi-step RAG チェーンに適合。
ゲートウェイ — Portkey の semantic cache が RAG 費用削減に決定的。

ツール選びの前に問う 5 つの質問

ツールを比較する前に、自分自身に問うべき 5 つ。

データ主権 — 自社データはどのリージョンに留まる必要があるか? (韓国 / 日本 / EU / 米国?)
OSS vs SaaS — セルフホスト運用する人員はいるか?
agentic workflow があるか? — あれば LangSmith · Langfuse が優位、なければ Helicone · Athina で十分。
PM · CS がプロンプトを直接触るか? — そうなら Vellum または LangSmith Prompts UI が決定的。
CI で自動 LLM 回帰テストを回すか? — そうなら Braintrust · DeepEval が優位。

17章 · おわりに — 「LLM を運用する」という言葉がある時代

2024 年時点では「LLM 運用」という言葉自体が違和感を持って受け止められていた。2026 年 5 月現在、LLM ops は立派な SRE の一分野になった。30 を超えるツールが競い、OpenTelemetry GenAI 規約が標準として定着し、クラウドビッグ 3 が自社評価サービスを出した。

本稿冒頭で投げた 5 つの問い — なぜ変な答えが出るのか、どう再現するか、誰がトークンを使ったか、どのテストが壊れたか、品質を自動で測れるか — に対する答えは、もうツールが提供できる。問題はどのツールを選ぶかだ。

最速で始めたいなら Helicone。
LangChain ファミリーなら LangSmith。
OSS · セルフホスト必須なら Langfuse か Phoenix か Opik。
評価が核なら Braintrust + Ragas。
複数プロバイダのトラフィック管理が必要なら Portkey か LiteLLM。
エンタープライズ guardrail まで含めて Galileo + Patronus。
クラウドネイティブなら Bedrock Evals / Vertex AI Evaluation。

ツールを使わない理由はもう存在しない。「プロンプトはコードだ。コードには監視とテストが必要だ。」これが 2026 年の新しい常識だ。次のモデル (GPT-5.5 · Claude Opus 5 · Gemini 3 Ultra · Llama 5) が来てもこのインフラはそのまま使える。モデルは変わっても運用の原則は変わらない。

参考 / References