💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 「LLM を立ち上げるのは簡単になった。運用するのが難しい」

2024年までは LLM を本番に乗せること自体が珍しいことだった。2026年5月、それはもう普通の出来事になった。OpenAI · Anthropic · Google · Mistral · DeepSeek · 韓国の HyperCLOVA X · 日本の Sakana · NTT つづみ — いずれも API 一本で呼べる。本当の難しさはその先にある。

- 昨日まで上手く答えていたモデルが今日は変な答えを返す。**なぜ?**

- 同じユーザーが同じ質問を 5 回投げて 5 回とも違う答えが返ってきた。**どうやって再現し、回帰テストにするか?**

- トークン費用が月 30 万円から急に 150 万円に跳ねた。**誰がどこでそんなに使ったのか?**

- プロンプトを 1 行変えたら 100 件のテストケースのうち 7 件が壊れた。**どの 7 件? 残り 93 件は影響なしか?**

- RAG システムの答えがどれだけ ground truth に近いか、faithfulness はいくつか — それを **自動で測れる**か?

この 5 つの問いが 2026 年の LLM ops のすべてだ。そして過去 2 年でこの問いそれぞれに答えるためのツールが一気に増えた。Helicone · LangSmith · Langfuse · W&B Weave · Arize Phoenix · Braintrust · Athina · Comet Opik · Vellum · PromptHub · Portkey · TruLens · Ragas · DeepEval · Galileo · Patronus AI · OpenAI Evals · Bedrock Evals · Vertex AI Evaluation Service — タイトルに並んだツール群がそれだ。

本稿は 2026 年 5 月時点の LLM ops 地図を描く。4 つの領域 (可観測性 · 評価 · プロンプト管理 · ゲートウェイ) に分類し、各ツールの強み・弱み・価格モデル・実際の現場事例を押さえる。最後に個人開発者・スタートアップ・エンタープライズ・RAG 優先組織の 4 つのペルソナで「何を選ぶべきか」を示す。

1章 · 2026 年の LLM ops 地図 — 4 領域分類

まず全体像。

4 領域 — 可観測性 / 評価 / プロンプト管理 / ゲートウェイ

LLM ops ツールは機能が重なり合うが、主要な価値提案で見ると 4 領域に分類できる。

| 領域 | 何をするか | 代表的なツール |

| --- | --- | --- |

| **可観測性** | すべての LLM 呼び出しをトレース / トークン・遅延・コスト・エラー監視 / デバッグ | Helicone, LangSmith, Langfuse, W&B Weave, Arize Phoenix, Comet Opik |

| **評価** | モデル出力の品質をデータセット・メトリック・LLM-as-judge で自動測定 | Braintrust, Athina, Ragas, TruLens, DeepEval, Galileo, Patronus AI |

| **プロンプト管理** | プロンプトのバージョン管理 / A·B テスト / 非エンジニア協業 / デプロイ | Vellum, PromptHub, LangSmith Prompts, Langfuse Prompts |

| **ゲートウェイ** | OpenAI / Anthropic / Bedrock など複数プロバイダのルーティング・キャッシュ・rate limit・fallback | Portkey, LiteLLM, Cloudflare AI Gateway |

ほとんどのツールが領域をまたぐ。LangSmith は可観測性も評価もプロンプトもやる。Langfuse も同じ。Portkey はゲートウェイが本業だが可観測性もやる。比較を難しくしている最大の理由がこの重なりだ。

2024 → 2026 の変化

2024 年初頭まで LangSmith が事実上唯一の選択肢だった。その後の 2 年間で市場が爆速で分化した。

- **2023~2024 年第一波** — Helicone (YC)・Langfuse・Braintrust・Athina・TruLens・Ragas が次々登場。LangChain が LangSmith を GA。

- **2024 年後半** — Comet が LLM 領域に本格進出。Arize は Phoenix を OSS として分離。Portkey と LiteLLM がゲートウェイとして定着。

- **2025 年 3 月** — Comet が Opik を正式 OSS としてリリース。Langfuse が Series A。

- **2025 年後半 ~ 2026 年初頭** — クラウドビッグ 3 が本格進出。Bedrock Evaluations · Vertex AI Evaluation Service · Azure AI Studio Evaluations。OpenAI も Evals ダッシュボードを強化。

- **2026 年現在** — ツールが 30 を超えた。「何を選ぶか」自体が最大の問いになった。

OpenTelemetry の台頭 — GenAI semantic conventions

2025 年後半に決定的な変化があった。OpenTelemetry の GenAI semantic conventions が事実上の標準になり、Langfuse · Phoenix · Helicone · Portkey · LangSmith がすべて OTel ベースの SDK を提供し始めた。つまり **SDK は一度入れたらバックエンドは差し替え可能** になった。これが今後 5 年の LLM ops で最大の変化だ。

2章 · Helicone — Y Combinator の OSS 可観測性

まず最速で始められるツールから。

一行定義

**Y Combinator W23 出身、OSS の LLM 可観測性。base URL を一行変えるだけ。** 業界最低の参入障壁。

どう動くか

Helicone の最大の特徴は **プロキシモード** だ。OpenAI SDK の `base_url` を `https://oai.helicone.ai/v1` に変えるだけで、すべての呼び出しが自動記録される。たった一行。

from openai import OpenAI

client = OpenAI(

base_url="https://oai.helicone.ai/v1",

default_headers={"Helicone-Auth": f"Bearer {os.getenv('HELICONE_API_KEY')}"},

)

この一行で次のものが自動で記録される。

- リクエスト / レスポンスの本文

- レイテンシ、time-to-first-token

- 入出力トークン数とコスト

- ユーザー ID・セッション・カスタムプロパティ (Helicone-User-Id のようなヘッダで渡す)

プロキシが不安なら非同期ロギング SDK もある。バックグラウンドで送る。

強み

- **導入コストゼロ** — base URL を一行。

- **OSS** — Apache 2.0。セルフホスト可能。

- **プロバイダ非依存** — OpenAI · Anthropic · Together · Anyscale · Bedrock 全部。

- **カスタムプロパティ** — ユーザー別・フィーチャーフラグ別・実験グループ別にスライス可能。

- **無料枠が太い** — 月 10 万リクエストまで無料。

弱み

- **プロキシがクリティカルパスに入る** — レイテンシが 1 ホップ増える (実測で通常 10ms 以内)。

- **評価機能は弱め** — LangSmith・Braintrust ほどの dataset / experiment 機能はない。

- **プロンプト管理は最小限** — Vellum・PromptHub ほど本格的ではない。

誰が使うか

スタートアップ・個人開発者が最多。「今すぐ本番トレースが必要、コード変更は最小化」のシナリオで圧倒的。韓国の一部 LLM スタートアップが PoC 段階で最初に入れるツールとして挙がる。

3章 · LangSmith — LangChain の旗艦

最も有名なツール。

一行定義

**LangChain が作った一体型 LLM ops プラットフォーム。** 可観測性 · 評価 · Prompts · Datasets を一箇所で。SaaS とセルフホスト (Enterprise) の両方。

どう動くか

LangChain · LangGraph を使えば環境変数 2 つで自動トレーシング。

export LANGSMITH_TRACING=true

export LANGSMITH_API_KEY=ls_...

LangChain を使わない場合は `@traceable` デコレータで任意の関数をトレースできる。

from langsmith import traceable

@traceable(run_type="llm")

def call_model(prompt: str) -> str:

任意のモデル呼び出し

...

強み

- **LangChain · LangGraph 統合が圧倒的** — 他のどのツールも追いつけない。agentic workflow の中間ステップトレーシングが自然。

- **評価が強力** — dataset 作成、LLM-as-judge、pairwise comparison、回帰テストが一箇所で。

- **Prompts Hub** — プロンプトのバージョン管理・共有。

- **本番グレード** — Fortune 500 の一部がセルフホストで運用。

弱み

- **高い** — 個人無料、Plus は 39 USD/シート/月、Enterprise は別見積り。

- **LangChain ファミリーへのロックインが強い** — 他ツールへの移行は容易でない。

- **UI が重い** — 小規模プロジェクトには過剰。

誰が使うか

LangChain · LangGraph を本番で使うチームの標準。韓国・日本の RAG チャットボット会社で LangChain スタックを選んだ所はほぼすべて LangSmith に課金している。

4章 · Langfuse — OSS、Series A

LangSmith の最強の OSS 代替。

一行定義

**MIT ライセンス OSS の LLM ops。セルフホストが本当に簡単。** 2025 年に Series A を調達し、この領域で最速成長中の OSS プロジェクト。

どう動くか

`docker compose up` 一発でセルフホスト版が立ち上がる。SDK は Python · TypeScript · OpenAI 自動トレーシング · LlamaIndex · LangChain すべて対応。

from langfuse.openai import openai # OpenAI の drop-in

response = openai.chat.completions.create(

model="gpt-4o",

messages=[{"role": "user", "content": "hi"}],

)

自動でトレースが生成される。手動でスパンを作ることもできる。

強み

- **本物の OSS** — MIT ライセンス、コア機能にエンタープライズゲーティングがほぼない。

- **セルフホストが本気で簡単** — docker compose だけで本番グレード。

- **可観測性 + 評価 + プロンプト + データセット** が 1 パッケージ。

- **プロンプト管理が意外と強い** — Langfuse Prompts は Vellum の軽量代替。

- **OpenTelemetry 互換** — 2025 年から OTel GenAI 規約のネイティブ対応。

弱み

- **UI のポリッシュが LangSmith・Braintrust より一歩遅い** — 急速にキャッチアップ中。

- **agentic workflow の可視化は LangSmith が一枚上手。**

- **クラウド版が EU にある** — 米国企業でレイテンシを気にするならセルフホスト推奨。

誰が使うか

OSS を好むすべてのチーム。韓国の一部フィンテック・ヘルスケア企業はデータ主権の都合からセルフホスト Langfuse を選ぶ。日本も同じ。

5章 · W&B Weave — Weights & Biases の LLM ライン

ML 側で W&B を使っていたチームが自然に流れていくツール。

一行定義

**Weights & Biases が作った LLM 可観測性・評価。** 既存 W&B の実験追跡と統合される。

どう動くか

`weave.init("project")` を一行打ってから `@weave.op` デコレータで関数をラップすれば自動トレーシング。

weave.init("my-rag-app")

@weave.op()

def answer(query: str) -> str:

docs = retrieve(query)

return generate(query, docs)

W&B の既存 UI 内に LLM トレースが現れる。

強み

- **W&B の ML 実験追跡と同じ傘の下** — fine-tuning · 評価 · サービングを一箇所で。

- **Evaluations が強力** — `weave.Evaluation` で dataset · scorer · モデルの組み合わせを高速に回せる。

- **エンタープライズの信頼** — 既存の W&B 顧客 (OpenAI · NVIDIA · Toyota) がそのまま使う。

弱み

- **W&B 外の利用者には学習コスト** — 既存の W&B 概念 (project · run) を知る必要がある。

- **無料枠は LangSmith・Helicone ほど太くない。**

- **純粋に LLM だけのチームには過剰** — ML も同時にやるならベスト。

誰が使うか

既に W&B を使っていた ML チーム。韓国・日本の大企業 AI ラボで自社モデル学習をする所が多く使う。

6章 · Arize Phoenix — OSS

ML 可観測性の名門 Arize が作った OSS の LLM ツール。

一行定義

**Arize AI が作った OSS の LLM 可観測性 + 評価。** ノートブックから本番まで同じツールで。

どう動くか

from phoenix.otel import register

tracer_provider = register(project_name="my-rag", auto_instrument=True)

OpenAI · LangChain · LlamaIndex の呼び出しが全部自動トレース

Phoenix の強みは **ノートブックですぐ立ち上げられる** こと。`px.launch_app()` でローカルに UI が起動する。

強み

- **ノートブック親和的** — 実験段階で最軽量に開始。

- **OpenTelemetry GenAI 規約ネイティブ。**

- **埋め込み・RAG 可視化が強力** — UMAP で埋め込みクラスタを可視化する機能は他ではあまり見ない。

- **Arize の本番ティアに自然に接続** — PoC は Phoenix、本番は Arize。

弱み

- **UI が LangSmith・Braintrust より ML カルチャー寄り** — 普通のバックエンド開発者には参入障壁。

- **プロンプト管理は基礎的。**

誰が使うか

データサイエンス出身の ML エンジニア。RAG デバッグ (どのチャンクが誤って retrieve されたかの可視化) が必要なチーム。

7章 · Braintrust — 評価特化

評価が最重要なチームなら第一候補。

一行定義

**評価を最優先に置く LLM ops プラットフォーム。** Stripe · Notion · Vercel のような会社が使う。2024 年に大型ラウンド。

どう動くか

Braintrust の核となる抽象は **Eval**。dataset · task · scorer の組み合わせで実験を回す。

Eval("MyRagApp", {

data: () => [

{ input: "What is the capital of France?", expected: "Paris" },

task: async (input) => myRagPipeline(input),

scores: [Factuality, AnswerRelevancy],

});

`braintrust eval` で回すとスコアが時系列で蓄積され、モデル・プロンプト変更の影響がすぐに比較できる。

強み

- **Eval-first の思考様式** — 「プロンプトはコードだ。コードにはテストがあるべきだ」を最もよく実装している。

- **Playground が本当に良い** — プロンプト / モデル / データセットを高速比較。

- **Loop (LLM-as-judge 自動チューニング)** — judge 自体のキャリブレーションを自動化。

- **TypeScript / Python SDK が両方一級。**

弱み

- **有料優先** — 無料枠はあるが本格利用には課金が必要。

- **可観測性だけ欲しいチームには少し過剰。**

誰が使うか

Stripe · Notion · Vercel · Airtable のような米国プロダクト企業。「プロンプトを PR 単位で自動評価しないと本番に出せない」が文化として根付いたチーム。

8章 · Athina — 急成長

評価・可観測性・dataset を 1 パッケージにまとめた急成長株。

一行定義

**ダッシュボードが綺麗で 50 以上の事前定義 evaluator を内蔵した LLM ops。** 参入が容易。

どう動くか

from athina.loaders import Loader

from athina.evals import Faithfulness

data = Loader().load_csv("eval_data.csv")

Faithfulness(model="gpt-4o").run_batch(data=data).to_df()

あるいは SDK で本番トレースを送り、ダッシュボードで evaluator を自動実行させる。

強み

- **事前定義 evaluator が多い** — Faithfulness · Context Precision · Toxicity · PII Detection など。

- **非エンジニア親和的なダッシュボード** — PM が直接入ってデータセット・ラベルを作れる。

- **YAML 設定** — 評価パイプラインを YAML で宣言。

弱み

- **OSS 寄与は部分的** — 核は SaaS。

- **agentic workflow の深いトレーシングは LangSmith が優位。**

誰が使うか

プロダクトチームとエンジニアチームが共に LLM 品質を管理する中規模スタートアップ。英語圏でシェアを急拡大中。

9章 · Comet Opik (2025 年 3 月リリース) — OSS

最も新しく登場した OSS ツール。

一行定義

**Comet ML が 2025 年 3 月にリリースした OSS の LLM 可観測性 + 評価。** Apache 2.0。

どう動くか

from opik import track

opik.configure(use_local=True)

@track

def answer(query: str) -> str:

return llm_call(query)

`use_local=True` ならセルフホストインスタンスに送る。Comet cloud にも送れる。

強み

- **2025 年リリースなので最新の UX パターンが入っている** — 後発ゆえ他ツールの良い所を吸収。

- **Comet の ML 実験追跡と同じ傘の下** — W&B Weave に似たポジショニング。

- **無料 SaaS 枠が太い。**

- **Apache 2.0** — 本物の OSS。

弱み

- **エコシステムがまだ最小** — 後発組。

- **plugin / integration の数が Langfuse · LangSmith より少ない。**

誰が使うか

Comet の既存 ML 顧客、そして「最新・OSS・最速スタート」の 3 つを揃って欲しい新規プロジェクト。

10章 · Vellum / PromptHub — プロンプト管理本格派

プロンプトをコードから分離するのが本業のツール。

Vellum — エンタープライズ向けプロンプト管理

**プロンプトの GitHub。** バージョン · 環境 · デプロイ · A/B テスト · データセットが一箇所に。PM · CS · QA が直接プロンプトを触るワークフローに最適化。

- プロンプトの git スタイルの diff と PR レビュー。

- ワークフローエディタ (ビジュアルチェーンビルダー)。

- 本番トラフィックの一定比率に新プロンプトを canary。

- 大手顧客多数 (ヘルスケア · リーガル)。

PromptHub — 軽量版コラボ

**Vellum より軽く、価格も安い。** 小規模チームがプロンプトを git のように管理したいとき。

- プロンプトライブラリ (共有 / 検索)。

- A/B テスト。

- 多モデル比較 (同じプロンプトを OpenAI · Anthropic · Bedrock に同時送信)。

いつ専用 prompt ツールが必要になるか

ほとんどの小規模チームは LangSmith · Langfuse 内蔵のプロンプト機能で十分。次の時点で別ツールが要る。

- プロンプトを **非エンジニアが直接編集** する (PM · CS が毎週プロンプトをチューニング)。

- 環境別 (dev · staging · prod) の **昇格ワークフロー** が git だけでは足りない。

- **複数モデルに同じプロンプト** を送り結果を並べて比較する。

3 つ揃えば Vellum、1~2 つなら PromptHub、どれも当てはまらなければ LangSmith · Langfuse 内蔵。

11章 · Portkey — AI Gateway + 可観測性

ゲートウェイ領域の代表格。

一行定義

**OpenAI / Anthropic / Bedrock / Google / Azure / Together / 200 以上のプロバイダを統合する AI ゲートウェイ。** 可観測性 · キャッシュ · fallback · rate limit · cost guard が全部入り。

どう動くか

OpenAI SDK の `base_url` を Portkey に向けて、ヘッダでルーティングルールを渡す。

from openai import OpenAI

client = OpenAI(

base_url="https://api.portkey.ai/v1",

default_headers={

"x-portkey-api-key": os.getenv("PORTKEY_API_KEY"),

"x-portkey-config": "your-config-id", # ルーティング・キャッシュ・リトライ規則

)

config の中で「primary は GPT-4o、失敗時は Claude Sonnet 4.5 にフォールバック、同じ入力は 1 時間キャッシュ」のようなポリシーを宣言的に定義。

強み

- **複数プロバイダ統合** — 200 以上。

- **fallback / load balancing / canary** がネイティブ。

- **semantic cache** — 意味が同じ質問はキャッシュヒット。

- **可観測性がついてくる** — 別ツール不要でトレーシング。

- **プロンプト管理も内蔵。**

弱み

- **ゲートウェイがクリティカルパスに入る** — プロキシの本質的弱点。リージョン選択が細かくなくレイテンシが乗ることがある。

- **Helicone · Langfuse ほどの可観測性の深さはない** — 十分だが specialist には及ばない。

LiteLLM との比較

LiteLLM (OSS の SDK / プロキシ) が似た領域。違いは:

- **LiteLLM** — Python ライブラリとして始まり、セルフホストゲートウェイもある。コアは 100% OSS。より軽量で hackable。

- **Portkey** — SaaS 優先。UI · ポリシー管理 · 協業が中心。セルフホスト enterprise ティアあり。

スタートアップ / 個人は LiteLLM が多く、中規模以上は Portkey が多い。

12章 · TruLens / Ragas — RAG 評価の二大潮流

RAG が入ったシステムならほぼ必ずどちらか。

Ragas — RAG 評価メトリクスの事実上の標準

**OSS。RAG の標準メトリクスをライブラリで。** 最も引用される RAG 評価フレームワーク。

- **Faithfulness** — 答えが retrieved context に実際に根拠しているか?

- **Answer Relevancy** — 答えが質問に実際に答えているか?

- **Context Precision / Recall** — retrieval は正しいか?

- **Context Entity Recall** — 正解 entity が context に含まれているか?

from ragas import evaluate

from ragas.metrics import faithfulness, answer_relevancy, context_precision

result = evaluate(

dataset=eval_dataset,

metrics=[faithfulness, answer_relevancy, context_precision],

)

print(result)

LangSmith · Langfuse · Athina など、ほぼすべての可観測性ツールが Ragas メトリクスを内蔵 evaluator として提供する。

TruLens — より広い評価 + トレーシング

**TruEra (現 Snowflake) の OSS。** Ragas がメトリクスライブラリなら、TruLens はメトリクス + トレーシング + ダッシュボードを併せ持つ。

- **RAG Triad** — Context Relevance · Groundedness · Answer Relevance。

- トレーシング + 評価が同じツール。

- ノートブック親和的。

Ragas と TruLens の選び方

- 別の可観測性ツール (LangSmith · Langfuse · Athina) を既に使っていてメトリクスだけ欲しい → **Ragas**。

- 可観測性ツール抜きで RAG 評価だけを高速に回したい → **TruLens**。

- 併用も普通 — Ragas メトリクスを TruLens 内から呼ぶ。

13章 · Galileo / Patronus AI / DeepEval — エンタープライズ評価

規制 · セキュリティ · SLA が重い組織向け。

Galileo — Generative AI Studio

**本番グレードのハルシネーション · 安全性 · ドリフト監視。** Fortune 500 · 政府 · 金融。

- **Galileo Evaluate** — pre-production 評価。

- **Galileo Observe** — 本番トレーシング · 監視。

- **Galileo Protect** — リアルタイム guardrail (PII · jailbreak · ハルシネーションブロック)。

Patronus AI — 自動評価 + 安全性

**自動化された LLM 評価に特化。** Lynx (ハルシネーション検出器)、Glider、FinanceBench といった自社評価モデルを提供。

- ユーザー定義 evaluator をプレーン英語で記述可能。

- 金融 · リーガル領域のベンチマークを自社で整備。

DeepEval (Confident AI) — pytest スタイルの LLM テスト

**LLM の pytest。** 開発者にとって最も親しみやすい API。

from deepeval import assert_test

from deepeval.test_case import LLMTestCase

from deepeval.metrics import AnswerRelevancyMetric

def test_answer_relevancy():

test_case = LLMTestCase(

input="What is the capital of France?",

actual_output="The capital is Paris.",

)

metric = AnswerRelevancyMetric(threshold=0.7)

assert_test(test_case, [metric])

CI で `pytest` のように回せる。Confident AI が結果を蓄積する SaaS ダッシュボード。

3 つの選び分け

- **金融 · リーガル + 自社ベンチマーク必要** → Patronus AI。

- **本番 guardrail まで 1 パッケージ** → Galileo。

- **開発者が unit test のように LLM をテスト** → DeepEval。

14章 · クラウドネイティブ — Bedrock Evals / Vertex AI Evaluation / OpenAI Evals

2025 年後半からクラウドビッグ 3 が本格進出した。

AWS Bedrock Evaluations

**Bedrock 内でモデル · プロンプト · RAG を評価するマネージドサービス。**

- **Model Evaluation** — 同じデータセットで複数 Bedrock モデルを比較。

- **RAG Evaluation** — Bedrock Knowledge Base と統合。retrieval + generation を同時評価。

- **LLM-as-judge** + 人手評価 (Amazon Mechanical Turk 統合) の両対応。

- **Bedrock Guardrails** と組み合わせて評価 → guardrail ポリシーに自動反映。

既に AWS にコミットしているチームの標準選択。

Vertex AI Evaluation Service (Google)

**Gen AI Eval Service。** Vertex AI 内で Gemini · 3P モデルを評価。

- pointwise · pairwise · rubric ベースのメトリクス。

- Autoraters (LLM-as-judge) + カスタムメトリクス。

- Vertex AI Pipelines と統合 — eval を CI ステップとして自動実行。

Gemini · PaLM を本番で使う企業の標準。

OpenAI Evals (ダッシュボード)

**OpenAI Platform の Evals タブ。** 2024 年から OSS で出ていた `openai/evals` が SaaS ダッシュボードに統合された。

- Stored Completions ベースの評価 — 本番トラフィックの一部を自動で評価データセット化。

- model graded eval が標準。

- OpenAI Fine-tuning · Distillation と自然に連結。

Azure AI Studio Evaluations

Azure OpenAI の評価機能。PromptFlow と統合。Azure にコミットしたエンタープライズの標準。

クラウドネイティブの長所と短所

- **長所** — データが同じクラウド内に留まる (compliance · セキュリティ)、IAM · VPC · ロギングと自然に統合、別途 SaaS 契約不要。

- **短所** — マルチクラウド · マルチモデル比較が難しい (Bedrock Evals で OpenAI モデルは評価できない)、specialist ツールほど深くない、ベンダーロックインのリスク。

15章 · 韓国 / 日本 — トス · NAVER · Sakana · NTT つづみ

海外ツールばかりではない。韓国・日本の自前 LLM ops も急速に育っている。

韓国

- **トス (Toss) — LLM ops の内製**

- 自前 LLM ゲートウェイ (PortkeyLite 相当)、自前プロンプトレジストリ、Langfuse をセルフホストしてトレーシング。

- 金融規制 (網分離) のため SaaS LLM ops ツールがほぼ使えず、OSS を閉域網にセルフホストするのが事実上の標準。

- 社内 RAG チャットボット (人事 · 法務 · CS) の品質測定のため Ragas メトリクスを内部ライブラリで wrap。

- **NAVER HCX 監視**

- HyperCLOVA X (HCX) を自社運用する NAVER は自前監視スタック。社内 NSML / CLOVA Studio と統合。

- 社内 BizPlatform / CLOVA for Biz 顧客にプロンプト管理 · 評価を統合提供。

- **カカオ / クーパン / ライン** — 全部、自前 + OSS (Langfuse / Phoenix) のハイブリッド。

- **国内 LLM スタートアップ** — Upstage · Wrtn · DeepL などは LangSmith / Langfuse / Helicone を状況に応じて混用。

日本

- **Sakana AI — 自前モデル + 運用**

- 自社モデル (EvoLLM · evo-ukiyoe など) の学習と評価に W&B · MLflow を併用。本番可観測性は Langfuse または自前ツール。

- **NTT つづみ — 通信キャリア運用の標準**

- NTT の自社 LLM。通信キャリアコンプライアンスから自前監視スタック + OSS の ragas / langfuse のハイブリッド。

- **Mercari · CyberAgent · LINE ヤフー** — LangSmith またはセルフホスト Langfuse。CyberAgent は自社学習モデルが多く W&B 比重が高い。

- **メガバンク (MUFG · SMBC · みずほ)** — 外部 SaaS の使用は困難。AWS Bedrock + Bedrock Evals あるいは Azure OpenAI + Azure AI Studio が事実上の標準。

韓日共通パターン

- 金融 · 通信 · 公共領域では SaaS LLM ops の直接利用が難しく、OSS (Langfuse · Phoenix · Opik · Helicone) のセルフホストが事実上の標準。

- B2C スタートアップは LangSmith · Helicone · Langfuse SaaS をそのまま使う。

- **データ主権 (data residency)** がますます大きな意思決定要因に — 日本は東京リージョン、韓国はソウルリージョンの有無がほぼ最初の質問。

16章 · 誰が何を選ぶべきか — 4 ペルソナ

最後に意思決定ガイド。

ペルソナ 1 · 個人開発者 / インディーハック

**条件** — 一人でサイドプロジェクトとして LLM アプリを作る。費用は最低限。

- **可観測性** — Helicone (無料枠が最も太い) または Langfuse Cloud (無料枠 50k トレース / 月)。

- **評価** — 必要時のみ Ragas ライブラリを直接。

- **プロンプト管理** — コード内 docstring で十分。LangSmith Prompts は無料。

- **ゲートウェイ** — LiteLLM (Python ライブラリだけ、無料)。

ペルソナ 2 · Seed/Series A スタートアップ (5~50 人)

**条件** — 本番トラフィックあり。高速反復。費用も気にする。

- **可観測性** — Langfuse SaaS (OSS、合理的価格) または LangSmith Plus。

- **評価** — Braintrust (eval-first 文化を強調) または Athina (PM も一緒に使いやすい UI)。

- **プロンプト管理** — LangSmith Prompts / Langfuse Prompts 内蔵から開始。

- **ゲートウェイ** — Portkey または LiteLLM。fallback / キャッシュが効いてきたら。

- **RAG eval** — Ragas メトリクスを上記ツールの evaluator として登録。

ペルソナ 3 · Series B+ / エンタープライズ

**条件** — 規模が大きい。compliance · SOC2 · ISO 27001 が必要。SLA がそのまま売上。

- **可観測性** — LangSmith Enterprise またはセルフホスト Langfuse (データ主権)。本番 guardrail まで欲しければ Galileo。

- **評価** — Braintrust Enterprise + Patronus AI (ドメイン特化)。

- **プロンプト管理** — Vellum (PM · CS · QA が一緒に触るワークフロー)。

- **ゲートウェイ** — Portkey Enterprise セルフホストまたは自前ゲートウェイ。

- **クラウドネイティブ** — AWS なら Bedrock Evals、GCP なら Vertex AI Evaluation を追加。

ペルソナ 4 · RAG 優先組織

**条件** — RAG がプロダクトの核。retrieval の品質が事業の品質。

- **可観測性** — Arize Phoenix (埋め込み可視化) または Langfuse。

- **評価** — Ragas メトリクスと TruLens の RAG Triad を両方回し、Braintrust で dataset · experiment 管理。

- **プロンプト管理** — Vellum のワークフローエディタが multi-step RAG チェーンに適合。

- **ゲートウェイ** — Portkey の semantic cache が RAG 費用削減に決定的。

ツール選びの前に問う 5 つの質問

ツールを比較する前に、自分自身に問うべき 5 つ。

1. **データ主権** — 自社データはどのリージョンに留まる必要があるか? (韓国 / 日本 / EU / 米国?)

2. **OSS vs SaaS** — セルフホスト運用する人員はいるか?

3. **agentic workflow があるか?** — あれば LangSmith · Langfuse が優位、なければ Helicone · Athina で十分。

4. **PM · CS がプロンプトを直接触るか?** — そうなら Vellum または LangSmith Prompts UI が決定的。

5. **CI で自動 LLM 回帰テストを回すか?** — そうなら Braintrust · DeepEval が優位。

17章 · おわりに — 「LLM を運用する」という言葉がある時代

2024 年時点では「LLM 運用」という言葉自体が違和感を持って受け止められていた。2026 年 5 月現在、LLM ops は立派な SRE の一分野になった。30 を超えるツールが競い、OpenTelemetry GenAI 規約が標準として定着し、クラウドビッグ 3 が自社評価サービスを出した。

本稿冒頭で投げた 5 つの問い — なぜ変な答えが出るのか、どう再現するか、誰がトークンを使ったか、どのテストが壊れたか、品質を自動で測れるか — に対する答えは、もうツールが提供できる。問題はどのツールを選ぶかだ。

- 最速で始めたいなら **Helicone**。

- LangChain ファミリーなら **LangSmith**。

- OSS · セルフホスト必須なら **Langfuse** か **Phoenix** か **Opik**。

- 評価が核なら **Braintrust** + **Ragas**。

- 複数プロバイダのトラフィック管理が必要なら **Portkey** か **LiteLLM**。

- エンタープライズ guardrail まで含めて **Galileo** + **Patronus**。

- クラウドネイティブなら **Bedrock Evals** / **Vertex AI Evaluation**。

ツールを使わない理由はもう存在しない。「プロンプトはコードだ。コードには監視とテストが必要だ。」これが 2026 年の新しい常識だ。次のモデル (GPT-5.5 · Claude Opus 5 · Gemini 3 Ultra · Llama 5) が来てもこのインフラはそのまま使える。モデルは変わっても運用の原則は変わらない。

参考 / References

Observability — 一体型

- Helicone — [https://www.helicone.ai/](https://www.helicone.ai/)

- LangSmith — [https://www.langchain.com/langsmith](https://www.langchain.com/langsmith)

- Langfuse — [https://langfuse.com/](https://langfuse.com/)

- W&B Weave — [https://wandb.ai/site/weave](https://wandb.ai/site/weave)

- Arize Phoenix — [https://phoenix.arize.com/](https://phoenix.arize.com/)

- Comet Opik — [https://www.comet.com/site/products/opik/](https://www.comet.com/site/products/opik/)

Evaluation 特化

- Braintrust — [https://www.braintrust.dev/](https://www.braintrust.dev/)

- Athina — [https://athina.ai/](https://athina.ai/)

- Ragas — [https://docs.ragas.io/](https://docs.ragas.io/)

- TruLens — [https://www.trulens.org/](https://www.trulens.org/)

- DeepEval (Confident AI) — [https://docs.confident-ai.com/](https://docs.confident-ai.com/)

- Galileo — [https://www.galileo.ai/](https://www.galileo.ai/)

- Patronus AI — [https://www.patronus.ai/](https://www.patronus.ai/)

プロンプト管理

- Vellum — [https://www.vellum.ai/](https://www.vellum.ai/)

- PromptHub — [https://www.prompthub.us/](https://www.prompthub.us/)

- LangChain Studio — [https://www.langchain.com/langgraph-studio](https://www.langchain.com/langgraph-studio)

ゲートウェイ

- Portkey — [https://portkey.ai/](https://portkey.ai/)

- LiteLLM — [https://www.litellm.ai/](https://www.litellm.ai/)

- Cloudflare AI Gateway — [https://developers.cloudflare.com/ai-gateway/](https://developers.cloudflare.com/ai-gateway/)

クラウドネイティブ eval

- AWS Bedrock Evaluations — [https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html](https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html)

- Vertex AI Generative AI Evaluation Service — [https://cloud.google.com/vertex-ai/generative-ai/docs/models/evaluation-overview](https://cloud.google.com/vertex-ai/generative-ai/docs/models/evaluation-overview)

- OpenAI Evals (open source) — [https://github.com/openai/evals](https://github.com/openai/evals)

- Azure AI Studio Evaluations — [https://learn.microsoft.com/en-us/azure/ai-studio/concepts/evaluation-approach-gen-ai](https://learn.microsoft.com/en-us/azure/ai-studio/concepts/evaluation-approach-gen-ai)

標準 / 仕様

- OpenTelemetry GenAI semantic conventions — [https://opentelemetry.io/docs/specs/semconv/gen-ai/](https://opentelemetry.io/docs/specs/semconv/gen-ai/)

韓国・日本

- トス Tech ブログ — [https://toss.tech/](https://toss.tech/)

- NAVER HyperCLOVA X — [https://clova.ai/hyperclova](https://clova.ai/hyperclova)

- Sakana AI — [https://sakana.ai/](https://sakana.ai/)

- NTT つづみ — [https://www.rd.ntt/e/research/JN20231101_h.html](https://www.rd.ntt/e/research/JN20231101_h.html)

- CyberAgent AI Lab — [https://research.cyberagent.ai/](https://research.cyberagent.ai/)