Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 「あの文書どこにあるの?」は2026年でも解決されていない問題だ

毎日会社で最もよく聞く言葉の一つ。

PM: 「先四半期のOKRレトロどこだっけ?」

エンジニア: 「Confluenceのどこか... それともNotion?」

PM: 「誰かがSlackで共有した気がする。」

エンジニア: 「検索しても出ない。」

2026年、AIモデルは博士試験レベルの推論をしてコードを書くが、**自分の会社の中で昨日見た文書を探す仕事**はまだ未解決だ。社内の知識はSlack・Confluence・Drive・Notion・Jira・SharePoint・Salesforce・Zendesk・GitHubに散らばっていて、各ツールの検索は自分の中だけ見る。従業員の平均検索時間はIDC推定で週9.3時間 — 1週間の1/4だ。

この記事は2026年現在の**エンタープライズAI検索 & 知識プラットフォーム**の全体地図を描く。RAG over corporate dataがどう従業員の生産性を変えるか、Glean・Microsoft 365 Copilot・Atlassian Rovo・Notion Atlas・Slack AIなど主要プレイヤーがどこに位置するか、オープンソースRAGはどこまで来たか、RAGアーキテクチャスタックをどう組むか、そして我々のチームがビルドするか買うかをどう決めるかまで。

1章 · なぜエンタープライズAI検索が2026年最もホットな市場なのか

理由は単純だ。**社内の知識サイロは最も高価な問題で、RAGが初めてそれを解けるようになった。**

3つの流れが重なった。

第一、**知識分散の加速。**平均的なミッドサイズ会社は200〜500のSaaSツールを使う。OktaのBusinesses at Work 2025レポートは従業員あたり平均22.6のアプリを使うと報告した。各ツールは自分の検索を持っていて、統合されない。

第二、**埋め込みとLLMのコストカーブ。**OpenAI text-embedding-3-smallは100万トークンあたり0.02ドル。Cohere Embed v3も同様。Llama 4 Maverickはセルフホスト可能。2022年にはRAGインデックスを作るにはコストが合わなかったが、2026年には100万文書を埋め込んでも数十ドルだ。

第三、**権限保持の成熟。**エンタープライズは「自分が見られない文書をAIが答えに混ぜてはいけない」が絶対条件。Glean・Microsoft・Atlassianがインデックス時点でACLを保持し、クエリ時点で検査するパターンを2024〜2025年に標準化した。

この3つが合わさって市場が爆発した。Gleanは2024年に2.6億ドルを46億ドルの評価額で調達し、Microsoft Copilotは2024年末時点でFortune 500の70%以上が導入したと発表。

2章 · Glean — リーダー、エンタープライズ標準になりつつある

Gleanは2019年、元Google検索エンジニアたちが起業。最初から**エンタープライズ検索オンリー**で開始し、2023年にLLM時代が来ると自然にRAGレイヤーを乗せた。

**コアバリュー提案3つ。**

1. **100+コネクター** — Google Drive、OneDrive、SharePoint、Box、Dropbox、Slack、Teams、Jira、Confluence、Linear、GitHub、Salesforce、HubSpot、Zendesk、Notion、Asana、Monday、Gmail、Outlook。ほぼ全てのエンタープライズSaaSをカバー。

2. **ACL保持** — 各ソースの権限をインデックス時点で取得し、クエリ時点で検査。「私が見られない文書が答えに入らない」の標準実装。

3. **Glean Apps** — 検索の上にワークフローアプリを乗せるプラットフォーム。営業の「このアカウント最後のコンタクトは?」、エンジニアリングの「このサービスのオーナーは?」のような質問をワークフローに束ねる。

**価格。**公開価格リストなし。通常席あたり月40〜80ドル。500席以上なら交渉可能。SOC 2 Type II、ISO 27001、GDPR準拠。

**弱点。**高い。小さな会社には合わない。そして韓国・日本のエンタープライズツールコネクターは弱い(Channel Talk、Cybozu Garoonなど)。

3章 · Microsoft 365 Copilot — 最大の配信チャネル

Microsoft 365 Copilotは2023年リリース、2024年GA。**席あたり月30ドル**、年間コミット。M365ライセンスの上のアドオンだ。

**コア構造 — Microsoft Graphが全てを統べる。**Outlook・Teams・SharePoint・OneDrive・Loop・Plannerの全データは既にGraphにある。CopilotはGraphにRAGを乗せた形。

**Copilot Studio + Copilot Connectors。**外部データ(Salesforce、ServiceNow、Workday、Jira)をGraphに持ち込むコネクター。2024年末に100+コネクター正式公開。Microsoftが事実上「エンタープライズ検索のOS」になろうとする戦略。

**長所。**既にM365を使う会社に最も自然だ。SSO・DLP・Purview・Sensitivity Labelsが全て統合。EU Data Boundary保証(データをEU外に出さない)。

**弱点。**「Graphの中にあるものをよく扱う」。外部データはCopilot Connectorsで持ち込まなければならず、Gleanよりコネクターカタログが小さい。そして「ハルシネーション」事例が最も話題になる — Microsoftが最大の配信だからだが、安定性はGleanの方が評価が良い。

4章 · Atlassian Rovo — Jira・Confluence・Bitbucketを束ねる

Atlassian Rovoは2024年発表、2024年末GA。Atlassianのエンタープライズ検索 + AIエージェントレイヤー。

**コアバリュー。**Jira・Confluence・Bitbucket・Trelloデータを一箇所で検索。そして外部コネクター(Google Drive、Microsoft 365、GitHub、Slack、Figma、Notion)30+で拡張。

**Rovo Agents。**検索だけでなく「エージェント」 — コードレビューエージェント、リリースノート作成エージェント、ミーティング要約エージェント。Atlassianが自社エージェントを作り、ユーザーがカスタムエージェントを作れるプラットフォーム。

**価格。**Atlassian Cloud Premium・Enterpriseに含まれる段階に進行中。スタンドアロンSKUもあり(席あたり月20ドル推定)。

**長所。**Atlassianを使う会社(多くのエンジニアリング組織)に自然。データガバナンスはAtlassian Cloudの標準。

**弱点。**Atlassianデータでない外部SaaSの深さはGleanより浅い。

5章 · Notion AI + Notion Atlas — コラボレーション文書の検索進化

Notion AIは2023年リリース、最初は文書作成補助。2024年から**Notion Atlas**という名前で他のソース(Slack、Google Drive、Linear、Jira、GitHub、Figma)まで検索を拡張。

**Atlasの意味。**「Notion内の文書 + 外部データを一つの検索バーで」。Gleanのミニ版のようなポジション。Notionが既に会社のwiki・企画・OKRハブの場所で自然。

**価格。**Business席あたり月15ドル、Enterprise交渉。Notion AIは追加月10ドルほど。

**長所。**Notionをwikiとして使うスタートアップ・ミッドサイズに最も自然。UXがクリーン。

**弱点。**大企業エンタープライズSaaSコネクター(Salesforce、Workday、ServiceNow)はGleanより浅い。

6章 · Slack AI — チャネルこそ知識ベースという仮定

Slack AIは2024年GA。**席あたり月10ドルアドオン**、Slackビジネス/エンタープライズプランの上。

**機能4つ。**

1. **チャネル要約** — 見逃したメッセージ1週間分を要約。

2. **スレッド要約** — 長いスレッドを一段落に。

3. **AI検索** — 「先週Aプロジェクトの決定事項は?」のような自然言語クエリ。

4. **ミーティングノート** — Huddle録音 + 要約。

**コア仮定。**「会社のリアルタイムの知識はSlackにある」。決定・ディスカッション・引き継ぎがチャネルで起こるという仮定の上に作られたツール。

**長所。**Slackユーザーに最も自然。別ツールの導入なしにオンするだけ。データがSlackの外に出ない。

**弱点。**Slackの中に閉じ込められている。他のツールの文書は見られない。Slack AI + Gleanを一緒に使う会社が多い — Slack AIはチャネル要約用、Gleanは全社検索用。

7章 · Google Workspace + Gemini for Workspace — Googleの答え

Gemini for Workspaceは2024年GA。**席あたり月20ドル**(Business Standardの上のアドオン、Enterpriseはもっと高い)。

**機能。**Gmail・Docs・Slides・Sheetsの中でGemini。そして**Workspace全体検索** — Drive・Gmail・Calendarを一箇所で。

**コネクター。**Microsoftより外部コネクターが弱い。Salesforce・Jira・HubSpot程度。Googleがこの点を強化中だが2026年5月時点でMicrosoft・Gleanより浅い。

**長所。**Google Workspaceを使うところに自然。価格がM365 Copilotより安い。Gemini 1.5 Pro/2.5 Proの大きなコンテキストウィンドウ(1M〜2Mトークン)を活用した長文書処理。

**弱点。**外部コネクターの深さ。そしてWorkspaceを使わない会社にはオプションでない。

8章 · Guru — wiki + AI提案の結合

Guruはwikiをコアに始めた会社。2024〜2025年にAI検索・自動提案を強化。

**コアバリュー。**「Knowledge Cards」という単位で短く検証された答えを作り、AIがSlack・ブラウザ・CRMでコンテキストに合わせてカードを提案。

**いつ合うか。**営業・カスタマーサポートのように「検証された短い答え」が重要なチーム。Gleanより軽い。

**価格。**Builder席あたり月15ドル、Enterprise交渉。

9章 · Coveo — エンタープライズ + コマース検索の両股

Coveoはカナダの会社、1996年創業。エンタープライズ検索(従業員用)とコマース検索(顧客用)2市場を同時にやる。

**コマース側。**Shopify Plus・Salesforce Commerce Cloud・Adobe Commerceの上に検索・レコメンデーション。Algolia競合。

**エンタープライズ側。**Salesforce Service Cloudのカスタマーサポート検索、従業員イントラネット検索。

**AI。**Coveo Relevance CloudにRAG・生成回答(Coveo Relevance Generative Answering、RGA)を追加。2024年からGA。

**価格。**公開価格リストなし、通常エンタープライズ交渉(数万〜数十万ドル/年)。

10章 · Lucidworks Fusion・Elastic — クラシック検索のAI進化

**Lucidworks Fusion。**Apache Solrベースのエンタープライズ検索プラットフォーム。2024〜2025年にML・RAGレイヤーを強化。大規模eコマース・カスタマーサポートに強い。「Gleanよりビルド可能性が高いオプション。」

**Elastic。**Elasticsearchの会社。2023年に「Enterprise Search」という別製品を整理し、代わりに**Elastic Stack自体にvector search・RAG機能を内蔵**する方向に再編。ELSER(Elastic Learned Sparse Encoder)とdense vectorを同時にサポート。直接RAGを建てるチームに良いベース。

この2つはGlean・Microsoftと違うカテゴリ — **ビルドプラットフォーム**であって完成したSaaS検索アプリではない。

11章 · 新規参入者 — Hebbia、Perplexity Enterprise、You.com、Claude Enterprise、ChatGPT Enterprise

**Hebbia。**リサーチワークフロー特化 — 投資銀行・法律事務所・コンサルティングの深い文書分析。PDF・earnings call transcript・deal docsに強い。2024年1.3億ドル調達。

**Perplexity Enterprise。**一般perplexityのエンタープライズ版。社内データ接続 + Web検索結合。席あたり月40ドル程度。

**You.com Pro / Enterprise。**マルチモデル(GPT・Claude・Gemini)統合 + エンタープライズコネクター。

**Anthropic Claude Enterprise。**Claudeのエンタープライズプラン。大きなコンテキストウィンドウ(1Mトークン)、Projects(文書をコンテキストに)、Tool use API。社内データを直接検索するより「社内文書をコンテキストに入れる」パターン。

**ChatGPT Enterprise / Team。**OpenAIのエンタープライズ。ChatGPT Team(席あたり月25ドル、2席以上)、Enterprise(交渉価、通常席あたり月60ドル+)。カスタムGPTs、社内コネクター(Drive・SharePoint・Boxなど)。

これらは**Glean・Microsoftを完全に代替するより補完**する — 一般LLMインターフェース + 軽い社内コネクター。

12章 · オープンソースRAG — Onyx・Quivr・Khoj・LibreChat・AnythingLLM

エンタープライズが高ければ、セルフホストオプションがある。2026年現在意味のあるOSS RAGプラットフォームたち。

**Onyx (旧Danswer)。**Y Combinator 2023、Apache 2.0。Slack・Confluence・Drive・Notion・Jira・GitHubコネクター。ACL保持(部分)。セルフホストまたはOnyx Cloud。**OSSエンタープライズ検索の標準になりつつある。**GleanのOSS代替として最も頻繁に言及される。

**Quivr。**「Second brain」コンセプトのOSS。個人・小チーム用RAG。Apache 2.0。

**Khoj。**個人RAGアシスタント。ノート・メール・スケジュールをインデックス。Obsidian・Emacs統合。Apache 2.0。

**Continue。**コード特化OSS — IDE内のRAG。JetBrains・VS Codeプラグイン。

**LibreChat。**マルチプロバイダーチャットUI(GPT・Claude・Gemini・Ollama)。RAGプラグイン含む。MIT。

**AnythingLLM。**ローカルRAGデスクトップアプリ。ノートパソコンで自分の文書でRAG。MIT。

**Ragna、R2R、Verba** — よりライブラリ・SDK性格。RAGを直接建てるチームがベースに使うツール。

**いつOSSが合うか。**(a) データ主権が絶対の時(法務・医療・国防)、(b) Gleanコストが合わない時、(c) エンジニアリングチームが運用できる時。

13章 · RAGアーキテクチャスタック — 6レイヤー

エンタープライズAI検索の内部は結局RAGパイプラインだ。6レイヤーに分けて見ると役に立つ。

| レイヤー | 役割 | 代表ツール |

| --- | --- | --- |

| Ingest | 文書を持って来てテキストにする | Unstructured.io、LlamaParse、Docling、Apache Tika、Marker |

| Chunk | 大きな文書を小さな塊に | semantic chunking、contextual chunking (Anthropic) |

| Embed | 塊をベクトルに | OpenAI text-embedding-3、Cohere Embed v3、Voyage、Jina、BGE-M3、Nomic |

| Vector DB | ベクトルを保存・検索 | Pinecone、Weaviate、Qdrant、Chroma、pgvector |

| Rerank | 検索結果を再ソート | Cohere Rerank、Voyage rerank、ColBERT |

| LLM | 回答生成 | GPT-4o、Claude 4、Gemini 2.5、Llama 4 |

各レイヤーでの選択は独立。だからRAGは結局**6つの決定の積**になる。

14章 · Ingest — 最も過小評価されたレイヤー

「PDFをどうパースするか」がRAG品質の50%を決める。

**Unstructured.io。**OSS + commercial。PDF・docx・HTML・メール・画像を構造化されたelement listに。partition_pdfのhi_resモードはlayout-aware。2024〜2025年に事実上標準。

**LlamaParse。**LlamaIndexのマネージド。複雑なテーブル・多段PDFに強い。ページ単位課金(0.003〜0.03ドル)。

**Docling。**IBMが2024年公開のOSS。PDF・docx・xlsx・PPTX・HTML・画像 → JSON・Markdown。layout-aware。Apache 2.0。テーブルが強い文書に良い。

**Apache Tika。**クラシック。全てのフォーマットを処理するがlayout-awareではない。単純テキスト抽出にOK。

**Marker。**OCR + LLM後処理。学術論文・複雑なPDFに強い。

**選択ガイド。**テーブル・チャートが多ければDocling・LlamaParse。単純テキストならUnstructured・Tika。スキャン本ならMarker。

15章 · Embed — 埋め込みモデル比較マトリクス

| モデル | 次元 | 価格 (100万トークン) | 多言語 | 最大入力 |

| --- | --- | --- | --- | --- |

| OpenAI text-embedding-3-small | 1536 | $0.02 | 100+ | 8K |

| OpenAI text-embedding-3-large | 3072 | $0.13 | 100+ | 8K |

| Cohere Embed v3 multilingual | 1024 | $0.10 | 100+ | 512トークン |

| Voyage voyage-3 | 1024 | $0.06 | 100+ | 32K |

| Voyage voyage-3-large | 2048 | $0.18 | 100+ | 32K |

| Jina embeddings v3 | 1024 | $0.018 | 89言語 | 8K |

| BGE-M3 | 1024 | OSS (セルフホスト) | 100+ | 8K |

| Nomic Embed v1.5 | 768 | OSS (セルフホスト) | 100+ | 8K |

**選択ガイド。**韓国語・日本語混ざるならVoyageまたはCohere multilingual。英語のみならOpenAI text-embedding-3またはCohere v3。セルフホスト可能でなければならないならBGE-M3またはNomic。

**MTEBリーダーボード**(Massive Text Embedding Benchmark)が標準比較点。2026年5月時点で上位はNVIDIA NV-Embed-v2、BGE-multilingual-gemma2、voyage-3-large、OpenAI text-embedding-3-large順に頻繁に見られる(タスク・言語による)。

16章 · Rerank — RAG品質の最後の30%

ベクトル検索はtop-kを持って来る(例:50個)。Rerankはその中で本当に関連のある5個を再び選び出す。

**Cohere Rerank 3。**最も多く使われるマネージド。英語・多言語。1Kクエリあたり2ドル。

**Voyage rerank-2。**Voyageのreranker。価格はCohereと類似。

**ColBERT / ColBERT v2。**OSS rerankモデル。late-interaction方式。セルフホスト可能。RAGatouilleで簡単に使える。

**なぜ必要か。**ベクトル検索は「意味的類似度」を見るが、本当の答えに必要なのは「このクエリに対する正解を含むチャンク」だ。Rerankがこのギャップを縮める。実測上RerankはnDCG@10を5〜15%上げる。

17章 · Eval — RAG評価ツール

RAGがうまく回るか測らないと改善できない。評価ツール4つ。

**Ragas。**OSS RAG評価フレームワーク。faithfulness・answer relevancy・context precision・context recallのようなメトリック。最も標準。

**TruLens。**OSS + ホステッド。「feedback functions」でRAG・LLMアプリ評価。

**DeepEval。**OSS、pytestスタイル。14+メトリックサポート。

**Arize Phoenix。**OSS observability + eval。RAGトレース可視化に強い。

**評価メトリック4つ。**(1) Faithfulness:回答がコンテキスト内に根拠があるか、(2) Answer Relevancy:回答が質問に合うか、(3) Context Precision:持って来たコンテキストの中で本当に関連ある比率、(4) Context Recall:回答に必要な情報がコンテキストに全て入っているか。この4つが普通最初の評価セット。

18章 · コネクター宇宙 — どのSaaSを繋ぐか

エンタープライズ検索の価値は結局**いくつのシステムを束ねるか**だ。2026年標準コネクターグループ。

**Cloud Drive。**Google Drive、OneDrive、SharePoint、Box、Dropbox。

**Messaging。**Slack、Microsoft Teams、Discord。

**開発・イシュー。**Jira、Confluence、Linear、GitHub、GitLab、Bitbucket、Asana、Monday。

**CRM・サポート。**Salesforce、HubSpot、Zendesk、Intercom、Freshdesk。

**文書・ノート。**Notion、Coda、Quip、Evernote。

**メール。**Gmail、Outlook。

**Glean**は100+コネクター、**Onyx**は40+コネクター、**Notion Atlas**は20+、**M365 Copilot Connectors**は100+(パートナー含む)。Slack AIは自分のデータだけ。

19章 · 権限保持 — エンタープライズの絶対条件

**コア原則。**「ユーザーが原本システムで見られる文書だけが回答に入らなければならない」。これが壊れるとコンプライアンスが崩れる。

**2パターン。**

1. **インデックス時点でACLを一緒に保存。**検索時点でuser_idにマッチする権限をフィルターでかける。Glean・Onyxがこの方式。

2. **クエリ時点で原本システムに権限確認。**より正確だが遅い。ライブ権限変更に強い。Microsoft CopilotがGraph権限モデルに依存する方式。

**挑戦。**Slackチャネル権限、SharePointサイト権限、Jiraプロジェクト権限 — 各システムの権限モデルが皆違う。Gleanが100+コネクターを作るのに時間がかかった理由の半分がACLモデリングだ。

20章 · データプライバシー — 「私のデータでモデル学習しない」

エンタープライズは「我々のデータが外部モデル学習に使われないか」が二つ目の絶対条件。

**OpenAI Enterprise。**API・Enterprise・Teamデータは学習に使われない(公式条項)。

**Anthropic Claude Enterprise。**API・Enterpriseデータ学習しない。

**Google Gemini for Workspace。**Workspaceデータ学習しない。

**Microsoft Copilot。**テナントデータ学習しない。

**そしてデータ居住(residency)。**EU・日本・韓国の会社はデータを自国・自地域に保管しなければならない場合が多い。Microsoft EU Data Boundary、Anthropicのregionオプション、Google Cloudのregionが答え。

**セルフホストが答えな時。**政府・医療・金融の一部では外部API自体が不可。Onyxのようなオープンソース + セルフホストLLM(Llama 4・Qwen 3)組み合わせが唯一の道。

21章 · 韓国・日本のエンタープライズツール

**韓国。**Channel Talk(カスタマーサポート・CRM)、Jandi(Slack代替)、Naver Cloud Works(エンタープライズ協業)、Kakao Work AI、Goorm(協業コーディング)。これらのデータをコネクターで持って来るグローバルツールはほぼない。Onyxにコネクターを追加するか、独自RAGを建てるのが現実。

**日本。**Cybozu Garoon / Office(エンタープライズグループウェア)、Kintone(ローコード、Cybozu)、Sansan(名刺・CRM) + Sansan ContractOne(契約検索)、Talknote(エンタープライズメッセージング)。日本企業が独自ツール依存度が高くてグローバルSaaS検索が限定的だ。

**現実オプション。**(a) Glean・Microsoftを導入するが自国ツールは別途、(b) Onyxセルフホスト + 自国ツールコネクター自作、(c) 自国SaaSベンダーがAI検索を内蔵するのを待つ(Channel Talk・Jandi一部進行中)。

22章 · コスト比較 — 席あたりいくらか

2026年5月時点の概略的な席あたり/月コスト。

| ツール | 席あたり月 | 備考 |

| --- | --- | --- |

| Glean | $40〜$80 | 交渉、大きなデプロイはもっと低くなる可能性 |

| Microsoft 365 Copilot | $30 | M365ライセンス別途必要 |

| Gemini for Workspace | $20 (Business)、$30+ (Enterprise) | Workspaceライセンス別途 |

| Slack AI | $10 | Slackプラン別途 |

| Notion AI | $10 | Notion Business/Enterprise別途 |

| Atlassian Rovo | $20 (推定) | Atlassian Cloud別途 |

| Guru | $15 (Builder) | Enterprise交渉 |

| ChatGPT Team | $25 (2席+) | |

| ChatGPT Enterprise | 交渉、〜$60+ | |

| Claude Enterprise | 交渉 | |

| Hebbia | 交渉、高価 | リサーチ特化 |

| Perplexity Enterprise | $40 | |

| Onyx (セルフホスト) | インフラコストのみ | LLM・embed追加 |

**総体的コスト。**1,000人会社基準でGleanが年50万〜100万ドル。M365 Copilotが年36万ドル(席あたり30ドル × 12ヶ月 × 1000)。Onyxセルフホストはインフラ5万ドル + LLM/embed使用量(数万〜数十万、使用量による)。

23章 · ビルドvsバイ — 決定ツリー

いつ買って、いつ建てるか。

**バイ(Glean・M365・Atlas)が合う時。**

- 100席以上でITが運用を担いたくない時。

- コネクター30+が必要な時。

- セキュリティ認証(SOC 2・ISO・HIPAA)が必要な時。

- 「9ヶ月以内に見せられるROI」が優先な時。

**ビルド(Onyxセルフホスト、または独自RAG)が合う時。**

- データ主権が絶対の時(国防・金融・医療の一部)。

- 韓国・日本の自国ツール比重が高くてグローバルSaaSコネクターが合わない時。

- ドメイン特化埋め込み・rerankが必要な時(法律・生命科学)。

- エンジニアリングチームがRAG運用に耐えられる時(2〜5人フルタイム)。

**ハイブリッドが普通だ。**Gleanを全社検索に + Onyxをセキュリティ特殊ドメインに + 独自RAGを製品の中に埋め込む。これが2026年大企業の現実パターン。

24章 · 初導入チェックリスト — 12項目

1. **上位5データソース把握。**Slack? Confluence? Drive? Notion? Jira? — どこに我が社の知識がいるか。

2. **ユーザー数推算。**パイロット100、全社1,000のような単位で。

3. **権限モデル検討。**各ソースのACLがどう見えるか、保持可能か。

4. **データ居住要件。**韓国・EU・日本のデータ居住義務があるか。

5. **現在のLLM契約。**OpenAI・Anthropic・Googleのうち誰と既に契約があるか。

6. **予算範囲。**席あたり10〜80ドル、100〜10K席 → 年数万〜数百万ドル。

7. **ベンダー3社パイロットPoC。**Glean・Microsoft・Atlas・Onyxのうち3社に同じクエリ100個を投げて答えを比較。

8. **評価メトリック。**「従業員が答えを見つけるのにかかった時間」ベースライン測定。

9. **セキュリティ検討。**SOC 2 Type II、ISO 27001、DPA・SCC。

10. **運用責任者。**誰がインデックスヘルス・コネクター障害・権限変更を見るか。

11. **ロールアウト計画。**100人パイロット → 部署単位 → 全社。3〜6ヶ月。

12. **成功メトリック。**検索時間減少(目標30%+)、回答満足度、採用率(MAU/席)。

25章 · アンチパターン10

1. **「全社一括導入。」**権限・文書品質問題が一度に現れる。100人パイロット先。

2. **「検索結果だけで評価。」**ユーザー行動(クリック率・再検索率)を一緒に見なければならない。

3. **「コネクター全部オンで開始。」**ノイズの多いソース(個人メモ・DM)は後で。コアwikiから。

4. **「ACLを後順位に。」**一度権限漏れたら信頼が崩れる。1週目優先。

5. **「一つの埋め込みモデルで全ての言語。」**韓国語・日本語混ざるなら多言語埋め込み必須。

6. **「rerank省略。」**top-50 → top-5に狭める段階なしでは答え品質が低い。

7. **「ハルシネーション評価しない。」**Faithfulnessメトリックを毎週。

8. **「一度インデックス作って終わり。」**文書は続けて更新。変更検知・再インデックスパイプ。

9. **「フィードバックループなし。」**ユーザーが「役立たない」を押す場所がなければならない。

10. **「チャットボット ≠ 検索。」**「どの答えが正しいか」分からないユーザーにチャットボットだけ与えると無駄になる。出典リンクが答えの50%。

エピローグ — 検索は再び差別化領域だ

2010年代後半、エンタープライズ検索は「終わった市場」とされた。SharePoint Search・Confluence Searchが十分良いと仮定された。実際にはみんな不満だったが代替案がなかった。

2026年、その仮定が崩れた。LLMと埋め込みが結合したRAGが初めて「社内の全文書を自然言語で問う」を可能にした。そして**検索は再び差別化領域**だ。Gleanが46億ドルの評価額を受ける理由、MicrosoftがCopilotに全てを賭ける理由だ。

コアな洞察。**検索は最終ユーザーに最も近いインターフェースだ。**ユーザーはその上で全ての仕事をする。だから検索をうまくやる会社は即ち「従業員の仕事のOS」を作ったということだ。Glean・Microsoft・Atlassianが狙うのがこれだ。

我々のチームがやること。(1) 初導入は100人パイロットで小さく。(2) ACL・評価・rerankのような基盤を早く。(3) ビルドvsバイは一度の決定で終わらない — ドメインごとに違う。(4) ユーザー満足度を毎週測定。

この市場は2030年まで毎年30%+成長予想だ。**検索をうまくやる会社が仕事をうまくやる会社だ。**2026年には既にそうだ。

12項目チェックリスト

- [ ] 上位5データソース把握

- [ ] ユーザー数推算

- [ ] 権限モデル検討

- [ ] データ居住要件

- [ ] 現在のLLM契約確認

- [ ] 予算範囲

- [ ] ベンダー3社パイロットPoC

- [ ] 評価メトリックベースライン

- [ ] セキュリティ検討(SOC 2・ISO・DPA)

- [ ] 運用責任者指定

- [ ] ロールアウト計画3〜6ヶ月

- [ ] 成功メトリック(検索時間・満足度・採用率)

次の記事予告

次は「RAG評価パイプライン — Ragas・TruLens・PhoenixでRAG品質を毎日測定する」を扱う予定だ。

参考 / References

- Glean — https://www.glean.com

- Glean Series E funding 2024 — https://www.glean.com/blog/series-e

- Microsoft 365 Copilot — https://www.microsoft.com/en-us/microsoft-365/copilot

- Microsoft Copilot Studio — https://www.microsoft.com/en-us/microsoft-copilot/microsoft-copilot-studio

- Atlassian Rovo — https://www.atlassian.com/software/rovo

- Notion AI — https://www.notion.so/product/ai

- Slack AI — https://slack.com/features/ai

- Google Gemini for Workspace — https://workspace.google.com/solutions/ai/

- Guru — https://www.getguru.com

- Coveo — https://www.coveo.com

- Lucidworks Fusion — https://lucidworks.com

- Elastic vector search — https://www.elastic.co/elasticsearch/vector-search

- Hebbia — https://www.hebbia.com

- Perplexity Enterprise — https://www.perplexity.ai/enterprise

- You.com — https://you.com

- Anthropic Claude Enterprise — https://www.anthropic.com/enterprise

- ChatGPT Enterprise — https://openai.com/enterprise

- Onyx (Danswer) — https://github.com/onyx-dot-app/onyx

- Quivr — https://github.com/QuivrHQ/quivr

- Khoj — https://github.com/khoj-ai/khoj

- LibreChat — https://github.com/danny-avila/LibreChat

- AnythingLLM — https://github.com/Mintplex-Labs/anything-llm

- Unstructured.io — https://unstructured.io

- LlamaParse — https://www.llamaindex.ai/llamaparse

- Docling (IBM) — https://github.com/DS4SD/docling

- OpenAI text-embedding-3 — https://openai.com/index/new-embedding-models-and-api-updates/

- Cohere Embed v3 — https://cohere.com/embed

- Voyage AI — https://www.voyageai.com

- Jina Embeddings v3 — https://jina.ai/embeddings/

- BGE-M3 — https://huggingface.co/BAAI/bge-m3

- Pinecone — https://www.pinecone.io

- Weaviate — https://weaviate.io

- Qdrant — https://qdrant.tech

- pgvector — https://github.com/pgvector/pgvector

- Cohere Rerank — https://cohere.com/rerank

- ColBERT v2 — https://github.com/stanford-futuredata/ColBERT

- Ragas — https://github.com/explodinggradients/ragas

- TruLens — https://www.trulens.org

- DeepEval — https://github.com/confident-ai/deepeval

- Arize Phoenix — https://github.com/Arize-ai/phoenix

- MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard