✍️ 필사 모드: AI 検索エンジン 2026 — Perplexity・You.com・Phind・Exa・SearchGPT・Gemini AI Mode・Kagi・Tavily と Deep Research カテゴリの正直比較
日本語- プロローグ — 「10 本の青いリンク」の時代は終わりつつある
- 1 章 · クエリと答えのあいだの新しい層
- 2 章 · コンシューマー AI 検索アプリ — 人間が直接タイプするもの
- 3 章 · 開発者向け検索 API — エージェントの手と足
- 4 章 · Deep Research カテゴリ — 5 分の答えが 30 分のレポートになるとき
- 5 章 · 引用信頼性の問題 — AI 検索の最大の弱点
- 6 章 · AI 検索が勝つ場面 vs 勝てない場面
- 7 章 · AI ネイティブ・ブラウザのテーゼ — Comet とその先
- 8 章 · 正直な意思決定ツリー — 何をいつ使うか
- エピローグ — チェックリスト、アンチパターン、次の記事
- 参考 / References
プロローグ — 「10 本の青いリンク」の時代は終わりつつある
2024 年までは「検索する」という行為に曖昧さはなかった。Google か Bing の検索ボックスに語句を入れて、SERP に並んだ 10 本の青いリンクを受け取り、いくつかをクリックして自分で読んで、頭の中で答えを組み立てた。検索エンジンは 検索 をし、合成は人間がやっていた。
2026 年の春、その区分は崩れた。エンジン自身が答えを返すようになった。Perplexity は最初からそう設計されており、OpenAI の ChatGPT Search / SearchGPT が続き、Google は自社の本丸である google.com に AI Mode を統合し始めた。さらにその上に新しいカテゴリが立った — Deep Research。5〜30 分かけて自律的に数十ページを巡回し、引用付きのレポートを返してくれるアレだ。
その下では、もうひとつ別の市場が静かに爆発した。検索インフラ。Exa、Tavily、Serper、You.com の Search API。これらはコンシューマー向けではない。AI エージェントが呼び出す検索 API を売る。RAG パイプラインやエージェント・ワークフローの道具として使われる。我々が Perplexity に投げる質問の裏で走っている検索のかなりの割合は、こうしたインフラを通っている。
本記事は、その 2 つの市場を一緒に見る。コンシューマー AI 検索(人間がタイプする側)と、開発者 AI 検索 API(エージェントが呼ぶ側)を 1 ページに並べて整理する。Deep Research という別動物も切り出して見る。最後に正直な問いを立てる — AI 検索が実際に従来検索に勝つのはどんな場面で、勝てないのはどんな場面か。そして Perplexity の Comet ブラウザが投げているテーゼ — 「検索はやがてブラウザになる」 — がどれくらい現実的か。
価格や機能は速く変わる。本記事の数字はすべて 2026 年 5 月時点 で、意思決定フレームに焦点を絞る。半年後に数字が変わっても、コンシューマー vs インフラ、単発クエリ vs Deep Research、引用信頼性 — の軸は生き残る。
1 章 · クエリと答えのあいだの新しい層
従来検索を 1 行で書くとこうなる。
ユーザー・クエリ → 検索エンジン(インデックス照合 + ランキング) → SERP(10 本のリンク)
↓
人間が読み、合成する
AI 検索を 1 行で書くとこうなる。
ユーザー・クエリ → 意図解釈(LLM) → 複数のサブクエリ生成
→ 検索インデックス呼び出し(自社インデックスか外部 API)
→ 結果ページのフェッチと本文抽出
→ モデルが合成 → 引用付きの答え
決定的なのは 層が増えた という事実だ。ユーザーのクエリはそのままインデックスに行かない。LLM がまず意図を解き、複数のサブクエリに分解し、結果を取りに行き、本文を読み、それをまたモデルに戻して答えを合成する。ここで 2 つが反転した。
第一に、「検索エンジン」の定義が曖昧になった。 Perplexity は自前のクローラを走らせるが、同時に Bing と Google の外部 API にも頼っている。ChatGPT Search は Bing インデックスの上に OpenAI のキュレーション層を載せる。You.com は自社インデックスを持ちつつ、外部ソースも混ぜる。インデックスを持つこと と 答えを返すこと は分離した。
第二に、検索結果がそのまま答えになった。 ユーザーが直接リンクをクリックすることが減った。Perplexity の内部統計では、1 回の回答あたり平均 1.2〜1.5 件しか引用クリックが発生しない — つまり大半のユーザーは答えを読んで終わる。出版社の立場ではトラフィックが消える話であり、2025〜2026 年の出版社 vs Perplexity のライセンス紛争の核心がこれだ。
3 つのアーキテクチャを区別しておく。
- 自社インデックス + 自社合成 — Google AI Mode がもっとも典型。Google が持つインデックスの上に Gemini が乗って答えを合成する。Kagi の AI 機能も近い。
- 外部インデックス + 自社合成 — Perplexity の一部モード、ChatGPT Search(Bing ベース)。インデックスは借りてきて、合成と UX を自分で作る。
- 自社インデックス + API 公開 — Exa、Tavily、You.com の API サイド。ユーザーに答えを返さない。検索結果(または抽出した本文)を API として公開し、別の LLM がその上で合成する。
これらは「同じ王座を争う 3 つのプレイヤー」ではない。3 つの市場 だ。コンシューマーは (1) と (2) を見る。開発者は (3) を見る。そして同じ企業が両方に足をかけている場合も多い(You.com がもっとも明確)。
2 章 · コンシューマー AI 検索アプリ — 人間が直接タイプするもの
2.1 Perplexity — カテゴリそのものを定義した会社
Perplexity は 2022 年末にローンチして、AI 検索というカテゴリ自体に名前をつけた会社だ。2026 年 5 月時点で主要なサーフェスは 4 つある。
Pro Search。デフォルトのモード。ユーザーの質問を受けて、LLM(GPT-4・Claude・自社 Sonar から選択)が複数のサブクエリに展開し、Web を検索し、引用付きで合成する。インライン引用がつき、サイドバーには関連質問が並ぶ。無料枠あり、Pro(月 20 ドル前後)で無制限 + モデル選択。
Deep Research。2024 年末に登場、2025〜2026 年で看板の差別化機能になった。1 質問に 5〜10 分かけて、数十ページを取りに行き、相互検証して、構造化レポートを返す。Pro Search が 5〜10 ソースを 1 分以内に読むのに対し、Deep Research は 30〜80 ソースを 5〜10 分で読む。Pro ユーザーには 1 日あたりの上限(2026 年 5 月で 1 日 5〜10 回前後)があり、Max プラン(月 200 ドル前後)で大幅に拡張される。
Spaces。2024 年に登場したワークスペース概念。特定テーマ(例: 「自分の博士論文リサーチ」「韓国インスタントラーメン市場」)についてコンテキストを蓄積し、自前の PDF やメモをアップロードして検索の対象に含められる。共同編集可能。事実上「Perplexity の上に乗せた Notion」のような立ち位置。
Comet ブラウザ。2025 年ベータ、2026 年初に正式版。単なるブラウザではなく「AI ネイティブ・ブラウザ」を自称する。すべてのページにサイドバー・アシスタントがあり、今見ているページをコンテキストとして質問できる。マルチタブ一括要約が可能。エージェント・モードはユーザーの代わりにページを操作してタスクを実行する(例: 「これらの会社の価格を比較して表にまとめて」)。テーゼは明快 — 検索の未来はボックスではなく、ブラウザそのものだ。
Perplexity の強みは UX の一貫性 と 引用表示の可読性。答えごとに出典が明確だ。弱みは 自社インデックスの鮮度 と 引用された事実の正確性 — マルチホップ推論ではしばしば引用と本文がずれる。2026 年に入って自社の Sonar モデル系統が速く安くなり、Pro Search の応答が ChatGPT Search より速いことが増えた。
2.2 You.com — 早く始めて自分を共食いした
You.com は実は AI 検索を最初に試みた会社だ。Richard Socher が 2020 年に創業し、2022 年にはすでに AI 回答機能を入れていた。それが 2026 年時点では、コンシューマー検索で Perplexity に負けた。
理由は明白だ。You.com は同時にやろうとしたことが多すぎた。検索、AI チャット、画像生成、コード・エージェント、その上に広告枠まで。UX が散らかり、どのサーフェスも 1 位を取れなかった。2025 年後半から会社は明らかに API ビジネスへ重心を移す 動きを見せた — You.com Search API が中核の売上商品になり、コンシューマー側の you.com はデモ・マーケティング寄りに後退した。エンタープライズ B2B 角度も同じ API に乗せている。
つまり You.com を評価するには 2 つの見方がある。
- コンシューマー検索エンジンとして? Perplexity か ChatGPT Search のほうがいい。
- 開発者検索 API として? You.com Search API は真剣に検討する価値がある — 価格は妥当で、日本語・韓国語など非英語結果が意外に良い。
本当の話は次章のインフラ市場で出てくる。
2.3 Phind — 開発者しか使わないアレ
Phind は他社と完全に違う方向に行った。開発者検索特化。Stack Overflow の代替として始まり、コードブロック・ライブラリ・ドキュメント・GitHub Issues を強く重み付けする。回答にはコードが多く、引用は公式ドキュメント・GitHub・SO・MDN に偏る。
2026 年時点で Phind は 2 路線に進化した。
- Phind Search — デフォルト。コーディング質問にチューンされた AI 検索。無料枠あり、Phind Pro は月 20 ドル前後。
- Phind 70B / Phind Models — 自社のコード特化モデル系統。一部はオープンウェイトで公開され、他ツール(Cursor 等)に組み込まれている。
特徴的なのは CLI ツール を提供していること。phind コマンドでターミナルから直接検索とコード生成ができる。一部の開発者にとって Stack Overflow より速い「第一応答」ツールだ。
弱点は明白。コーディング以外では Perplexity が圧倒的、ユーザーベースが狭くデータ効果が遅い、そしてコーディング領域そのものが GitHub Copilot Chat、Cursor のインライン AI、Claude Code といった IDE / ターミナル系ツールに急速に侵食されつつある。「検索して答えを見る」というワークフロー自体が IDE の中に移動している最中だ。
2.4 SearchGPT / ChatGPT Search — OpenAI の後発参入
OpenAI は 2024 年 7 月に SearchGPT のプロトタイプを発表、2024 年 10 月に ChatGPT に正式に Web 検索を統合した。2026 年 5 月時点の挙動は次の通り。
- ChatGPT の中で、ユーザーが明示的に「Search」を押すか、モデルが自動的に検索が必要だと判断すると Web 検索を始める。
- インデックスは Bing ベース + OpenAI 自社クローラの補完。
- 回答にはインライン引用がつき、サイドパネルに出典リストが展開される。
- 無料ユーザーにも検索が開いている — これがユーザー数の側で最大の差別化要因。
OpenAI は Deep Research を別モードとして提供している。2025 年初に公開され、OpenAI o シリーズ reasoning モデルの上にマルチホップ巡回を乗せた。1 質問あたり平均 10〜30 分。Plus(20 ドル)で月数回、Pro(200 ドル)でより多く使える。OpenAI Deep Research は Perplexity Deep Research よりしばしば深いが、より遅い。 学術・市場調査などの重い作業に向く。
ChatGPT Search の強みは ChatGPT という巨大ユーザーベースの中に検索が無料で入っている ことだ。これは Perplexity のような単独アプリにとって致命的な圧力で、大半の一般ユーザーにとって「AI に質問するついでに検索も」のデフォルト席はすでに ChatGPT が押さえたとみなしてよい。
弱みは — UX が検索専用ではなくチャットの一部なので引用クリック率が低く、出典表示も Perplexity ほど整っていない。マルチホップ推論の引用ずれ頻度も同程度かわずかに高い。
2.5 Gemini AI Mode / Grounded Search — Google が自分の本丸を書き換える
もっとも重要なのに最も語られにくい変化は Google で起きた。Google は 2024 年に「AI Overviews」を SERP の上部に表示し始めた(米国)。2025 年には「AI Mode」を別タブとして追加、2026 年初には多くのクエリで AI Mode をデフォルトの検索 UX にする実験 を大規模に走らせている。
挙動:
- google.com にクエリを入れる → AI Mode が ON なら、上部に Gemini が合成した答えがインライン引用付きで出て、その下に従来 SERP が続く。
- 「AI Mode」タブに入ると Perplexity に近い UI — Gemini とチャット、引用、追加質問。
- 開発者向けには Gemini API の Grounding with Google Search — 自分の LLM 呼び出しに Google 検索結果が引用付きで自動的に紐づく。
Google の圧倒的優位は インデックス。Google のインデックスの鮮度とカバレッジに追いつける AI 検索会社はない。制約は — Google の広告売上はクリックに乗っているため、AI モードを攻めすぎると自社売上を共食いする。だから Google は意図的にゆっくり進む。2026 年中も出版社補償・広告モデルの実験が続いている。
一般的な検索ユーザーから見れば Gemini AI Mode はすでに「十分近い」。Perplexity にわざわざ行く理由が減っている — 結果品質は同等、インデックスは新鮮、無料だ。
2.6 Bing / Copilot — Microsoft の 2 トラック
Bing は 2023 年初に GPT-4 ベースのチャットを検索に統合し、AI 検索をコンシューマーに最初に持ち込んだ。その熱狂が落ち着いたあと、Microsoft は仕事を 2 つに分けた。
- Bing Search 自体 — 卸売インフラ化。ChatGPT Search や Perplexity の一部を支える。事実上インデックス貸し。
- Copilot(旧 Bing Chat) — Microsoft 365 のアシスタントに進化。Windows にデフォルト搭載、Edge のサイドバー、Office アプリの中に染み込む。検索だけでなくドキュメント・コード・メールも処理する。
単独のコンシューマー AI 検索ツールとしての Copilot のシェアは大きくない。ただし Microsoft 生態系の中ではデフォルトであり、ユーザー数は決して小さくない。
2.7 Kagi — 有料プライバシー優先検索の AI 面
Kagi は別種の会社だ。有料検索エンジン(月 10 ドル前後)。広告なし。ユーザー・データを集めない。検索結果をユーザーが自分でブロック・昇格できる。忠誠度の高い小さなユーザーベース。
AI 機能は 3 つ。
- Quick Answer — 検索結果の上の短い AI サマリ。引用付き。
- The Assistant — 別チャット UI。Claude・GPT・Gemini など複数モデルからユーザーが選ぶ。
- Universal Summarizer — URL・YouTube 動画などを要約する別ツール。
価値命題は鋭い — 広告なし・トラッキングなしの検索、その上に正直に「オプション」として乗った AI。AI を切って検索だけ使うこともできる。これは Perplexity や Gemini AI Mode がデフォルトで答えを強要するのと真逆の哲学だ。
弱みは価格(月 10 ドルは無料検索に慣れた層には参入障壁)と、インデックス・カバレッジが Google/Bing に比べて一部の領域で薄いこと(自社クローラ + 外部インデックスの結合で運用)。
真面目な情報労働者・学者・ジャーナリストには真面目に良い選択。マス向けツールではない。
3 章 · 開発者向け検索 API — エージェントの手と足
同じ時期、ユーザーに見えない市場が爆発的に伸びた。RAG パイプラインや AI エージェントが直接呼ぶ 検索 API 市場 だ。インフラ層。
3.1 Exa — 埋め込み優先の開発者検索
Exa(旧 Metaphor)は、最初から「LLM が呼び出すこと」を前提に設計された検索だ。通常のキーワード検索ではなく 意味ベース(embedding)検索 が核心。「このページに似たページを見つけて」「こういう内容を扱うブログ記事を見つけて」がよく効く。キーワード検索もサポート。
主要エンドポイント:
- /search — 意味検索・キーワード検索。URL、タイトル、公開日、要約を返す。
- /contents — 検索結果ページの本文をきれいに抽出。広告・ナビを取り除き、LLM にそのまま渡せる形にする。
- /findSimilar — 1 つの URL を渡すと、似たページを返す。従来の検索エンジンにはない動作。
- /answer — 上記を合わせて短い合成答えを返す便利エンドポイント。
Exa の強みは LLM / エージェント親和な API デザイン。本文抽出(/contents)がきれいで、RAG パイプラインでほぼ追加加工なしに LLM に渡せる。findSimilar は一般検索にはなく、リサーチ作業で意外に強力。
価格は使用量ベース(千クエリで数ドル、コンテンツ抽出は追加課金)。コンシューマー製品を作ると一気に高くなる。
Perplexity のようなコンシューマー回答エンジンを作りたいスタートアップが、もっとも頻繁に呼ぶインフラが Exa だ。Perplexity 自身は自社インデックスを持っているが、小さなスタートアップは Exa を敷く。
3.2 Tavily — エージェント検索の事実上の標準
Tavily は最初から LLM エージェント向け検索 API という狭い市場だけを狙った。LangChain・LlamaIndex などのフレームワークに早期に組み込まれ、エージェント・ワークフローのデフォルト検索ツールになった。
API はシンプル — tavily.search(query, depth=...) で意図を解いて複数クエリを実行、結果を抽出・整形して返す。depth='basic' は速くて安く、depth='advanced' は重くて深い。
特異点 — 答え合成もオプション(include_answer=True)。Tavily が結果を合成して短い答えを返す。品質は LLM が自力で合成するより弱い。一般には答えは自分の LLM に作らせ、Tavily は検索だけにする。
Tavily の価値命題は 狭くて明白 — 「LangChain の WebSearchTool を素早く埋めたい? Tavily」。それだけだ。無料枠あり、その上は使用量ベース。
3.3 Serper / SerpAPI — Google 結果そのまま
Serper、SerpAPI、ScaleSerp といった会社が売っているものは 1 つ — Google の結果を API として。自社インデックスはない。Google 検索をスクレイプ(または公式チャネル経由で)して構造化 JSON で返す。
なぜ市場があるか? Google の公式 Programmable Search API は高く、結果加工が制限される。だから非公式の迂回インフラが事実上の標準になった。
特徴:
- もっとも安い価格(千クエリで 1〜2 ドル)。
- 結果は Google と同一 — インデックス鮮度・カバレッジは誰も追いつけない。
- 答え合成なし。結果リストだけ。
RAG / エージェント・パイプラインで Tavily / Exa が高いと感じたら、Serper に降ろしてコストを抑えるのが定番。ただし本文抽出は別途必要(Reader API、Trafilatura 等のライブラリ)。
3.4 You.com Search API — 自社インデックスを持つインフラ
コンシューマー側で You.com がつまずいたと書いたが、インフラ側では自分の席を作った。You.com Search API は:
- 自社 Web インデックス + 外部結合。Bing / Google への依存度が低い。
- 本文抽出を含む。Exa の
/contentsに類似。 - 価格は Tavily・Exa と同程度かわずかに安い。
- 多言語結果(日本語・韓国語)が意外に強い。
エンタープライズ(自社データ + Web 検索の結合)を明示的に狙い、いくつかの大型 B2B SaaS の検索バックエンドとして採用された。
3.5 Brave Search API — もうひとつの自社インデックス
Brave はブラウザ会社として有名だが、自社検索インデックス(Brave Search)を運営しており、その上に API を公開している — Brave Search API。価格は妥当で、データ利用ポリシーが明快だ(クエリ・結果を学習に使わない)。
別インデックスなので Google と結果が異なり、一部ドメインでは品質が劣る。ただし、プライバシー・ライセンスの側面で明確な魅力があり、いくつかの AI 会社がバックエンドとして採用している。
3.6 コンシューマー vs API マトリクス
| 製品 | コンシューマー・アプリ | 開発者 API | 自社インデックス | Deep Research | 開始価格 | 中心的差別化点 |
|---|---|---|---|---|---|---|
| Perplexity | 強(Pro Search、Spaces、Comet) | 弱(Sonar API) | 部分(自社 + Bing 他) | 強(Deep Research) | 無料 / Pro 20 ドル / Max 約 200 ドル | UX・引用・Comet ブラウザ |
| You.com | 弱 | 強(Search API) | 強(自社) | 部分 | 無料 / Pro 約 20 ドル / API 従量 | 多言語、エンタープライズ |
| Phind | 中(開発者のみ) | 弱 | 部分 | なし | 無料 / Pro 20 ドル | コード・ドキュメント特化 |
| Exa | なし | 強 | 強 | 部分(Research API) | 従量(千クエリ数ドル) | 意味検索、本文抽出、findSimilar |
| OpenAI Search / Deep Research | 強(ChatGPT Search) | 中(web_search ツール) | 部分(Bing ベース) | 強(Deep Research) | ChatGPT Plus 20 ドル / Pro 200 ドル | ユーザーベース、モデル一体 |
| Gemini AI Mode / Grounding | 強(google.com AI Mode) | 強(Grounding API) | 非常に強(Google インデックス) | 強(Gemini Deep Research) | 無料 / Google One AI 約 20 ドル / Vertex 従量 | インデックス鮮度、無料 |
| Bing / Copilot | 中(Copilot) | 中(Bing API) | 非常に強(Bing インデックス) | 部分(Copilot Pages) | 無料 / Copilot Pro 20 ドル / API 従量 | M365 統合 |
| Kagi | 中(Search + Assistant) | 弱(小規模 API) | 部分(自社+外部) | 部分 | 月 10 ドルから | 広告・追跡なし、ユーザー制御 |
| Tavily | なし | 強 | なし(外部キュレーション) | 部分(Research API) | 無料枠 / 従量 | LangChain・LlamaIndex デフォルト |
| Serper / SerpAPI | なし | 強(Google 結果) | なし | なし | 従量(千クエリ 1〜2 ドル) | 最安、Google 結果そのまま |
| Brave Search API | 弱(Brave Search) | 中 | 強(自社) | なし | 無料枠 / 従量 | 自社インデックス、学習不使用 |
このマトリクスを頭に入れて次へ進む。
4 章 · Deep Research カテゴリ — 5 分の答えが 30 分のレポートになるとき
2025 年でいちばん面白かった単一の出来事は、Deep Research という新カテゴリが立ち上がったことだ。OpenAI、Perplexity、Google がほぼ同時に同じ名前の製品を出した。3 つとも同じ形の仕事をする — 1 質問に 5〜30 分かけて自律的に数十ページを巡回し、引用付きのレポートを返す。
メカニズムは似ている。
ユーザー・クエリ → モデルがリサーチ計画を立てる(どのサブトピックを見るか)
→ 複数の検索クエリを自動生成
→ 結果ページを順に取得、本文をモデルのコンテキストに蓄積
→ 不足があれば追加検索 → 補強
→ 矛盾する事実を確認 → クロスチェック
→ 構造化レポートに合成、すべての主張に引用を添える
3 製品の違いを整理する。
OpenAI Deep Research — もっとも深い。30 分以上回ることも多い。o シリーズ reasoning モデルの上にツール呼び出しを乗せた。学術リサーチ・市場調査・DD などの重い作業に強い。欠点: 遅い、高い(Pro プランか API 従量)、そしてたまに深く行きすぎて本題から外れる。
Perplexity Deep Research — もっとも速く、もっとも頻繁に使いやすい。通常 5〜10 分。出力は OpenAI より軽いが、日常的な情報作業には十分な深さ。Pro ユーザーには 1 日上限があり、他の 2 製品より参入障壁が低い。
Gemini Deep Research — Google One AI プランに含まれる。Google インデックスの鮮度がそのまま生きる。合成品質は段階的に上がってきて、Gemini の 1M+ トークン・コンテキストにより、蓄積した情報を多めに作業メモリに持てる。これが長く散らばった情報を縫い合わせる場面で質的差を生む。
いつ Deep Research を使う価値があるか。
使う価値がある:
- 市場調査(「2026 年の東南アジア・フィンテック市場の主要プレイヤーと資金調達フロー」)
- 学術リサーチ整理(「Mamba と Transformer アーキテクチャを比較した直近 1 年の論文要約」)
- 企業 DD(「XYZ 社 — プロダクト、チーム、資金調達、競合、リスク」)
- 政策・法務トラッキング(「EU AI Act 施行令の 2026 年変更」)
使う価値がない:
- 単純な事実確認(「React 19 のリリース日」) — 5 秒で通常検索が答える。
- コーディング・デバッグ — コードを直接読んで動かすほうが速い。
- リアルタイム情報(株価、速報) — インデックス鮮度のほうが重要。
- 答えが単一の権威ページにあるとき(公式ドキュメント 1 ページで終わる)。
Deep Research が勝つ領域は 複数ソース横断の合成 が必要な作業だ。1 ページで答えが出ない質問。それ以外はオーバーキルで時間の無駄。
もう 1 つ — Deep Research のハルシネーションのほうが危険。短い回答で引用がずれると、ユーザーはクリックして気づきやすい。30 ページのレポートで 30 個の引用のうち 1 文がずれていても、ユーザーは 30 個全部をクリックしない。長くなるほど検証コストが上がり、ずれた引用を見逃す確率も上がる。真剣な成果物に使うなら、主要主張は必ず人間が引用を直接確認する。例外なし。
5 章 · 引用信頼性の問題 — AI 検索の最大の弱点
AI 検索の看板の約束は「引用がついているから信頼できる」だ。正直に言おう — この約束は半分だけ本当だ。
2024〜2025 年に複数の独立した評価が同じ結論に収束した。AI 検索の引用をランダムサンプルで検証すると、20〜40% の頻度で引用と本文がずれる。ずれ方は 3 種類。
- そのソースにその事実がない (もっとも危険)。モデルが別の場所で得た事実をその引用に貼った。クリックして開くと、その文の根拠がそのページにない。
- 似た事実があるが微妙に違う。数字が違う、条件が抜けている、時点がずれている。もっとも頻繁なパターン。
- 事実は正しくそのソースにあるが、別の引用スロットに誤って貼られた。2 つの文の引用をモデルが入れ替えたケース。
3 つとも合成段階の失敗で、検索段階の失敗ではない — 検索は関連ページをちゃんと取ってきた。だがモデルが「ページで見たもの」を「自分の出力に移す」ところでずれる。
各製品の引用信頼性に対する率直な印象(独立評価の平均的な値):
- Gemini AI Mode(Google インデックス・ベース) — 引用精度が平均的にもっとも高い。短い回答(2〜3 ページ参照)では特に良い。
- Perplexity Pro Search — 引用表示の可読性が最良。短い答えは通常合っている。マルチホップ(複数ソース横断)になると 1 型・2 型の誤りが増える。
- ChatGPT Search — 同水準だが、引用表示の UX が埋もれていてユーザーが検証を省きがち。
- Deep Research 製品群 — 30 以上の引用のうち平均 3〜6 個がずれる。短い答えより 1 引用あたりの精度は高い可能性があるが、長いレポートとして見れば必ず何個かはずれている。
実用的な結論はクリーン。
- 低リスクの判断(昼に何を食べるか、React 19 の
useEffectがどう変わったか) — そのまま信じてよい。 - 中リスクの判断(市場参入分析のドラフト、技術スタック選定) — AI 検索を一次資料に使うが、主要事実 2〜3 個は引用を直接確認。
- 高リスクの判断(法務・医療・財務・政策) — AI 検索は出発点だけ。すべての主要事実を一次出典で検証。レポートに 30 引用あれば 30 全部クリックして確認。
これは「AI 検索を使うな」という話ではない。答えが 100% 正確だと仮定するな、リスクに応じて答えに等級をつけて使え という話だ。同じ等級付けは従来検索でも必要だった(Wikipedia の 1 文も検証が要る)。違いは、AI 検索は答えが滑らかすぎてユーザーが検証反射を失いやすいこと。
6 章 · AI 検索が勝つ場面 vs 勝てない場面
従来検索の死を早すぎる時点で宣言する記事が多い。2026 年時点の正直な見立ては、2 つの市場が 共存 しているということ。デフォルトのツールはケースごとに変わる。
AI 検索が明らかに勝つ場面。
- 「これは何か / どう動くか」型の説明質問。1 つの事実ではなく概念を問うケース。例: 「Mamba アーキテクチャは Transformer とどう違うか」。AI 検索が合成してくれるほうが SERP を自分で読むより圧倒的に速い。
- 複数ページに散った事実を縫い合わせるとき。比較、市場調査、トレンド分析。人間が 5〜10 ページを開いて読み合わせる仕事を AI が 1 分で処理する。
- 曖昧な自然言語クエリ。「あの会社 — 去年シリーズ B 取った — 名前なんだっけ」。キーワードがわからない検索で LLM の意図解釈が光る。
- 言語をまたぐ検索。日本語で聞いて英語ソースから合成。AI 検索が自然にやる。
- コーディングの最初の一歩 — 「このライブラリで X どうやる」 — ただし IDE 統合ツール(Cursor、Claude Code、Copilot Chat)がこの席を急速に侵食中。
従来検索が依然として勝つ場面。
- 単発事実確認が明確なとき。「サムスン電子の昨日の終値」。1 つの数字。AI 検索は遅く高い。SERP の最初のボックスが答えだ。
- 公式ドキュメント 1 ページで終わる質問。React 公式、Python 公式 — そこに直接行くほうが速い。AI 要約はしばしば細部を落とす。
- 探索が目的の検索。インスピレーション目的で見て回るとき。画像検索、デザイン参考、ショッピング。AI の答えは決定的すぎて見て回るのに向かない。
- 速報・リアルタイム情報。インデックス鮮度が決定的なケース。Google が最強。
- ソースそのものが情報のとき。どのメディアが報じたかが意味を持つ場合。AI 回答は合成で「誰がそれを言ったか」を曖昧にする。
- 検索行為自体が機微なとき。AI 検索はより多くのコンテキストを見る。プライバシー的に露出が大きい。Kagi のような製品の存在意義がここにある。
真剣な情報労働者の 2026 年のパターンは明確 — 2 つを同時に使う。デフォルト検索ボックスは依然として Google(特に速い事実確認)。深い質問は Perplexity か ChatGPT Search へ。Deep Research が必要な重い作業は OpenAI か Perplexity Deep Research に投げてコーヒーを飲んで待つ。結果は人間が再検証する。
道具を 1 つだけ使おうとするな。それがアンチパターンだ。
7 章 · AI ネイティブ・ブラウザのテーゼ — Comet とその先
Perplexity の Comet、Arc Max(Browser Company が一時推進した AI ブラウザ)、Brave の Leo 統合、Opera の Aria — この流れは 1 つのテーゼに収束する。未来は検索ボックスではない、ブラウザそのものが AI ネイティブになる。
論拠:
- ユーザーのコンテキストは検索ボックスに収まらない。ユーザーはすでにあるページを見ている。そのページがコンテキスト。新しい検索のためにボックスに戻るのはコンテキストの断絶だ。サイドバー・アシスタントが今のページをコンテキストとして持っていることが自然な形。
- マルチタブが 1 つの作業。比較ショッピング、市場調査 — ユーザーはすでに複数タブを開いている。AI はそれら全てを一緒に見て初めて本当に役立つ。
- AI はエージェントへ進化中。答えを返すのではなく、ページを直接操作してタスクを実行する。それにはブラウザの中に住む必要がある。
Comet はこのテーゼを最も明確に実装した。サイドバー・アシスタント、マルチタブ要約、エージェント・モード。2026 年時点の導入ベースは小さい — 数十万ユーザー単位。Chrome や Safari のシェアの前では誤差だ。
逆風は鋭い。
- ブラウザの乗り換えコストが非常に高い。ブックマーク・拡張機能・セッション。人は移らない。
- Chrome が Gemini を自分自身に統合し始めた。Google が自社ブラウザに同じ機能を入れたら、Comet のテーゼは吸収される。
- Safari は ChatGPT を統合し始めた(iOS/macOS 26 の流れ)。Apple も同じ席を狙う。
Comet の本当の価値は — Perplexity が獲得したユーザーを失わないための ロックイン装置 だ。コンシューマー AI 検索は ChatGPT と Google に挟まれて圧迫されており、自社ブラウザを持てばユーザー・チャネルを直接持てる。ビジネス・ロジックのほうが UX ロジックよりクリアだ。
一方で、AI ネイティブ・ブラウザがコンシューマー AI 検索の最終形である可能性は高い。5 年後を描けば、我々は「検索」という独立した行為をしておらず、ブラウザの中に常時オンのアシスタントがいて、見るページ・開くタブ・書くテキストすべてがコンテキストになっている。Perplexity Comet、Chrome+Gemini、Safari+ChatGPT — そのうち誰がその席を取るかが次のラウンドの戦いだ。
テーゼは正しい可能性が高い。実装者が誰になるかは未定。
8 章 · 正直な意思決定ツリー — 何をいつ使うか
一般ユーザー — 情報労働者、学者、ジャーナリスト。
- 速い事実確認 — Google(検索バーがすでに習慣なら)か Gemini AI Mode(同じボックスで AI 答えも)。「5 秒で答え」が中心。
- 概念説明・合成型の質問 — Perplexity Pro か ChatGPT Search。どちらもよい。ChatGPT がすでに日常にあるなら ChatGPT が自然。
- 重いリサーチ(市場調査、学術整理、DD) — Deep Research。OpenAI(もっとも深い)、Perplexity(もっとも速い)、Gemini(インデックスが新鮮)から作業性質に応じて選ぶ。結果は必ず人間が検証。
- プライバシー・トラッキング回避が重要 — Kagi。コストを受け入れる。
- コード関係 — まず IDE 内のツール(Claude Code、Cursor、Copilot Chat)。検索ツールが必要なら Phind。
開発者 — RAG / エージェント開発者。
- 早く立ち上げたい、標準統合がほしい — Tavily。LangChain・LlamaIndex のデフォルト。
- 意味検索・
findSimilarが必要 — Exa。本文抽出もきれい。 - Google 結果そのまま、コスト最小 — Serper / SerpAPI。本文抽出は別途。
- 多言語結果が重要、エンタープライズ・ガバナンスが必要 — You.com Search API。
- インデックス鮮度 + 自分の LLM 呼び出しに引用 — Gemini API の Grounding with Google Search。
- 自社インデックス + 学習不使用保証 — Brave Search API。
- ヘビー利用、コスト圧縮必要 — 複数バックエンドを混ぜて品質・コストのトレードオフ。単一依存回避。
チーム / 組織。
- 小規模コンシューマー SaaS を作る — コンシューマー回答エンジン・ビルダー。Exa + 自社 LLM、または Perplexity Sonar API を見る。
- 社内ナレッジ検索 — Glean・Mem 等のエンタープライズ検索は別市場。本記事の範囲外。
- エージェント・ワークフロー(例: Slack ボットが資料を探す) — Tavily が一番速く立ち上がる。コストが膨らんだら Exa・Serper に分散。
- 著作権・ライセンス慎重が必須(メディア・法務) — Brave Search API(学習不使用)か、自社クローラ + 明示的なライセンス契約。
価格感度。
- 無料で済むか — コンシューマーは Gemini AI Mode がすでに無料で十分。開発者は Tavily・Exa・Brave の無料枠で開始。
- 月 20 ドル前後 — Perplexity Pro、ChatGPT Plus、Kagi Pro のどれかをワークフローに合わせて 1 つ。
- 月 100〜200 ドル — Perplexity Max か ChatGPT Pro。Deep Research のヘビー・ユーザー向け。
- 使用量変動 — API サイドは本質的に従量制。ヘビー利用の可能性があるなら月予算を決めてダッシュボードで追跡。
もっとも頻繁な失敗: コンシューマー・ツール 1 つにすべてのワークフローを詰め込む。Perplexity ですべてやろうとするな。速い事実は Google が速い、コードは IDE ツールが上、重いリサーチは Deep Research の別ツールだ。2 つ・3 つをワークフロー別に分担するのが 2026 年の標準。
エピローグ — チェックリスト、アンチパターン、次の記事
道具を採用した後 1 週間以内に確認するチェックリスト
- 直近 1 週間で実際にやった検索を 5 件、2〜3 ツールに同じく投げて比較した。
- 引用をランダムに 3 件選び、実際にクリックして本文に該当事実があるか確認した。
- Deep Research を 1 回使ってみて、本当にその時間の価値があったか自己評価した。
- モバイル利用パターンを確認した(ブラウザ・デスクトップ・モバイルアプリで UX が違う)。
- プライバシー設定を確認した(検索が学習に使われるか、保持ポリシー)。
- 開発作業なら、1 つの API(Tavily か Exa)に軽い RAG デモを組んだ。
- 月間予想コストを計算した(サブスク + API 従量 + Deep Research 呼び出し)。
アンチパターン — よく見る失敗
- 引用を検証せずに答えをそのまま転載する。もっとも頻繁でもっとも危険。滑らか ≠ 正しい。主要主張 2〜3 個は一次出典で確認必須。
- 軽い質問に Deep Research を使う。5 秒で答えが出る事実確認に 30 分のレポートを作らせるな。道具の目的が違う。
- 1 つのコンシューマー・ツールにすべてのワークフローを押し込める。速い事実、概念質問、重いリサーチ、コード — 別の道具が勝つレーン。
- AI 検索の答えが 100% 正しいと仮定する。20〜40% の引用ずれはどの製品にもある。リスクで等級をつけよ。
- RAG パイプラインを 1 つの API に乗せきる。コストの変動と可用性リスクが大きい。2〜3 のバックエンドを混ぜてフォールバック構造を作れ。
- 出版社・著作権の側面を無視する。メディア・法務での利用では、学習不使用インデックス(Brave 等)や明示ライセンス・ソースを優先せよ。
- 「検索は死んだ」と早すぎる時点で宣言する。2026 年でも Google は依然として大多数の検索を処理している。2 つの市場は共存する。
- Comet のような新ブラウザにメインを一括移行する。サイドで 1 か月使ってから決めろ。慣れたブラウザを失うコストは大きい。
次の記事予告
次の記事では RAG パイプライン用検索バックエンドの正面比較 — Exa vs Tavily vs You.com vs Serper、同一クエリ・ベンチマーク をやる。同じ 100 件のクエリを 4 つの API に投げて、結果の関連性・本文抽出品質・応答時間・コストを定量比較する。その次は AI ネイティブ・ブラウザの内部構造 — Comet がどうやってページを読み、マルチタブを統合し、エージェント・アクションを実行しているか、それを自社製品で真似る方法。
そのまた次は Deep Research システムを自分で作る — OpenAI Deep Research のようなマルチホップ・リサーチ・エージェントを自分のドメインで動かす方法。検索 API + LLM + 合成ループの構造。
参考 / References
- Perplexity AI — official site
- Perplexity Deep Research announcement (2025)
- Perplexity Comet browser
- Perplexity Spaces
- Perplexity Sonar API
- You.com — official site
- You.com Search API
- Phind — official site
- Phind Models on Hugging Face
- Exa — official site
- Exa API docs
- OpenAI Deep Research announcement
- ChatGPT Search
- Google Gemini Deep Research
- Google AI Mode in Search
- Gemini API — Grounding with Google Search
- Microsoft Copilot
- Bing Web Search API (Microsoft Learn)
- Kagi Search
- Kagi Assistant
- Tavily AI
- Serper.dev
- SerpAPI
- Brave Search API
- Arc Search and the Browser Company
- LangChain — Tavily Search Tool
- LlamaIndex — Web Search Integrations
현재 단락 (1/248)
2024 年までは「検索する」という行為に曖昧さはなかった。Google か Bing の検索ボックスに語句を入れて、SERP に並んだ 10 本の青いリンクを受け取り、いくつかをクリックして自分で読...