AI音声 2026 — ElevenLabs・OpenAI Realtime・Cartesia・Vapi・Sesame・Deepgram、ボイスエージェントスタックの現在地

プロローグ — 生成系メディア4部作の最後の一片

ここ数週、我々は生成系メディアをカテゴリーごとに整理してきた。音楽(Suno, Udio, Lyria, ElevenMusic)、画像(FLUX, Imagen, Midjourney, Ideogram, Recraft, Firefly)、動画(Sora, Veo, Runway, Pika, Kling, Luma, Hailuo)。パターンは毎回同じだった — 2024年の衝撃的なデモ、2025年の荒削りなベータ、2026年の成熟したツール群、そして依然として解けない難しい領域たち。

今日が最後の一片 — 音声(voice)だ。 音声は他の3つと決定的に違う点が2つある。

第一に、音声は双方向だ。 音楽は作ったら終わり、画像も作ったら終わり、動画も作ったら終わり。しかし音声は、人が話しかけたら聞いて理解し(STT)、何を返すか考え(LLM)、自然な声で返す(TTS)。この3段階のパイプラインが会話という単位でまとめられる。だから音声カテゴリーは単純なTTSモデル比較ではなく、ボイスエージェントスタック全体を見る必要がある。

第二に、音声では遅延(latency)が絶対的だ。 音楽は30秒、画像は10秒、動画は1分でも待てる。しかし人と人が会話するとき、沈黙が800msを超えると不自然になり、1.5秒を超えると話を止めたのかと思われる。だからボイスエージェントはユーザー発話の終わり → 応答最初のオーディオバイトを300ms以内に返さなければ自然に感じない。音楽・画像・動画では気にする必要がなかった次元だ。

この2つの違いが2026年の音声カテゴリーを面白くしている。モデル品質だけでは足りない。WebRTCのような転送層、ターン検出(turn detection)、割り込み処理(interruption handling)、エンドポインティング、キャッシュウォーミングとウォームプール — システムレイヤー全体を一緒に設計する必要がある。

2026年5月時点のランドスケープ。

ElevenLabsがコンシューマーTTSとB2Bボイスクローニングのカテゴリリーダーの座を固め、Conversational AIというボイスエージェント製品でスタックを上っている。
OpenAI Realtime APIがGPT-Realtimeモデル上で本物の音声-イン-音声-アウトをWebRTCで提供し、カテゴリそのものを変えた。
CartesiaのSonic-2が75msのファースト・バイトで現時点で最速のTTSの座にある(ベンダー数値、2026年5月)。
VapiがSTT/LLM/TTSを組み合わせるボイスエージェント・プラットフォーム・レイヤーを掌握し、昨年6月に$64M Series Bを調達した。
SesameのCSM(Conversational Speech Model)が「人間らしい人格」という新しい軸を開いた。
STT側はDeepgram Nova-3とAssemblyAI Universal-2の二強構図、Whisper Large V3 TurboとWhisperXがオープンソースの基準。
Hume EVI 4は感情認識・生成、Blandは電話コール自動化、RetellもB2Bボイスエージェント市場で競争する。

この記事はそのランドスケープを整理する。誰がどの仕事に合うのか、ボイスエージェントスタックはどう構成されるのか、sub-300msのファースト・バイト目標をどう達成するのか、ビルドとバイの境界はどこか、そしてボイスクローニングの同意(consent)の現実まで — AIがコールセンターを置き換えるとか、AI音声が危険だとかの両極端な議論は抜きで。

一行の核心: 2026年のAI音声は「TTSが良くなった」ではなく「スタック全体がsub-300msで回せるようになった」という話だ。その差を理解すればツール選択が楽になる。

1章 · カテゴリの誕生 — 2023~2024年に何が起きたか

1.1 音声合成の三つの系譜

AI音声合成は実は30年来の分野だ。初期はconcatenative TTS(録音断片の連結)、次にparametric TTS(音響パラメータを統計モデルで予測)、2017年からneural TTS(WaveNet, Tacotron)。今我々が使うツールの直接の先祖は2020年以降の2つの流れだ。

系譜1: マルチスピーカー・ニューラルTTS. テキストと話者埋め込みを共に入力し、任意の声で合成する。ElevenLabsがこの系譜から出発した(2022年11月創業)。

系譜2: 自己回帰コーデックモデル. テキストLLMの考え方をオーディオに直接適用する。EnCodec, SoundStreamのようなニューラルオーディオコーデックでオーディオをトークンに圧縮し、トランスフォーマーがそのシーケンスを学習する。Microsoft VALL-E(2023年1月)、Meta Voicebox(2023年6月)、そしてOpenAIのWhisper(STT、2022年9月)が同じ系譜の発見だ。

2023年末から2024年初めにかけて、2つの系譜が混ざり始める。ElevenLabsは自己回帰+ディフュージョンのハイブリッドで、MicrosoftはVALL-E 2で、OpenAIはマルチモーダルLLM(GPT-4o)の中に音声トークンを直接入れる方向に進んだ。

1.2 決定的瞬間 — GPT-4oの5月デモ

2024年5月、OpenAIはGPT-4oを公開した際、音声-イン-音声-アウトのデモを見せた。ユーザーが話すとモデルが聞き、同じモデルが答えを音声で返す。割り込みが自然で、感情がのり、歌まで歌う。カテゴリ全体がその瞬間に描き直された。

しかしデモ公開後の出荷は遅かった — 最初は7月、次に10月のRealtime API(ベータ)、2025年8月のGPT-RealtimeモデルGA(正式リリース)。その間にAnthropic、Google、Cartesiaのような他陣営が自分の答えを作る時間を得た。

1.3 ボイスクローニングの爆弾 — SkyとScarlett Johansson

2024年5月14日、OpenAIは「Sky」というGPT-4oの音声を発表した。俳優のScarlett Johanssonは以前OpenAIの音声提案を断っていたが、Skyが自分の声と似すぎていると公に抗議した。OpenAIはSkyの音声をただちに取り下げた。

この事件は業界全体にシグナルを送った。ボイスクローニングの同意(consent)は単なる利用規約のチェックボックスではなく、法的・倫理的な土台そのものだということ。以後、すべてのメジャー音声モデルは「この声をクローンする権利があるか」を検証するプロセスを義務化した。

1.4 なぜ急に良くなったのか

他の生成系メディアと同じ3つの変数だ。

データ. ライセンスされたマルチスピーカー音声データセット(LibriTTS, GigaSpeech, Common Voice)が豊富になり、メジャー各社は独自に数万時間規模の音声をライセンスして学習する。
計算リソース. H100/H200クラスタでマルチビリオンパラメータの音声モデル学習が合理的な時間で終わるようになった。
アーキテクチャ. ニューラルオーディオコーデック+トランスフォーマー+マルチスピーカー埋め込み+ディフュージョンデコーダの組み合わせが定着した。

特に2024~2025年に低遅延ストリーミングが標準になったのが大きい。以前は「テキスト全文を受け取って30秒の音声を作って一括で返す」だったが、今は「テキストトークンが入ってくる端からオーディオチャンクをストリーミング」だ。これがボイスエージェントの実現を可能にした。

2章 · TTSリーダー — ElevenLabs・Cartesia・OpenAI・Sesame

2.1 ElevenLabs — カテゴリリーダー

2026年5月時点で最も多く使われているテキスト・トゥ・スピーチはElevenLabsだ。2022年11月創業、2024年1月にAndreessen Horowitzリードのシリーズ B( $80M)、2025年1月にシリーズ C($ 180M、$3.3Bバリュエーション)、そして2026年にはマルチモーダル音声カンパニーへ拡張中。

製品ライン。

TTS API. Multilingual v2がベース、Turbo v2.5が低遅延向け、Flash v2.5がさらに速いベースライン。v3モデル群が2026年5月にベータ公開。
Voice Design v2. テキストプロンプトで新しい声をデザインする(「warm, mid-30s female narrator, slight British accent」など)。2026年1月にv2へアップグレード。
Voice Cloning. Instant(30秒サンプル、速いクローン)とProfessional(30分以上サンプル、高品質クローン)。
Conversational AI. 2024年11月ベータ、2025年1月GA。STT/LLM/TTSをまとめたボイスエージェントビルダー。ElevenLabsが一段スタックを上った製品ライン。
ElevenMusic. 音楽生成サイド(前回記事で扱った)。
ElevenStudio. 吹き替え・翻訳。映像の音声を別言語に自然に吹き替える。

品質は? 英語・日本語・韓国語・スペイン語・フランス語・ドイツ語を含む32言語をサポート、日本語ボイスの自然さは2025年以降明確に改善した。ただ、微細な感情コントロール(例: 皮肉のトーン、抑制された悲しみ)はまだ英語より弱い。

価格(2026年5月)。

Free: 月10,000クレジット
Starter: $5/月、30,000クレジット
Creator: $22/月、100,000クレジット、商用利用可
Pro: $99/月、500,000クレジット
Scale: $330/月以上
Enterprise: 個別

2.2 Cartesia — 低遅延チャンピオン

Cartesiaは2024年2月創業。創業者Karan GoelとAlbert GuはStanfordでstate-space modelの研究をしており、Mambaアーキテクチャの共著者だ。2024年5月に $27M シード(Lightspeedリード)、2025年3月に$ 64M Series A($300Mバリュエーション)、2026年1月に追加のSeries Bラウンド。

主力はSonicシリーズ — Sonic-1(2024年)とSonic-2(2025年9月)。Sonic-2のファースト・バイト遅延は75ms(自社発表、2026年5月)で、現時点で市場最速のTTSだ。これがボイスエージェントのsub-300msファースト・バイト目標を初めて現実にしたモデル。

品質はElevenLabsと微妙な差がある。英語の単純文ではほぼ同等、表現力豊かなボイス(ドラマチックなナレーションなど)はElevenLabsがやや上、しかし低遅延のボイスエージェントシナリオではCartesiaが圧倒的。

価格(2026年5月)。

Free: 月50,000文字
Creator: $5/月、100,000文字/月
Pro: $49/月、1,000,000文字/月
Scale: $299/月
Enterprise: 個別

2.3 OpenAI Realtime — カテゴリを変えた一手

OpenAI Realtime APIは2024年10月ベータ開始、2025年8月にGPT-RealtimeモデルのGA(正式リリース)と共に安定した。WebRTCを標準転送層として採用し、カテゴリそのものを変えた。

主な特徴。

音声-イン-音声-アウト. STT/LLM/TTSの3段階パイプラインではなく、マルチモーダルモデルの中で一気に処理。理論的により短い遅延。
WebRTC. ブラウザでワンライナーで接続。UDPベースなのでWebSocketよりネットワーク損失に強い。
関数呼び出し(tool use). 対話中にモデルが関数を呼んで外部システムにアクセス。ボイスエージェントの必須機能。
VAD(Voice Activity Detection). ユーザーが話し終わったかをモデル自身が判断。サーバーサイドのsemantic VADがデフォルト。
割り込み. ユーザーがモデル発話中に話し始めるとモデルが即座に停止。

価格(2026年5月、GPT-Realtime基準)。

音声入力: $40/100万トークン
音声出力: $80/100万トークン
キャッシュ入力: $2.5/100万トークン

OpenAI Realtimeの限界はモデル選択がほぼないこと。GPT-Realtimeという単一モデルに固定される。他のLLM(Claude, Gemini)を使いたければ、STT/TTSを別途構成しテキストAPIを呼ぶ伝統的なパイプラインに戻ることになる。

2.4 Sesame — 人格を持つ対話モデル

Sesame AIは2025年初に公に登場した新しい陣営だ。創業者Brendan IribeはOculus VRの共同創業者・元CEO。その背景から「音声とデバイスが融合した未来」というビジョンが具体的だ。

主力はCSM(Conversational Speech Model)。2025年2月のデモが公開されたとき、インターネットが本当に揺れた — 最も自然で、最も人格があり、最も人間らしく感じる音声という反応。冗談を放ち、ちょっと躊躇し、突然トーンを変える人間的な細部が生きている。

CSMの技術基盤。

end-to-endのマルチモーダルLLMで音声合成. 従来のTTSと異なりLLMが直接音声トークンを生成する。
人格ベースの学習. 「Maya」と「Miles」の2キャラクターから始め、それぞれの発話スタイルを学習データに用いた。
2026年5月時点でベータ. オープンAPIはまだ限定的、デモと一部パートナー統合中心。

Sesameの含意は大きい — 音声カテゴリで「技術的に正確である」を超え「人格と表現」が次の競争軸になるというシグナルだ。

2.5 その他のTTS

Azure Speech. Microsoftのエンタープライズ向けTTS。ボイスカタログが最も広く(140+言語、600+音声)、安定性が検証済み。最新の自然さはElevenLabs/Cartesiaに半歩遅れ。
Google Cloud TTS. Vertex AIと統合。Chirp 3 HDボイスで品質が大幅に向上。
AWS Polly. Amazonのクラシックなクラウド型TTS、Generative voiceオプション追加。価格とSLAが魅力。
Play.ht. コンシューマー寄り、ポッドキャスト・YouTubeクリエイター市場に強い。
Resemble AI. ボイスクローニング特化、B2B。
Coqui XTTS. オープンソースTTS、Coquiは2024年廃業したがモデルはGitHubに残っている。

2.6 TTS比較

ツール	ファースト・バイト遅延	自然さ	ボイス多様性	日本語	価格帯	主な用途
ElevenLabs v3	約 200~400ms	非常に高	非常に広	良好	中上	コンテンツ・B2Bエージェント
Cartesia Sonic-2	約 75ms	高	広	普通	中	低遅延エージェント
OpenAI Realtime	約 300~500ms (E2E)	高	限定的	良好	高	マルチモーダルエージェント
Sesame CSM	未公開	非常に高(人格)	キャラ限定	未評価	ベータ	次世代対話
Azure Speech	約 200~300ms	普通~高	非常に広	良好	中	エンタープライズ
Google TTS Chirp 3	約 200~400ms	高	広	良好	中	GCP統合
AWS Polly Generative	約 300~500ms	普通~高	広	普通	低~中	AWS統合

3章 · STTリーダー — Deepgram・AssemblyAI・Whisper

3.1 Deepgram Nova-3

Deepgramは2015年創業、STT専門のもっとも古い陣営の一つ。2024年6月にSeries C( $72M)、2025年8月にSeries D($ 100M)、2026年1月に追加ラウンド。

主力モデルはNova-3(2025年6月GA)。前のNova-2比で精度・遅延・価格すべてが改善された。

WER(Word Error Rate). 英語7.7%(Nova-2: 8.4%)、多言語平均12.3%(Nova-2: 15.1%)。2026年標準ベンチ(CommonVoice, Earnings-22)で計測。
遅延. ストリーミングモード最初の単語まで約 250ms、バッチモード1時間のオーディオを約30秒で処理。
多言語. 30+言語、日本語含む。Code-switching(1発話に2言語混在)も処理。
ダイアリゼーション. 話者分離の精度がNova-2比で明確に改善。
Smart Format. 数字・通貨・メール・電話番号を自動フォーマット。

価格(2026年5月)。

Pre-recorded: $0.0043/分(約$ 0.26/時間)
Streaming: $0.0058/分
Enhanced(強化モデル): 追加コスト

Deepgramの強みは低遅延ストリーミング+価格+B2B安定性のバランス。Vapi, Retell, Blandのようなボイスエージェント・プラットフォームがSTTのデフォルトに採用する。

3.2 AssemblyAI Universal-2

AssemblyAIは2017年創業、Y Combinator出身。Deepgramの最も直接的な競合だ。

主力モデルはUniversal-2(2025年後半GA)。Universal-1より明確に精度が向上、「フォーマットと可読性」に強み。

WER. 英語6.6%、多言語平均11.8%。一部ベンチではDeepgram Nova-3よりわずかに正確。
タイムスタンプ. 単語単位のタイムスタンプと話者分離が非常に正確。
言語検出+Code-switching. 自動。
Speaker Diarization. 業界で最も正確な陣営の一つ。
追加機能. Sentiment Analysis, Entity Detection, Topic Detection, Summarization, PII Redactionが一つのAPIで一緒に処理される。

価格(2026年5月)。

Bestモデル: $0.37/時間(バッチ)
Universal-2: $0.27/時間
Streaming: $0.47/時間

AssemblyAIの強みはポストプロセッシング統合(要約・感情・エンティティ)。コールセンター分析、ミーティングノートのような用途に強い。

3.3 Whisper・WhisperX — オープンソースの基準

OpenAI Whisperは2022年9月にオープンソースで公開されたマルチ言語STTモデル。MITライセンス。自前ホスティングでコストを削減したり、データを外部に出さない陣営で今も標準。

Whisper Large V3 Turbo(2024年10月) — V3比で約8倍速く、品質はほぼ同等。オープンソースSTTの強力な基準。

WhisperX(2023~2025年) — Whisperの上にforced alignment, voice activity detection, speaker diarizationを載せたオープンソースプロジェクト。正確な単語単位タイムスタンプが必要な用途で事実上の標準。

Faster-Whisper — CTranslate2ベースの最適化、GPUでWhisper比4倍速い。

性能(英語LibriSpeech test-clean)。

Whisper Large V3 Turbo: WER 約 3.1%
Faster-Whisper Large V3: WER 約 3.4%
WhisperX(タイムスタンプ精度): 非常に高

オープンソースWhisperの限界は (a) 真のリアルタイムストリーミング非対応(チャンク単位処理のワークアラウンドのみ)、(b) 話者分離は別モデル必要、(c) リアルタイムAPIのような運用負担を自分で抱える必要がある。

3.4 STT比較

モデル	WER(英語)	WER(多言語)	遅延(ストリーミング)	価格($/時間)	ライセンス	日本語
Deepgram Nova-3	7.7%	12.3%	約 250ms	0.26	商用SaaS	良好
AssemblyAI Universal-2	6.6%	11.8%	約 400ms	0.27	商用SaaS	良好
Whisper Large V3 Turbo	3.1%	7~12%(言語別差)	非対応(チャンクで代替)	$0(自前ホスト)	MIT	良好
WhisperX	3.1%(Whisperベース)	同じ	非対応	$0	BSD-4	良好
Faster-Whisper	3.4%	同じ	非対応	$0	MIT	良好
Azure Speech STT	約 8%	約 13%	約 300ms	1.0	エンタープライズ	良好
Google STT Chirp 3	約 7%	約 12%	約 300ms	約 0.4	エンタープライズ	良好

注意: WER数値はベンチマークとドメインに非常に敏感。ノイズの多いコールセンター音声では、WhisperのWERがSaaS陣営より大幅に悪化することも、その逆もある。自分のドメインデータで直接測定するべき。

4章 · ボイスエージェント・プラットフォーム — Vapi・Retell・Bland・Hume

4.1 Vapi — プラットフォームレイヤーの代表

Vapiは2023年創業、2024年11月に $20M Series A(Bessemerリード)、2025年6月に$ 64M Series B($600Mバリュエーション)。ボイスエージェントカテゴリで最も急成長した会社の一つ。

Vapiのポジショニングは**「STT/LLM/TTSのオーケストレーションレイヤー」**。自分でモデルを作らず、市場の最高モデル(Deepgram, OpenAI, ElevenLabs, Cartesiaなど)を組み合わせてボイスエージェントを作れるようにする。

主な機能。

モジュラースタック. STT(Deepgram/AssemblyAI)、LLM(OpenAI/Anthropic/Google)、TTS(ElevenLabs/Cartesia/PlayHT)を自由に組み合わせ。
ターン検出. ユーザーが話し終わったかを意味ベース(semantic VAD)で判定。
割り込み処理. ユーザーがモデル発話中に話し始めるとモデル即stop。
関数呼び出し. 対話中に外部API呼び出し(予約システム、CRM照会など)。
電話統合. Twilio/Vonage/Telnyxで実際の電話番号に接続。
録音+分析. 全通話録音、ダッシュボードで検索・フィルタ・分析。

価格(2026年5月)。

無料: 月10分
従量制: スタック選択で $0.05~$ 0.20/分
Enterprise: 個別

Vapiの強みは**「ビルドが速い+モデルのロックインがない」**。週末でボイスエージェントのMVPを作れて、モデルを変えたければ設定一行変更で済む。

4.2 Retell — Vapiの最も近いライバル

Retellも2023年創業、B2Bボイスエージェント・プラットフォーム。Vapiとほぼ同じポジショニングだが、「エンタープライズ通話安定性」により集中する。

高品質な通話インフラ. Twilio統合がより深く、通話安定性のSLAが強い。
Agent Studio. ノーコード/ローコードビルダーの完成度がより高い。
分析. 通話結果の自動分類、通話別分析。

価格構造はVapiと近い( $0.07~$ 0.18/分)。

4.3 Bland — 電話コール自動化特化

Bland AIは「電話で人と会話するAI」という特定の用途に集中する。一般的なボイスエージェントよりインバウンド/アウトバウンド・コールセンター自動化に特化。

大規模同時通話. 数千通話の同時処理。
ワークフロービルダー. 分岐ロジック・変数抽出・CRM連携。
音声クローニング. 自社の営業トーンに合った音声をクローン。
コンプライアンス. TCPA(米国通信広告規制)対応ツール。

ターゲット市場: 営業コールバック、アポイント取り、顧客サーベイ、債権回収など。

4.4 Hume EVI — 感情認識音声

Hume AIは別の陣営だ。「音声には感情がのる」という視点から出発した。**EVI(Empathic Voice Interface)**モデルはユーザーの音声トーンから感情を認識し、応答の音声に感情をのせることに特化している。

EVI 4(2026年初頭)。トーン分類精度、応答感情の精度ともに改善。
用途. メンタルヘルスチャットボット、コーチング、ケアコール。
限界. 感情分類が実際のユーザー体験と一致するかの検証は進行中。

4.5 ボイスエージェント・プラットフォーム比較

プラットフォーム	ポジショニング	主な用途	モデル選択	価格($/分)	差別化
Vapi	オーケストレーションレイヤー	あらゆるボイスエージェント	非常に広(全メジャー)	0.05~0.20	速い構築、ロックインなし
Retell	エンタープライズ通話	コールセンター・B2B営業	広	0.07~0.18	通話安定性・Studio
Bland	電話自動化特化	営業・アポ取り・サーベイ	自社+一部	0.10~0.15	大規模同時通話
ElevenLabs Conversational AI	統合スタック	コンテンツ/B2Bエージェント	ElevenLabs優先	セッション基準	自社ボイス統合
OpenAI Realtime	API直接	自前ビルド	GPT-Realtime固定	トークン基準	最短のE2E遅延
Hume EVI	感情認識特化	ヘルスケア・ケア	EVIモデル	個別	トーン分析

5章 · ボイスエージェントスタック — 一通話がどう流れるか

5.1 伝統的な3段階パイプライン

ほとんどのボイスエージェントは3つのモデルを連結する。

ユーザー発話オーディオ
   │
   ▼
[STT]  Speech-to-Text
       (例: Deepgram Nova-3 streaming)
   │
   ▼ テキストトークン
[LLM]  Large Language Model
       (例: GPT-5, Claude Opus 4.7, Gemini 2.5)
   │
   ▼ 応答テキスト
[TTS]  Text-to-Speech
       (例: Cartesia Sonic-2 streaming)
   │
   ▼
モデル応答オーディオ

各段階が独立する利点は交換可能性 — モデルを一つだけ変えても他の段階はそのまま。WhisperをSTTに、ClaudeをLLMに、ElevenLabsをTTSに、任意の組み合わせで使える。Vapi/Retellはこの組み合わせ空間を管理するために存在する。

最大の欠点は累積遅延だ。各段階が100msずつしかかからなくても合計300ms、ネットワークRTTを加えると400~500msに簡単に到達する。

5.2 End-to-Endマルチモーダルモデル

OpenAI Realtimeと一部の次世代モデル(Sesame CSM, GPT-4oの音声モード)は違う。1つのモデルが音声を入力として受け、音声出力を直接生成する。

ユーザー発話オーディオ
   │
   ▼
[E2E Multimodal LLM]
   - 音声トークン入力
   - テキスト/音声トークン出力
   - WebRTCで直接ストリーミング
   │
   ▼
モデル応答オーディオ

利点 — 潜在的に短い遅延(中間段階がない)、感情/抑揚がより自然(STTがトーン情報を捨てない)。欠点 — モデル選択不可、価格が高い、fine-tuneが難しい。

5.3 周辺コンポーネント

実際に動くボイスエージェントはSTT/LLM/TTSだけでは成立しない。以下のコンポーネントが追加される。

VAD(Voice Activity Detection). ユーザーが今話しているか沈黙かを判定。Silero VAD, WebRTC VADがオープンソース標準。より進歩した形がsemantic VAD — 「ユーザーが話し終わったか」を意味ベースで判定する(質問が終わったか、まだ考えている最中か)。

ターン検出. 「今モデルが答える番か?」を決定。単純VAD(沈黙300ms検出)から始まり、より精緻なモデルへ発展中。OpenAI Realtimeはサーバーサイドのsemantic VADをオプションで提供。

Endpointing. 発話の終わりを正確に見つける。「えーと…つまり…」のような迷い文中の沈黙を発話終了と誤認しないこと。

Interruption Handling. ユーザーがモデル発話中に話し始めたら、(a) モデルが現在のTTSを即座に中断、(b) 新しいユーザー発話を再処理、(c) コンテキストに「ユーザーが割り込んだ」を反映する。

Conversation State Management. 過去の発話のコンテキスト、ユーザーが交わした約束、モデルが交わした約束、変数(例: ユーザー名、注文番号)を管理。LLMのコンテキストウィンドウと外部メモリの結合。

Tool Use / Function Calling. 対話中の外部API呼び出し。「予約を12時30分に変えて」と言われたらモデルがupdateAppointment(id, newTime)のような関数を呼ぶ。

モニタリングと分析. 通話録音、文字起こし、感情分析、結果分類、ダッシュボード。運用の核心。

5.4 スタックダイアグラム — 実際のシステム

                                  ┌─────────────────────────┐
[電話 ─── PSTN ─── Twilio]────────▶│   Voice Agent Platform  │
                                  │   (Vapi / Retell / etc)  │
                                  └────────────┬─────────────┘
                                               │
            ┌──────────────────────────────────┼──────────────────────────────────┐
            │                                  │                                  │
            ▼                                  ▼                                  ▼
   ┌──────────────────┐              ┌──────────────────┐              ┌──────────────────┐
   │      STT         │              │      LLM         │              │      TTS         │
   │ Deepgram Nova-3  │──テキスト────▶│ Claude / GPT     │──応答テキスト▶│ Cartesia Sonic-2 │
   │ (streaming WSS)  │              │ (streaming SSE)  │              │ (streaming WSS)  │
   └────────▲─────────┘              └────────▲─────────┘              └────────┬─────────┘
            │                                 │                                 │
            │ オーディオチャンク                  │ コンテキスト                       │ オーディオチャンク
            │                                 │                                 │
   ┌────────┴─────────────────────────────────┴─────────────────────────────────┴────────┐
   │                          Conversation Orchestrator                                    │
   │  - VAD (Silero / サーバーサイドsemantic VAD)                                           │
   │  - Turn Detection                                                                     │
   │  - Endpointing                                                                        │
   │  - Interruption Handling                                                              │
   │  - State Management (過去発話コンテキスト+変数)                                       │
   │  - Tool Use Router (予約システム / CRM / DB)                                          │
   └────────────────────────────┬──────────────────────────────────────────────────────────┘
                                │
                ┌───────────────┼───────────────┐
                │               │               │
                ▼               ▼               ▼
        ┌─────────────┐ ┌─────────────┐ ┌──────────────┐
        │  Recording  │ │  Analytics  │ │  Compliance  │
        │  Storage    │ │  Dashboard  │ │  PII Redact  │
        └─────────────┘ └─────────────┘ └──────────────┘

この図が示すこと — モデルは3つだが、システムコンポーネントは遥かに多い。だからVapi/Retellに価値がある。最初から全部自分で作ると半年かかる。

6章 · 遅延(latency)という絶対基準 — sub-300msのファースト・バイト

6.1 なぜ300msなのか

人と人の自然な会話における応答間隔の平均は200~~300msだ。これを超えると「不自然な沈黙」に感じ、700~~800msを超えると「この人、自分の話を聞き取れなかったのか?」と思う。

ボイスエージェントが自然に感じるためには、**ユーザー発話終了 → モデル応答最初のオーディオバイト(time-to-first-byte, TTFB)**が300ms以内に返らなければならない。350~500msなら「やや不自然だが受け入れられる」、500msを超えると「変だ」という評価が始まる。

6.2 レイテンシバジェット(latency budget)

TTFB 300msを達成するには、各段階のバジェットを次のように組む必要がある。

段階	バジェット	メモ
ネットワークRTT(往復)	50~100ms	ユーザー位置で変動
Endpointing(発話終了検出)	30~80ms	semantic VADが最速
STT最終トランスクリプト	50~150ms	streaming, partial結果はもっと早い
LLM最初のトークン(TTFT)	100~300ms	モデル/プロンプト長に強く依存
TTS最初のオーディオチャンク	50~200ms	Cartesiaの75msが市場最低
合計	約 300~800ms	全段階の最低値を足して300ms、平均で500ms+

核心的な含意 — 各段階を最低に削っても300msはギリギリ。だから(a) E2Eモデルで段階そのものを減らすか、(b) 各段階を極限まで最適化するか、(c) ユーザーの発話終了前から応答を先回りで開始(speculative response)するトリックが必要。

6.3 最適化テクニック

1. Speculative response. ユーザーが言い終わる前からLLMが返答を作り始める。ユーザーが言い終わったらその時点までの返答をそのまま出すか、素早く訂正する。リスク: ユーザーが追加で話したとき返答が不自然になる可能性。

2. すべてをstreaming. STTはpartial transcriptを送る、LLMはSSE/streamingでトークンを受ける、TTSはテキストチャンクが入ってくる端からオーディオチャンクを作る。どこか1段階でもbatchなら全体がbatchになる。

3. 短いプロンプト. LLMのTTFTはプロンプト長にほぼ線形比例。システムプロンプトを短く保ち、コンテキストはキャッシュ活用。

4. キャッシュ+ウォームプール. ボイスエージェントのインスタンスを事前に立ち上げ待機させる。最初の通話のコールドスタート回避。

5. 地理的近接. 推論サーバーがユーザー地域に近くなければRTTは下がらない。AWS/GCPのマルチリージョン配置は必須。

6. End-to-Endモデル採用. OpenAI Realtimeのように段階をまとめて、中間変換遅延を消す。

6.4 計測とSLA

遅延は平均ではなく分布で見る必要がある。p50(中央値)250msでもp99が2秒なら、1%の通話が不自然になる。ボイスエージェントは通話あたり数十~数百ターンなので、p99の不自然さが通話あたり数回ずつ登場する。

運用SLAでよく使われる基準。

p50 TTFB < 300ms
p95 TTFB < 600ms
p99 TTFB < 1000ms
割り込み応答性 < 200ms

これらの指標は通話単位ではなくターン単位で計測しないと意味がない。

7章 · 用途 — AI音声が実際に効くところ

7.1 コールセンター1次受付

最も速く定着した用途。理由は単純 — 大量の繰り返し通話、決まったワークフロー、一般のオペレーターの最初の30秒がほぼ同じ質問。

典型的なワークフロー。

インバウンド. 顧客が電話 → AIエージェントが受ける → 「ご用件は?」 → 意図分類(注文照会/配送/返金/その他) → 該当領域のコンテキストロード → 回答または人間オペレーターへハンドオフ。
アウトバウンド. AIエージェントが電話 → 「こんにちは、OO衣類の配送案内でご連絡しました」 → 簡単な案内またはアポ取り。

現場の成果指標。

自己解決率30~60%(質問種類と業界による)
平均通話時間30~50%短縮
人間オペレーター比でコスト70~90%削減
顧客満足度(CSAT): ほぼ横ばいかやや低下(微細な感情処理はまだ人間が優位)

ツール: Vapi/Retell + Deepgram + Claude/GPT + ElevenLabs/Cartesia。

7.2 アポイント取り(appointment scheduling)

歯科・美容院・小規模クリニックなどのアポ取り。典型的に「いつの何時が空いていますか?」を聞き、スケジュールシステム照会 → ユーザーにオプション提示 → 確定 → SMS確認。

この領域は**関数呼び出し(tool use)**の最良の使用ケースだ。モデルがgetAvailableSlots(date)、bookSlot(slotId, customerInfo)を呼び出す。

7.3 ポッドキャスト・オーディオブック・ナレーション

長尺コンテンツの生成。ElevenLabsが最強。

ワークフロー。

原稿作成
ボイス選択または自分の声をクローン
ElevenLabs APIで原稿全文を合成
後処理(音楽追加・効果音・マスタリング)

コスト: 1時間のオーディオブックがElevenLabs Pro $99の月クレジットで十分。人間ナレーター($ 200~$500/時間)比で圧倒的なコスト削減。

品質: 微細な感情表現(例: 悲しい場面)ではまだ人間が優位だが、2025年後半以降は聴者がほぼ区別できない水準。

7.4 アクセシビリティ(accessibility)

視覚障害者のための画面読み上げ、聴覚障害者のためのリアルタイム字幕。この分野のAI音声は古い用途だが、品質向上で使い勝手が大きく改善した。

VoiceOver(macOS/iOS), TalkBack(Android)が徐々にElevenLabs/Cartesia級のボイスに置き換わりつつある。
リアルタイム字幕: Live Caption(Pixelフォン), Otter.aiなどの分野でWhisper/Deepgramが核心。

7.5 ボイスクローン — 本人認証・記憶

自分の声を保存したり、家族の声(例えば亡くなった家族)を再現する用途。技術的には30秒サンプルで可能だが、倫理的・法的グレーゾーンが最も厚い領域。

本人が生存・本人が同意 → 明確にOK
本人が死亡 → 家族の同意があっても法的曖昧(deceased persons rights)
本人が生存だが同意していない → 明白な違法(ディープフェイク領域)

ElevenLabsは「Voice Verification」という検証プロセスを義務化する — クローンしようとする声の本人が直接ElevenLabsで検証フレーズを録音する必要がある。

7.6 効かない領域

正直に。

高度なコールセンターのクレーム対応. 怒っている顧客の感情をなだめる仕事はまだ人間が優位。
法律・医療相談. 正確性と責任負担のため、AI音声単独は危険。
創作協業(声優ディレクターのように). 微細なディレクションが必要な領域。
低資源言語. 英語/スペイン語/中国語は良いが、学習データが少ない言語(例: ベトナム語、スワヒリ語)は品質が明確に落ちる。
リアルタイム通訳. 有意義だが、遅延と精度がまだ不十分。

8章 · ビルド対バイ — 正直な意思決定フレーム

8.1 3つの道

ボイスエージェントを作るときの選択肢は3つ。

Path A: 完全SaaS. ElevenLabs Conversational AI, Air AI, またはVapi/Retellのノーコードビルダーだけで作る。ビルド時間: 数日。コスト: 分あたり $0.05~$ 0.30。コントロール: 弱。

Path B: プラットフォーム+カスタム. VapiやRetellをベースに、関数呼び出しとワークフローを自分で書く。ビルド時間: 1~~4週。コスト: 分あたり $0.05~$ 0.20+開発人件費。コントロール: 中~~高。

Path C: フルビルド. STT/LLM/TTSを自分で組み合わせ、VAD/エンドポインティング/状態管理を自分で書く。ビルド時間: 3~~6ヶ月。コスト: API費用+フルタイムエンジニア2~~3名。コントロール: 非常に強。

8.2 決定木

スタート
 │
 ├─ 通話ボリュームが月 1,000分未満?
 │   └─ Yes → Path AまたはPath B。Path Cは絶対に正当化されない。
 │
 ├─ 業界特化のコンプライアンスが必要? (HIPAA, PCI, SOC2)
 │   ├─ Yes → Path B(Vapiのエンタープライズ tier+コンプライアンスオプション)または
 │   │        Path C(完全自前デプロイ)
 │   └─ No  ↓
 │
 ├─ 通話ボリュームが月 100,000分以上?
 │   └─ Yes → コスト分析必要。SaaS単価 X ボリューム vs 自前インフラ。
 │            大抵Path Bのエンタープライズ契約が最適。
 │
 ├─ モデル選択が重要? (例: 特定LLM固定が必要)
 │   ├─ Yes → Path B(Vapiのモデルモジュラリティ)
 │   └─ No  → Path A(速いスタート)
 │
 ├─ 微細なUXコントロールが絶対的? (反応トーン・割り込みポリシーなど)
 │   ├─ Yes → Path C検討可能
 │   └─ No  → Path B

8.3 コスト比較

月通話量別のおおよそのコスト比較(スタック平均値)。

月通話	Path A ($0.20/分)	Path B ($0.10/分)	Path C(自前)
1,000分	$200	$100	人件費だけで数千
10,000分	$2,000	$1,000	人件費+インフラ $300
100,000分	$20,000	$10,000	人件費+インフラ $2,000
1,000,000分	$200,000	$100,000	人件費+インフラ $20,000

この表が示す含意 — 月100万分(年1200万分)以上からPath Cの自前ビルドがSaaS比で価格的に意味を持つ。それ未満ではSaaSの運用負担節約が価格差をほぼ常に上回る。

8.4 業界別パターン

B2B SaaSの音声機能. Path AまたはPath B。速い出荷が核心。
コールセンター置き換え. Path Bのエンタープライズ契約。通話安定性とコンプライアンスが核心。
本人ボイスIPが資産の会社(例: 広告・メディア). Path C。ボイスクローニングモデルを自前ホスト、データを外に出さない。
コンシューマーアプリの音声機能. Path AまたはPath B。OpenAI RealtimeかVapi。
ヘルスケア/金融コンプライアンス領域. Path Bのコンプライアンスオプションまたは Path C。

エピローグ — チェックリスト、アンチパターン、次回予告

AI音声は2024年5月のGPT-4oデモの「うわっ、自然だ」のショックから、2026年5月の「sub-300msファースト・バイトでボイスエージェントが本当に回る」の成熟へ進んだ。音楽・画像・動画と同じパターンだが、音声は双方向で遅延が絶対的だという2つの追加制約がカテゴリをより興味深くした。

2026年5月時点の結論は単純だ。TTS品質だけ見ればどのメジャーモデルを使っても十分良い。 本当の差別点は (a) ファースト・バイト遅延、(b) ボイスエージェントスタック全体の安定性、(c) コンプライアンスと同意処理、(d) 価格-ボリュームのバランス。だからモデル単独でなくスタック全体を見る視野が必要。

ツール選択チェックリスト

TTSだけが必要か、ボイスエージェントが必要か? — TTSだけならElevenLabs/Cartesia、エージェントならVapi/RetellまたはOpenAI Realtime。
ファースト・バイト遅延が絶対的か? — Cartesia Sonic-2またはOpenAI Realtime+キャッシュ+ウォームプール。
モデル選択が必要か? — Vapiが最も自由。ElevenLabs Conversational AIは自社ボイス優先。
言語が英語/日本語/韓国語以外か? — ツール別の言語サポートと自然さを直接評価必須。
通話ボリュームは月いくらか? — 100万分未満はSaaSがほぼ常勝。
コンプライアンスが必要か? — HIPAA/PCI/SOC2ならエンタープライズ契約か自前ホスト。
ボイスクローニングが必要か? — ElevenLabs Voice CloningまたはResemble AI、ただし同意検証必須。
STT精度が絶対的か? — 自分のドメインデータでDeepgram vs AssemblyAI vs Whisperを直接比較。
関数呼び出し(tool use)が必要か? — Vapi, OpenAI Realtime, ElevenLabs Conversational AIすべてサポート。
分析/録音/ダッシュボードが必要か? — Vapi/Retellがほぼ標準提供。自前ビルドは重い負担。

アンチパターン

アンチパターン	なぜ悪いか	代わりに
モデル品質だけ見てツール選択	スタック全体の遅延が決定要因	ファースト・バイト遅延と安定性も評価
最初のツールでモデルロックイン	モデルは6ヶ月ごとに改善	Vapiのようにモデルモジュラリティのあるプラットフォーム
ビルド時にbatch APIから始める	streaming不可ならボイスエージェント成立しない	最初からstreamingベース
単純沈黙VADに依存	「えーと…」の沈黙を発話終了と誤認	semantic VADまたはendpointing
割り込み処理しない	ユーザーがモデル発話中話し始めると不自然	TTS即stop+コンテキスト更新
全トークンをフルコンテキストに	LLM TTFTが爆発、遅延崩壊	システムプロンプト短く、キャッシュ活用
ボイスクローニング同意未確認	法的リスク、評判リスク	検証ワークフロー義務化
一箇所に全データ送る	PII露出リスク	自前ホストオプションまたはPII redact
平均遅延だけ見てSLA判断	p99の不自然さが通話あたり複数回登場	p50/p95/p99すべて計測
フルビルドを早く決定	運用負担が普通ビルドコストを上回る	月100万分超えるまでSaaSで

次回予告

生成系メディア4部作はここで閉じる — 音楽、画像、動画、音声。次の記事はこの4つをまとめる生成系メディアワークフローだ。テキスト1行から音楽+画像+映像+音声が一緒に作られる統合パイプライン。Runway Gen-4, Veo 3, Sora 3が自分で音声を作る方向と、別パイプラインで組み立てる方向の2つを比較する。AIコンテンツ生成の新しい標準になる統合フローと、各段階のモデル選択をマトリックスにまとめる方法 — 今回の4部作の総括編になる予定。

プロローグ — 生成系メディア4部作の最後の一片

1章 · カテゴリの誕生 — 2023~2024年に何が起きたか

1.1 音声合成の三つの系譜

1.2 決定的瞬間 — GPT-4oの5月デモ

1.3 ボイスクローニングの爆弾 — SkyとScarlett Johansson

1.4 なぜ急に良くなったのか

2章 · TTSリーダー — ElevenLabs・Cartesia・OpenAI・Sesame

2.1 ElevenLabs — カテゴリリーダー

2.2 Cartesia — 低遅延チャンピオン

2.3 OpenAI Realtime — カテゴリを変えた一手

2.4 Sesame — 人格を持つ対話モデル

2.5 その他のTTS

2.6 TTS比較

3章 · STTリーダー — Deepgram・AssemblyAI・Whisper

3.1 Deepgram Nova-3

3.2 AssemblyAI Universal-2

3.3 Whisper・WhisperX — オープンソースの基準

3.4 STT比較

4章 · ボイスエージェント・プラットフォーム — Vapi・Retell・Bland・Hume

4.1 Vapi — プラットフォームレイヤーの代表

4.2 Retell — Vapiの最も近いライバル

4.3 Bland — 電話コール自動化特化

4.4 Hume EVI — 感情認識音声

4.5 ボイスエージェント・プラットフォーム比較

5章 · ボイスエージェントスタック — 一通話がどう流れるか

5.1 伝統的な3段階パイプライン

5.2 End-to-Endマルチモーダルモデル

5.3 周辺コンポーネント

5.4 スタックダイアグラム — 実際のシステム

6章 · 遅延(latency)という絶対基準 — sub-300msのファースト・バイト

6.1 なぜ300msなのか

6.2 レイテンシバジェット(latency budget)

6.3 最適化テクニック

6.4 計測とSLA

7章 · 用途 — AI音声が実際に効くところ

7.1 コールセンター1次受付

7.2 アポイント取り(appointment scheduling)

7.3 ポッドキャスト・オーディオブック・ナレーション

7.4 アクセシビリティ(accessibility)

7.5 ボイスクローン — 本人認証・記憶

7.6 効かない領域

8章 · ビルド対バイ — 正直な意思決定フレーム

8.1 3つの道

8.2 決定木

8.3 コスト比較

8.4 業界別パターン

エピローグ — チェックリスト、アンチパターン、次回予告

ツール選択チェックリスト

アンチパターン

次回予告

参考 / References