- Published on
AI音声 2026 — ElevenLabs・OpenAI Realtime・Cartesia・Vapi・Sesame・Deepgram、ボイスエージェントスタックの現在地
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — 生成系メディア4部作の最後の一片
ここ数週、我々は生成系メディアをカテゴリーごとに整理してきた。音楽(Suno, Udio, Lyria, ElevenMusic)、画像(FLUX, Imagen, Midjourney, Ideogram, Recraft, Firefly)、動画(Sora, Veo, Runway, Pika, Kling, Luma, Hailuo)。パターンは毎回同じだった — 2024年の衝撃的なデモ、2025年の荒削りなベータ、2026年の成熟したツール群、そして依然として解けない難しい領域たち。
今日が最後の一片 — 音声(voice)だ。 音声は他の3つと決定的に違う点が2つある。
第一に、音声は双方向だ。 音楽は作ったら終わり、画像も作ったら終わり、動画も作ったら終わり。しかし音声は、人が話しかけたら聞いて理解し(STT)、何を返すか考え(LLM)、自然な声で返す(TTS)。この3段階のパイプラインが会話という単位でまとめられる。だから音声カテゴリーは単純なTTSモデル比較ではなく、ボイスエージェントスタック全体を見る必要がある。
第二に、音声では遅延(latency)が絶対的だ。 音楽は30秒、画像は10秒、動画は1分でも待てる。しかし人と人が会話するとき、沈黙が800msを超えると不自然になり、1.5秒を超えると話を止めたのかと思われる。だからボイスエージェントはユーザー発話の終わり → 応答最初のオーディオバイトを300ms以内に返さなければ自然に感じない。音楽・画像・動画では気にする必要がなかった次元だ。
この2つの違いが2026年の音声カテゴリーを面白くしている。モデル品質だけでは足りない。WebRTCのような転送層、ターン検出(turn detection)、割り込み処理(interruption handling)、エンドポインティング、キャッシュウォーミングとウォームプール — システムレイヤー全体を一緒に設計する必要がある。
2026年5月時点のランドスケープ。
- ElevenLabsがコンシューマーTTSとB2Bボイスクローニングのカテゴリリーダーの座を固め、Conversational AIというボイスエージェント製品でスタックを上っている。
- OpenAI Realtime APIがGPT-Realtimeモデル上で本物の音声-イン-音声-アウトをWebRTCで提供し、カテゴリそのものを変えた。
- CartesiaのSonic-2が75msのファースト・バイトで現時点で最速のTTSの座にある(ベンダー数値、2026年5月)。
- VapiがSTT/LLM/TTSを組み合わせるボイスエージェント・プラットフォーム・レイヤーを掌握し、昨年6月に$64M Series Bを調達した。
- SesameのCSM(Conversational Speech Model)が「人間らしい人格」という新しい軸を開いた。
- STT側はDeepgram Nova-3とAssemblyAI Universal-2の二強構図、Whisper Large V3 TurboとWhisperXがオープンソースの基準。
- Hume EVI 4は感情認識・生成、Blandは電話コール自動化、RetellもB2Bボイスエージェント市場で競争する。
この記事はそのランドスケープを整理する。誰がどの仕事に合うのか、ボイスエージェントスタックはどう構成されるのか、sub-300msのファースト・バイト目標をどう達成するのか、ビルドとバイの境界はどこか、そしてボイスクローニングの同意(consent)の現実まで — AIがコールセンターを置き換えるとか、AI音声が危険だとかの両極端な議論は抜きで。
一行の核心: 2026年のAI音声は「TTSが良くなった」ではなく「スタック全体がsub-300msで回せるようになった」という話だ。その差を理解すればツール選択が楽になる。
1章 · カテゴリの誕生 — 2023~2024年に何が起きたか
1.1 音声合成の三つの系譜
AI音声合成は実は30年来の分野だ。初期はconcatenative TTS(録音断片の連結)、次にparametric TTS(音響パラメータを統計モデルで予測)、2017年からneural TTS(WaveNet, Tacotron)。今我々が使うツールの直接の先祖は2020年以降の2つの流れだ。
系譜1: マルチスピーカー・ニューラルTTS. テキストと話者埋め込みを共に入力し、任意の声で合成する。ElevenLabsがこの系譜から出発した(2022年11月創業)。
系譜2: 自己回帰コーデックモデル. テキストLLMの考え方をオーディオに直接適用する。EnCodec, SoundStreamのようなニューラルオーディオコーデックでオーディオをトークンに圧縮し、トランスフォーマーがそのシーケンスを学習する。Microsoft VALL-E(2023年1月)、Meta Voicebox(2023年6月)、そしてOpenAIのWhisper(STT、2022年9月)が同じ系譜の発見だ。
2023年末から2024年初めにかけて、2つの系譜が混ざり始める。ElevenLabsは自己回帰+ディフュージョンのハイブリッドで、MicrosoftはVALL-E 2で、OpenAIはマルチモーダルLLM(GPT-4o)の中に音声トークンを直接入れる方向に進んだ。
1.2 決定的瞬間 — GPT-4oの5月デモ
2024年5月、OpenAIはGPT-4oを公開した際、音声-イン-音声-アウトのデモを見せた。ユーザーが話すとモデルが聞き、同じモデルが答えを音声で返す。割り込みが自然で、感情がのり、歌まで歌う。カテゴリ全体がその瞬間に描き直された。
しかしデモ公開後の出荷は遅かった — 最初は7月、次に10月のRealtime API(ベータ)、2025年8月のGPT-RealtimeモデルGA(正式リリース)。その間にAnthropic、Google、Cartesiaのような他陣営が自分の答えを作る時間を得た。
1.3 ボイスクローニングの爆弾 — SkyとScarlett Johansson
2024年5月14日、OpenAIは「Sky」というGPT-4oの音声を発表した。俳優のScarlett Johanssonは以前OpenAIの音声提案を断っていたが、Skyが自分の声と似すぎていると公に抗議した。OpenAIはSkyの音声をただちに取り下げた。
この事件は業界全体にシグナルを送った。ボイスクローニングの同意(consent)は単なる利用規約のチェックボックスではなく、法的・倫理的な土台そのものだということ。以後、すべてのメジャー音声モデルは「この声をクローンする権利があるか」を検証するプロセスを義務化した。
1.4 なぜ急に良くなったのか
他の生成系メディアと同じ3つの変数だ。
- データ. ライセンスされたマルチスピーカー音声データセット(LibriTTS, GigaSpeech, Common Voice)が豊富になり、メジャー各社は独自に数万時間規模の音声をライセンスして学習する。
- 計算リソース. H100/H200クラスタでマルチビリオンパラメータの音声モデル学習が合理的な時間で終わるようになった。
- アーキテクチャ. ニューラルオーディオコーデック+トランスフォーマー+マルチスピーカー埋め込み+ディフュージョンデコーダの組み合わせが定着した。
特に2024~2025年に低遅延ストリーミングが標準になったのが大きい。以前は「テキスト全文を受け取って30秒の音声を作って一括で返す」だったが、今は「テキストトークンが入ってくる端からオーディオチャンクをストリーミング」だ。これがボイスエージェントの実現を可能にした。
2章 · TTSリーダー — ElevenLabs・Cartesia・OpenAI・Sesame
2.1 ElevenLabs — カテゴリリーダー
2026年5月時点で最も多く使われているテキスト・トゥ・スピーチはElevenLabsだ。2022年11月創業、2024年1月にAndreessen Horowitzリードのシリーズ B(180M、$3.3Bバリュエーション)、そして2026年にはマルチモーダル音声カンパニーへ拡張中。
製品ライン。
- TTS API. Multilingual v2がベース、Turbo v2.5が低遅延向け、Flash v2.5がさらに速いベースライン。v3モデル群が2026年5月にベータ公開。
- Voice Design v2. テキストプロンプトで新しい声をデザインする(「warm, mid-30s female narrator, slight British accent」など)。2026年1月にv2へアップグレード。
- Voice Cloning. Instant(30秒サンプル、速いクローン)とProfessional(30分以上サンプル、高品質クローン)。
- Conversational AI. 2024年11月ベータ、2025年1月GA。STT/LLM/TTSをまとめたボイスエージェントビルダー。ElevenLabsが一段スタックを上った製品ライン。
- ElevenMusic. 音楽生成サイド(前回記事で扱った)。
- ElevenStudio. 吹き替え・翻訳。映像の音声を別言語に自然に吹き替える。
品質は? 英語・日本語・韓国語・スペイン語・フランス語・ドイツ語を含む32言語をサポート、日本語ボイスの自然さは2025年以降明確に改善した。ただ、微細な感情コントロール(例: 皮肉のトーン、抑制された悲しみ)はまだ英語より弱い。
価格(2026年5月)。
- Free: 月10,000クレジット
- Starter: $5/月、30,000クレジット
- Creator: $22/月、100,000クレジット、商用利用可
- Pro: $99/月、500,000クレジット
- Scale: $330/月以上
- Enterprise: 個別
2.2 Cartesia — 低遅延チャンピオン
Cartesiaは2024年2月創業。創業者Karan GoelとAlbert GuはStanfordでstate-space modelの研究をしており、Mambaアーキテクチャの共著者だ。2024年5月に64M Series A($300Mバリュエーション)、2026年1月に追加のSeries Bラウンド。
主力はSonicシリーズ — Sonic-1(2024年)とSonic-2(2025年9月)。Sonic-2のファースト・バイト遅延は75ms(自社発表、2026年5月)で、現時点で市場最速のTTSだ。これがボイスエージェントのsub-300msファースト・バイト目標を初めて現実にしたモデル。
品質はElevenLabsと微妙な差がある。英語の単純文ではほぼ同等、表現力豊かなボイス(ドラマチックなナレーションなど)はElevenLabsがやや上、しかし低遅延のボイスエージェントシナリオではCartesiaが圧倒的。
価格(2026年5月)。
- Free: 月50,000文字
- Creator: $5/月、100,000文字/月
- Pro: $49/月、1,000,000文字/月
- Scale: $299/月
- Enterprise: 個別
2.3 OpenAI Realtime — カテゴリを変えた一手
OpenAI Realtime APIは2024年10月ベータ開始、2025年8月にGPT-RealtimeモデルのGA(正式リリース)と共に安定した。WebRTCを標準転送層として採用し、カテゴリそのものを変えた。
主な特徴。
- 音声-イン-音声-アウト. STT/LLM/TTSの3段階パイプラインではなく、マルチモーダルモデルの中で一気に処理。理論的により短い遅延。
- WebRTC. ブラウザでワンライナーで接続。UDPベースなのでWebSocketよりネットワーク損失に強い。
- 関数呼び出し(tool use). 対話中にモデルが関数を呼んで外部システムにアクセス。ボイスエージェントの必須機能。
- VAD(Voice Activity Detection). ユーザーが話し終わったかをモデル自身が判断。サーバーサイドのsemantic VADがデフォルト。
- 割り込み. ユーザーがモデル発話中に話し始めるとモデルが即座に停止。
価格(2026年5月、GPT-Realtime基準)。
- 音声入力: $40/100万トークン
- 音声出力: $80/100万トークン
- キャッシュ入力: $2.5/100万トークン
OpenAI Realtimeの限界はモデル選択がほぼないこと。GPT-Realtimeという単一モデルに固定される。他のLLM(Claude, Gemini)を使いたければ、STT/TTSを別途構成しテキストAPIを呼ぶ伝統的なパイプラインに戻ることになる。
2.4 Sesame — 人格を持つ対話モデル
Sesame AIは2025年初に公に登場した新しい陣営だ。創業者Brendan IribeはOculus VRの共同創業者・元CEO。その背景から「音声とデバイスが融合した未来」というビジョンが具体的だ。
主力はCSM(Conversational Speech Model)。2025年2月のデモが公開されたとき、インターネットが本当に揺れた — 最も自然で、最も人格があり、最も人間らしく感じる音声という反応。冗談を放ち、ちょっと躊躇し、突然トーンを変える人間的な細部が生きている。
CSMの技術基盤。
- end-to-endのマルチモーダルLLMで音声合成. 従来のTTSと異なりLLMが直接音声トークンを生成する。
- 人格ベースの学習. 「Maya」と「Miles」の2キャラクターから始め、それぞれの発話スタイルを学習データに用いた。
- 2026年5月時点でベータ. オープンAPIはまだ限定的、デモと一部パートナー統合中心。
Sesameの含意は大きい — 音声カテゴリで「技術的に正確である」を超え「人格と表現」が次の競争軸になるというシグナルだ。
2.5 その他のTTS
- Azure Speech. Microsoftのエンタープライズ向けTTS。ボイスカタログが最も広く(140+言語、600+音声)、安定性が検証済み。最新の自然さはElevenLabs/Cartesiaに半歩遅れ。
- Google Cloud TTS. Vertex AIと統合。Chirp 3 HDボイスで品質が大幅に向上。
- AWS Polly. Amazonのクラシックなクラウド型TTS、Generative voiceオプション追加。価格とSLAが魅力。
- Play.ht. コンシューマー寄り、ポッドキャスト・YouTubeクリエイター市場に強い。
- Resemble AI. ボイスクローニング特化、B2B。
- Coqui XTTS. オープンソースTTS、Coquiは2024年廃業したがモデルはGitHubに残っている。
2.6 TTS比較
| ツール | ファースト・バイト遅延 | 自然さ | ボイス多様性 | 日本語 | 価格帯 | 主な用途 |
|---|---|---|---|---|---|---|
| ElevenLabs v3 | 約 200~400ms | 非常に高 | 非常に広 | 良好 | 中上 | コンテンツ・B2Bエージェント |
| Cartesia Sonic-2 | 約 75ms | 高 | 広 | 普通 | 中 | 低遅延エージェント |
| OpenAI Realtime | 約 300~500ms (E2E) | 高 | 限定的 | 良好 | 高 | マルチモーダルエージェント |
| Sesame CSM | 未公開 | 非常に高(人格) | キャラ限定 | 未評価 | ベータ | 次世代対話 |
| Azure Speech | 約 200~300ms | 普通~高 | 非常に広 | 良好 | 中 | エンタープライズ |
| Google TTS Chirp 3 | 約 200~400ms | 高 | 広 | 良好 | 中 | GCP統合 |
| AWS Polly Generative | 約 300~500ms | 普通~高 | 広 | 普通 | 低~中 | AWS統合 |
3章 · STTリーダー — Deepgram・AssemblyAI・Whisper
3.1 Deepgram Nova-3
Deepgramは2015年創業、STT専門のもっとも古い陣営の一つ。2024年6月にSeries C(100M)、2026年1月に追加ラウンド。
主力モデルはNova-3(2025年6月GA)。前のNova-2比で精度・遅延・価格すべてが改善された。
- WER(Word Error Rate). 英語7.7%(Nova-2: 8.4%)、多言語平均12.3%(Nova-2: 15.1%)。2026年標準ベンチ(CommonVoice, Earnings-22)で計測。
- 遅延. ストリーミングモード最初の単語まで約 250ms、バッチモード1時間のオーディオを約30秒で処理。
- 多言語. 30+言語、日本語含む。Code-switching(1発話に2言語混在)も処理。
- ダイアリゼーション. 話者分離の精度がNova-2比で明確に改善。
- Smart Format. 数字・通貨・メール・電話番号を自動フォーマット。
価格(2026年5月)。
- Pre-recorded: 0.26/時間)
- Streaming: $0.0058/分
- Enhanced(強化モデル): 追加コスト
Deepgramの強みは低遅延ストリーミング+価格+B2B安定性のバランス。Vapi, Retell, Blandのようなボイスエージェント・プラットフォームがSTTのデフォルトに採用する。
3.2 AssemblyAI Universal-2
AssemblyAIは2017年創業、Y Combinator出身。Deepgramの最も直接的な競合だ。
主力モデルはUniversal-2(2025年後半GA)。Universal-1より明確に精度が向上、「フォーマットと可読性」に強み。
- WER. 英語6.6%、多言語平均11.8%。一部ベンチではDeepgram Nova-3よりわずかに正確。
- タイムスタンプ. 単語単位のタイムスタンプと話者分離が非常に正確。
- 言語検出+Code-switching. 自動。
- Speaker Diarization. 業界で最も正確な陣営の一つ。
- 追加機能. Sentiment Analysis, Entity Detection, Topic Detection, Summarization, PII Redactionが一つのAPIで一緒に処理される。
価格(2026年5月)。
- Bestモデル: $0.37/時間(バッチ)
- Universal-2: $0.27/時間
- Streaming: $0.47/時間
AssemblyAIの強みはポストプロセッシング統合(要約・感情・エンティティ)。コールセンター分析、ミーティングノートのような用途に強い。
3.3 Whisper・WhisperX — オープンソースの基準
OpenAI Whisperは2022年9月にオープンソースで公開されたマルチ言語STTモデル。MITライセンス。自前ホスティングでコストを削減したり、データを外部に出さない陣営で今も標準。
Whisper Large V3 Turbo(2024年10月) — V3比で約8倍速く、品質はほぼ同等。オープンソースSTTの強力な基準。
WhisperX(2023~2025年) — Whisperの上にforced alignment, voice activity detection, speaker diarizationを載せたオープンソースプロジェクト。正確な単語単位タイムスタンプが必要な用途で事実上の標準。
Faster-Whisper — CTranslate2ベースの最適化、GPUでWhisper比4倍速い。
性能(英語LibriSpeech test-clean)。
- Whisper Large V3 Turbo: WER 約 3.1%
- Faster-Whisper Large V3: WER 約 3.4%
- WhisperX(タイムスタンプ精度): 非常に高
オープンソースWhisperの限界は (a) 真のリアルタイムストリーミング非対応(チャンク単位処理のワークアラウンドのみ)、(b) 話者分離は別モデル必要、(c) リアルタイムAPIのような運用負担を自分で抱える必要がある。
3.4 STT比較
| モデル | WER(英語) | WER(多言語) | 遅延(ストリーミング) | 価格($/時間) | ライセンス | 日本語 |
|---|---|---|---|---|---|---|
| Deepgram Nova-3 | 7.7% | 12.3% | 約 250ms | 0.26 | 商用SaaS | 良好 |
| AssemblyAI Universal-2 | 6.6% | 11.8% | 約 400ms | 0.27 | 商用SaaS | 良好 |
| Whisper Large V3 Turbo | 3.1% | 7~12%(言語別差) | 非対応(チャンクで代替) | $0(自前ホスト) | MIT | 良好 |
| WhisperX | 3.1%(Whisperベース) | 同じ | 非対応 | $0 | BSD-4 | 良好 |
| Faster-Whisper | 3.4% | 同じ | 非対応 | $0 | MIT | 良好 |
| Azure Speech STT | 約 8% | 約 13% | 約 300ms | 1.0 | エンタープライズ | 良好 |
| Google STT Chirp 3 | 約 7% | 約 12% | 約 300ms | 約 0.4 | エンタープライズ | 良好 |
注意: WER数値はベンチマークとドメインに非常に敏感。ノイズの多いコールセンター音声では、WhisperのWERがSaaS陣営より大幅に悪化することも、その逆もある。自分のドメインデータで直接測定するべき。
4章 · ボイスエージェント・プラットフォーム — Vapi・Retell・Bland・Hume
4.1 Vapi — プラットフォームレイヤーの代表
Vapiは2023年創業、2024年11月に64M Series B($600Mバリュエーション)。ボイスエージェントカテゴリで最も急成長した会社の一つ。
Vapiのポジショニングは**「STT/LLM/TTSのオーケストレーションレイヤー」**。自分でモデルを作らず、市場の最高モデル(Deepgram, OpenAI, ElevenLabs, Cartesiaなど)を組み合わせてボイスエージェントを作れるようにする。
主な機能。
- モジュラースタック. STT(Deepgram/AssemblyAI)、LLM(OpenAI/Anthropic/Google)、TTS(ElevenLabs/Cartesia/PlayHT)を自由に組み合わせ。
- ターン検出. ユーザーが話し終わったかを意味ベース(semantic VAD)で判定。
- 割り込み処理. ユーザーがモデル発話中に話し始めるとモデル即stop。
- 関数呼び出し. 対話中に外部API呼び出し(予約システム、CRM照会など)。
- 電話統合. Twilio/Vonage/Telnyxで実際の電話番号に接続。
- 録音+分析. 全通話録音、ダッシュボードで検索・フィルタ・分析。
価格(2026年5月)。
- 無料: 月10分
- 従量制: スタック選択で 0.20/分
- Enterprise: 個別
Vapiの強みは**「ビルドが速い+モデルのロックインがない」**。週末でボイスエージェントのMVPを作れて、モデルを変えたければ設定一行変更で済む。
4.2 Retell — Vapiの最も近いライバル
Retellも2023年創業、B2Bボイスエージェント・プラットフォーム。Vapiとほぼ同じポジショニングだが、「エンタープライズ通話安定性」により集中する。
- 高品質な通話インフラ. Twilio統合がより深く、通話安定性のSLAが強い。
- Agent Studio. ノーコード/ローコードビルダーの完成度がより高い。
- 分析. 通話結果の自動分類、通話別分析。
価格構造はVapiと近い(0.18/分)。
4.3 Bland — 電話コール自動化特化
Bland AIは「電話で人と会話するAI」という特定の用途に集中する。一般的なボイスエージェントよりインバウンド/アウトバウンド・コールセンター自動化に特化。
- 大規模同時通話. 数千通話の同時処理。
- ワークフロービルダー. 分岐ロジック・変数抽出・CRM連携。
- 音声クローニング. 自社の営業トーンに合った音声をクローン。
- コンプライアンス. TCPA(米国通信広告規制)対応ツール。
ターゲット市場: 営業コールバック、アポイント取り、顧客サーベイ、債権回収など。
4.4 Hume EVI — 感情認識音声
Hume AIは別の陣営だ。「音声には感情がのる」という視点から出発した。**EVI(Empathic Voice Interface)**モデルはユーザーの音声トーンから感情を認識し、応答の音声に感情をのせることに特化している。
- EVI 4(2026年初頭)。トーン分類精度、応答感情の精度ともに改善。
- 用途. メンタルヘルスチャットボット、コーチング、ケアコール。
- 限界. 感情分類が実際のユーザー体験と一致するかの検証は進行中。
4.5 ボイスエージェント・プラットフォーム比較
| プラットフォーム | ポジショニング | 主な用途 | モデル選択 | 価格($/分) | 差別化 |
|---|---|---|---|---|---|
| Vapi | オーケストレーションレイヤー | あらゆるボイスエージェント | 非常に広(全メジャー) | 0.05~0.20 | 速い構築、ロックインなし |
| Retell | エンタープライズ通話 | コールセンター・B2B営業 | 広 | 0.07~0.18 | 通話安定性・Studio |
| Bland | 電話自動化特化 | 営業・アポ取り・サーベイ | 自社+一部 | 0.10~0.15 | 大規模同時通話 |
| ElevenLabs Conversational AI | 統合スタック | コンテンツ/B2Bエージェント | ElevenLabs優先 | セッション基準 | 自社ボイス統合 |
| OpenAI Realtime | API直接 | 自前ビルド | GPT-Realtime固定 | トークン基準 | 最短のE2E遅延 |
| Hume EVI | 感情認識特化 | ヘルスケア・ケア | EVIモデル | 個別 | トーン分析 |
5章 · ボイスエージェントスタック — 一通話がどう流れるか
5.1 伝統的な3段階パイプライン
ほとんどのボイスエージェントは3つのモデルを連結する。
ユーザー発話オーディオ
│
▼
[STT] Speech-to-Text
(例: Deepgram Nova-3 streaming)
│
▼ テキストトークン
[LLM] Large Language Model
(例: GPT-5, Claude Opus 4.7, Gemini 2.5)
│
▼ 応答テキスト
[TTS] Text-to-Speech
(例: Cartesia Sonic-2 streaming)
│
▼
モデル応答オーディオ
各段階が独立する利点は交換可能性 — モデルを一つだけ変えても他の段階はそのまま。WhisperをSTTに、ClaudeをLLMに、ElevenLabsをTTSに、任意の組み合わせで使える。Vapi/Retellはこの組み合わせ空間を管理するために存在する。
最大の欠点は累積遅延だ。各段階が100msずつしかかからなくても合計300ms、ネットワークRTTを加えると400~500msに簡単に到達する。
5.2 End-to-Endマルチモーダルモデル
OpenAI Realtimeと一部の次世代モデル(Sesame CSM, GPT-4oの音声モード)は違う。1つのモデルが音声を入力として受け、音声出力を直接生成する。
ユーザー発話オーディオ
│
▼
[E2E Multimodal LLM]
- 音声トークン入力
- テキスト/音声トークン出力
- WebRTCで直接ストリーミング
│
▼
モデル応答オーディオ
利点 — 潜在的に短い遅延(中間段階がない)、感情/抑揚がより自然(STTがトーン情報を捨てない)。欠点 — モデル選択不可、価格が高い、fine-tuneが難しい。
5.3 周辺コンポーネント
実際に動くボイスエージェントはSTT/LLM/TTSだけでは成立しない。以下のコンポーネントが追加される。
VAD(Voice Activity Detection). ユーザーが今話しているか沈黙かを判定。Silero VAD, WebRTC VADがオープンソース標準。より進歩した形がsemantic VAD — 「ユーザーが話し終わったか」を意味ベースで判定する(質問が終わったか、まだ考えている最中か)。
ターン検出. 「今モデルが答える番か?」を決定。単純VAD(沈黙300ms検出)から始まり、より精緻なモデルへ発展中。OpenAI Realtimeはサーバーサイドのsemantic VADをオプションで提供。
Endpointing. 発話の終わりを正確に見つける。「えーと…つまり…」のような迷い文中の沈黙を発話終了と誤認しないこと。
Interruption Handling. ユーザーがモデル発話中に話し始めたら、(a) モデルが現在のTTSを即座に中断、(b) 新しいユーザー発話を再処理、(c) コンテキストに「ユーザーが割り込んだ」を反映する。
Conversation State Management. 過去の発話のコンテキスト、ユーザーが交わした約束、モデルが交わした約束、変数(例: ユーザー名、注文番号)を管理。LLMのコンテキストウィンドウと外部メモリの結合。
Tool Use / Function Calling. 対話中の外部API呼び出し。「予約を12時30分に変えて」と言われたらモデルがupdateAppointment(id, newTime)のような関数を呼ぶ。
モニタリングと分析. 通話録音、文字起こし、感情分析、結果分類、ダッシュボード。運用の核心。
5.4 スタックダイアグラム — 実際のシステム
┌─────────────────────────┐
[電話 ─── PSTN ─── Twilio]────────▶│ Voice Agent Platform │
│ (Vapi / Retell / etc) │
└────────────┬─────────────┘
│
┌──────────────────────────────────┼──────────────────────────────────┐
│ │ │
▼ ▼ ▼
┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ STT │ │ LLM │ │ TTS │
│ Deepgram Nova-3 │──テキスト────▶│ Claude / GPT │──応答テキスト▶│ Cartesia Sonic-2 │
│ (streaming WSS) │ │ (streaming SSE) │ │ (streaming WSS) │
└────────▲─────────┘ └────────▲─────────┘ └────────┬─────────┘
│ │ │
│ オーディオチャンク │ コンテキスト │ オーディオチャンク
│ │ │
┌────────┴─────────────────────────────────┴─────────────────────────────────┴────────┐
│ Conversation Orchestrator │
│ - VAD (Silero / サーバーサイドsemantic VAD) │
│ - Turn Detection │
│ - Endpointing │
│ - Interruption Handling │
│ - State Management (過去発話コンテキスト+変数) │
│ - Tool Use Router (予約システム / CRM / DB) │
└────────────────────────────┬──────────────────────────────────────────────────────────┘
│
┌───────────────┼───────────────┐
│ │ │
▼ ▼ ▼
┌─────────────┐ ┌─────────────┐ ┌──────────────┐
│ Recording │ │ Analytics │ │ Compliance │
│ Storage │ │ Dashboard │ │ PII Redact │
└─────────────┘ └─────────────┘ └──────────────┘
この図が示すこと — モデルは3つだが、システムコンポーネントは遥かに多い。だからVapi/Retellに価値がある。最初から全部自分で作ると半年かかる。
6章 · 遅延(latency)という絶対基準 — sub-300msのファースト・バイト
6.1 なぜ300msなのか
人と人の自然な会話における応答間隔の平均は200300msだ。これを超えると「不自然な沈黙」に感じ、700800msを超えると「この人、自分の話を聞き取れなかったのか?」と思う。
ボイスエージェントが自然に感じるためには、**ユーザー発話終了 → モデル応答最初のオーディオバイト(time-to-first-byte, TTFB)**が300ms以内に返らなければならない。350~500msなら「やや不自然だが受け入れられる」、500msを超えると「変だ」という評価が始まる。
6.2 レイテンシバジェット(latency budget)
TTFB 300msを達成するには、各段階のバジェットを次のように組む必要がある。
| 段階 | バジェット | メモ |
|---|---|---|
| ネットワークRTT(往復) | 50~100ms | ユーザー位置で変動 |
| Endpointing(発話終了検出) | 30~80ms | semantic VADが最速 |
| STT最終トランスクリプト | 50~150ms | streaming, partial結果はもっと早い |
| LLM最初のトークン(TTFT) | 100~300ms | モデル/プロンプト長に強く依存 |
| TTS最初のオーディオチャンク | 50~200ms | Cartesiaの75msが市場最低 |
| 合計 | 約 300~800ms | 全段階の最低値を足して300ms、平均で500ms+ |
核心的な含意 — 各段階を最低に削っても300msはギリギリ。だから(a) E2Eモデルで段階そのものを減らすか、(b) 各段階を極限まで最適化するか、(c) ユーザーの発話終了前から応答を先回りで開始(speculative response)するトリックが必要。
6.3 最適化テクニック
1. Speculative response. ユーザーが言い終わる前からLLMが返答を作り始める。ユーザーが言い終わったらその時点までの返答をそのまま出すか、素早く訂正する。リスク: ユーザーが追加で話したとき返答が不自然になる可能性。
2. すべてをstreaming. STTはpartial transcriptを送る、LLMはSSE/streamingでトークンを受ける、TTSはテキストチャンクが入ってくる端からオーディオチャンクを作る。どこか1段階でもbatchなら全体がbatchになる。
3. 短いプロンプト. LLMのTTFTはプロンプト長にほぼ線形比例。システムプロンプトを短く保ち、コンテキストはキャッシュ活用。
4. キャッシュ+ウォームプール. ボイスエージェントのインスタンスを事前に立ち上げ待機させる。最初の通話のコールドスタート回避。
5. 地理的近接. 推論サーバーがユーザー地域に近くなければRTTは下がらない。AWS/GCPのマルチリージョン配置は必須。
6. End-to-Endモデル採用. OpenAI Realtimeのように段階をまとめて、中間変換遅延を消す。
6.4 計測とSLA
遅延は平均ではなく分布で見る必要がある。p50(中央値)250msでもp99が2秒なら、1%の通話が不自然になる。ボイスエージェントは通話あたり数十~数百ターンなので、p99の不自然さが通話あたり数回ずつ登場する。
運用SLAでよく使われる基準。
- p50 TTFB < 300ms
- p95 TTFB < 600ms
- p99 TTFB < 1000ms
- 割り込み応答性 < 200ms
これらの指標は通話単位ではなくターン単位で計測しないと意味がない。
7章 · 用途 — AI音声が実際に効くところ
7.1 コールセンター1次受付
最も速く定着した用途。理由は単純 — 大量の繰り返し通話、決まったワークフロー、一般のオペレーターの最初の30秒がほぼ同じ質問。
典型的なワークフロー。
- インバウンド. 顧客が電話 → AIエージェントが受ける → 「ご用件は?」 → 意図分類(注文照会/配送/返金/その他) → 該当領域のコンテキストロード → 回答または人間オペレーターへハンドオフ。
- アウトバウンド. AIエージェントが電話 → 「こんにちは、OO衣類の配送案内でご連絡しました」 → 簡単な案内またはアポ取り。
現場の成果指標。
- 自己解決率30~60%(質問種類と業界による)
- 平均通話時間30~50%短縮
- 人間オペレーター比でコスト70~90%削減
- 顧客満足度(CSAT): ほぼ横ばいかやや低下(微細な感情処理はまだ人間が優位)
ツール: Vapi/Retell + Deepgram + Claude/GPT + ElevenLabs/Cartesia。
7.2 アポイント取り(appointment scheduling)
歯科・美容院・小規模クリニックなどのアポ取り。典型的に「いつの何時が空いていますか?」を聞き、スケジュールシステム照会 → ユーザーにオプション提示 → 確定 → SMS確認。
この領域は**関数呼び出し(tool use)**の最良の使用ケースだ。モデルがgetAvailableSlots(date)、bookSlot(slotId, customerInfo)を呼び出す。
7.3 ポッドキャスト・オーディオブック・ナレーション
長尺コンテンツの生成。ElevenLabsが最強。
ワークフロー。
- 原稿作成
- ボイス選択または自分の声をクローン
- ElevenLabs APIで原稿全文を合成
- 後処理(音楽追加・効果音・マスタリング)
コスト: 1時間のオーディオブックがElevenLabs Pro 200~$500/時間)比で圧倒的なコスト削減。
品質: 微細な感情表現(例: 悲しい場面)ではまだ人間が優位だが、2025年後半以降は聴者がほぼ区別できない水準。
7.4 アクセシビリティ(accessibility)
視覚障害者のための画面読み上げ、聴覚障害者のためのリアルタイム字幕。この分野のAI音声は古い用途だが、品質向上で使い勝手が大きく改善した。
- VoiceOver(macOS/iOS), TalkBack(Android)が徐々にElevenLabs/Cartesia級のボイスに置き換わりつつある。
- リアルタイム字幕: Live Caption(Pixelフォン), Otter.aiなどの分野でWhisper/Deepgramが核心。
7.5 ボイスクローン — 本人認証・記憶
自分の声を保存したり、家族の声(例えば亡くなった家族)を再現する用途。技術的には30秒サンプルで可能だが、倫理的・法的グレーゾーンが最も厚い領域。
- 本人が生存・本人が同意 → 明確にOK
- 本人が死亡 → 家族の同意があっても法的曖昧(deceased persons rights)
- 本人が生存だが同意していない → 明白な違法(ディープフェイク領域)
ElevenLabsは「Voice Verification」という検証プロセスを義務化する — クローンしようとする声の本人が直接ElevenLabsで検証フレーズを録音する必要がある。
7.6 効かない領域
正直に。
- 高度なコールセンターのクレーム対応. 怒っている顧客の感情をなだめる仕事はまだ人間が優位。
- 法律・医療相談. 正確性と責任負担のため、AI音声単独は危険。
- 創作協業(声優ディレクターのように). 微細なディレクションが必要な領域。
- 低資源言語. 英語/スペイン語/中国語は良いが、学習データが少ない言語(例: ベトナム語、スワヒリ語)は品質が明確に落ちる。
- リアルタイム通訳. 有意義だが、遅延と精度がまだ不十分。
8章 · ビルド対バイ — 正直な意思決定フレーム
8.1 3つの道
ボイスエージェントを作るときの選択肢は3つ。
Path A: 完全SaaS. ElevenLabs Conversational AI, Air AI, またはVapi/Retellのノーコードビルダーだけで作る。ビルド時間: 数日。コスト: 分あたり 0.30。コントロール: 弱。
Path B: プラットフォーム+カスタム. VapiやRetellをベースに、関数呼び出しとワークフローを自分で書く。ビルド時間: 14週。コスト: 分あたり 0.20+開発人件費。コントロール: 中高。
Path C: フルビルド. STT/LLM/TTSを自分で組み合わせ、VAD/エンドポインティング/状態管理を自分で書く。ビルド時間: 36ヶ月。コスト: API費用+フルタイムエンジニア23名。コントロール: 非常に強。
8.2 決定木
スタート
│
├─ 通話ボリュームが月 1,000分未満?
│ └─ Yes → Path AまたはPath B。Path Cは絶対に正当化されない。
│
├─ 業界特化のコンプライアンスが必要? (HIPAA, PCI, SOC2)
│ ├─ Yes → Path B(Vapiのエンタープライズ tier+コンプライアンスオプション)または
│ │ Path C(完全自前デプロイ)
│ └─ No ↓
│
├─ 通話ボリュームが月 100,000分以上?
│ └─ Yes → コスト分析必要。SaaS単価 X ボリューム vs 自前インフラ。
│ 大抵Path Bのエンタープライズ契約が最適。
│
├─ モデル選択が重要? (例: 特定LLM固定が必要)
│ ├─ Yes → Path B(Vapiのモデルモジュラリティ)
│ └─ No → Path A(速いスタート)
│
├─ 微細なUXコントロールが絶対的? (反応トーン・割り込みポリシーなど)
│ ├─ Yes → Path C検討可能
│ └─ No → Path B
8.3 コスト比較
月通話量別のおおよそのコスト比較(スタック平均値)。
| 月通話 | Path A ($0.20/分) | Path B ($0.10/分) | Path C(自前) |
|---|---|---|---|
| 1,000分 | $200 | $100 | 人件費だけで数千 |
| 10,000分 | $2,000 | $1,000 | 人件費+インフラ $300 |
| 100,000分 | $20,000 | $10,000 | 人件費+インフラ $2,000 |
| 1,000,000分 | $200,000 | $100,000 | 人件費+インフラ $20,000 |
この表が示す含意 — 月100万分(年1200万分)以上からPath Cの自前ビルドがSaaS比で価格的に意味を持つ。それ未満ではSaaSの運用負担節約が価格差をほぼ常に上回る。
8.4 業界別パターン
- B2B SaaSの音声機能. Path AまたはPath B。速い出荷が核心。
- コールセンター置き換え. Path Bのエンタープライズ契約。通話安定性とコンプライアンスが核心。
- 本人ボイスIPが資産の会社(例: 広告・メディア). Path C。ボイスクローニングモデルを自前ホスト、データを外に出さない。
- コンシューマーアプリの音声機能. Path AまたはPath B。OpenAI RealtimeかVapi。
- ヘルスケア/金融コンプライアンス領域. Path Bのコンプライアンスオプションまたは Path C。
エピローグ — チェックリスト、アンチパターン、次回予告
AI音声は2024年5月のGPT-4oデモの「うわっ、自然だ」のショックから、2026年5月の「sub-300msファースト・バイトでボイスエージェントが本当に回る」の成熟へ進んだ。音楽・画像・動画と同じパターンだが、音声は双方向で遅延が絶対的だという2つの追加制約がカテゴリをより興味深くした。
2026年5月時点の結論は単純だ。TTS品質だけ見ればどのメジャーモデルを使っても十分良い。 本当の差別点は (a) ファースト・バイト遅延、(b) ボイスエージェントスタック全体の安定性、(c) コンプライアンスと同意処理、(d) 価格-ボリュームのバランス。だからモデル単独でなくスタック全体を見る視野が必要。
ツール選択チェックリスト
- TTSだけが必要か、ボイスエージェントが必要か? — TTSだけならElevenLabs/Cartesia、エージェントならVapi/RetellまたはOpenAI Realtime。
- ファースト・バイト遅延が絶対的か? — Cartesia Sonic-2またはOpenAI Realtime+キャッシュ+ウォームプール。
- モデル選択が必要か? — Vapiが最も自由。ElevenLabs Conversational AIは自社ボイス優先。
- 言語が英語/日本語/韓国語以外か? — ツール別の言語サポートと自然さを直接評価必須。
- 通話ボリュームは月いくらか? — 100万分未満はSaaSがほぼ常勝。
- コンプライアンスが必要か? — HIPAA/PCI/SOC2ならエンタープライズ契約か自前ホスト。
- ボイスクローニングが必要か? — ElevenLabs Voice CloningまたはResemble AI、ただし同意検証必須。
- STT精度が絶対的か? — 自分のドメインデータでDeepgram vs AssemblyAI vs Whisperを直接比較。
- 関数呼び出し(tool use)が必要か? — Vapi, OpenAI Realtime, ElevenLabs Conversational AIすべてサポート。
- 分析/録音/ダッシュボードが必要か? — Vapi/Retellがほぼ標準提供。自前ビルドは重い負担。
アンチパターン
| アンチパターン | なぜ悪いか | 代わりに |
|---|---|---|
| モデル品質だけ見てツール選択 | スタック全体の遅延が決定要因 | ファースト・バイト遅延と安定性も評価 |
| 最初のツールでモデルロックイン | モデルは6ヶ月ごとに改善 | Vapiのようにモデルモジュラリティのあるプラットフォーム |
| ビルド時にbatch APIから始める | streaming不可ならボイスエージェント成立しない | 最初からstreamingベース |
| 単純沈黙VADに依存 | 「えーと…」の沈黙を発話終了と誤認 | semantic VADまたはendpointing |
| 割り込み処理しない | ユーザーがモデル発話中話し始めると不自然 | TTS即stop+コンテキスト更新 |
| 全トークンをフルコンテキストに | LLM TTFTが爆発、遅延崩壊 | システムプロンプト短く、キャッシュ活用 |
| ボイスクローニング同意未確認 | 法的リスク、評判リスク | 検証ワークフロー義務化 |
| 一箇所に全データ送る | PII露出リスク | 自前ホストオプションまたはPII redact |
| 平均遅延だけ見てSLA判断 | p99の不自然さが通話あたり複数回登場 | p50/p95/p99すべて計測 |
| フルビルドを早く決定 | 運用負担が普通ビルドコストを上回る | 月100万分超えるまでSaaSで |
次回予告
生成系メディア4部作はここで閉じる — 音楽、画像、動画、音声。次の記事はこの4つをまとめる生成系メディアワークフローだ。テキスト1行から音楽+画像+映像+音声が一緒に作られる統合パイプライン。Runway Gen-4, Veo 3, Sora 3が自分で音声を作る方向と、別パイプラインで組み立てる方向の2つを比較する。AIコンテンツ生成の新しい標準になる統合フローと、各段階のモデル選択をマトリックスにまとめる方法 — 今回の4部作の総括編になる予定。
参考 / References
- ElevenLabs公式
- ElevenLabs Conversational AI
- ElevenLabs Voice Design v2
- ElevenLabs Voice Cloning
- ElevenLabs Series C — TechCrunch
- Cartesia公式
- Cartesia Sonic-2発表
- Cartesia Series A発表
- OpenAI Realtime APIドキュメント
- OpenAI Realtime API発表 — TechCrunch
- GPT-Realtime GA — OpenAI
- Scarlett Johansson Sky論争 — NPR
- Sesame AI公式
- Sesame CSM発表 — VentureBeat
- Deepgram公式
- Deepgram Nova-3発表
- Deepgram Series D発表
- AssemblyAI公式
- AssemblyAI Universal-2発表
- OpenAI Whisper GitHub
- Whisper Large V3 Turbo発表
- WhisperX GitHub
- Faster-Whisper GitHub
- Vapi公式
- Vapi Series B — TechCrunch
- Retell AI公式
- Bland AI公式
- Hume AI公式
- Hume EVI 4
- Microsoft VALL-E
- Meta Voicebox
- Mambaアーキテクチャ論文
- Silero VAD GitHub
- WebRTC for Voice AI — Cartesiaガイド
- Voice Agent Latency Best Practices — Vapiドキュメント
- Twilio Voice AI統合
- Azure Speech Service
- Google Cloud TTS Chirp 3
- AWS Polly Generative Voices