필사 모드: 音声AI & TTS 2026 完全ガイド - ElevenLabs · Cartesia Sonic · OpenAI Voice · Play.HT · Hume · Sesame · Fish Audio · Deepgram Aura 徹底解説
日本語プロローグ — 音声がLLMの口と耳になった年
2026年5月現在、「音声AI」という言葉の重みは5年前とまったく違う。
- ElevenLabs v3は32言語・感情ラベル・5秒クローンに対応し、実質的に英語圏TTSの標準となった。
- Cartesia SonicはTTFW(Time To First Word) 75msで最も速い商用TTSで、LiveKit Agentsの既定TTSである。
- OpenAI Realtime APIはSTT・LLM・TTSを単一のWebSocketで処理するフルデュプレックスを一般化した。
- Google Gemini Live・Anthropic Claude voice modeがLLMネイティブ音声を定着させた。
- Hume EVI 2とSesameのMaya/Milesデモ(2025年3月)は、感情と自然さの限界を再定義した。
- Fish Audio・CosyVoice 2・F5-TTSがオープン/中華圏で急速にシェアを伸ばした。
- Deepgram Nova-3がSTTのレイテンシを50ms未満に下げ、AssemblyAI Universal-2・OpenAI GPT-4o transcribeが精度で競っている。
- LiveKit Agents・Pipecat・Vapi・Retell AI・Bland AIといったオーケストレーション層が音声エージェントの定番スタックを作った。
- テネシー州ELVIS法・EU AI法が音声クローンの倫理に初めて法的な線を引いた。
- 韓国は타입캐스트(Neosapience)とネイバー클로바ダビング、日本はCoeFontとVOICEVOXが国内市場を主導する。
本稿はその全体地図である。どのツールがどの位置を占めているか、どの指標が本当に重要か、2026年に新規プロジェクトを始めるなら何を選ぶべきかを整理する。
1. 2026年の音声スタック — 4段パイプライン
今日の音声AIは4つの層で整理できる。
[ 第1段 ] 入力 - マイク / WebRTC / SIP / 電話
[ 第2段 ] STT (ASR) - Deepgram Nova-3 / AssemblyAI / GPT-4o transcribe / Whisper v3 turbo
[ 第3段 ] LLM - GPT-5 / Claude 4.5 / Gemini 2.5 Pro / Llama 4
[ 第4段 ] TTS - ElevenLabs / Cartesia / OpenAI / Play.HT / Hume / Sesame
[ 横軸 ] オーケストレーション - LiveKit Agents / Pipecat / Vapi / Retell / Bland
[ 横軸 ] 割り込み - VAD / barge-in / turn detection / endpointing
伝統的なSTT → LLM → TTSは今でも最多採用だが、2025年からOpenAI Realtime・Gemini Liveが証明した**フルデュプレックスのLLMネイティブ音声**が急速に領域を侵食している。
| 段 | 主要指標 |
| --- | --- |
| STT | WER(単語誤り率)、初回部分結果のレイテンシ、多言語 |
| LLM | TTFT(初トークン)、TPS(トークン/秒) |
| TTS | TTFW(初語)、音質MOS、ボイスの多様性 |
| フルデュプレックス | エンドツーエンドのレイテンシ、割り込みの自然さ |
会話レイテンシの目標は一貫している。**最初の音声まで300ms以下**。
2. 主要指標 — レイテンシ、ひたすらレイテンシ
音声AIで最も無視されがちで最も重要なのは**人間の知覚閾値**である。
- 200ms以下: 自然な人間の会話に感じる。
- 200-500ms: わずかに違和感があるが許容範囲。
- 500ms-1s: 明らかに遅い。
- 1s以上: 自動応答機のように聞こえる。
伝統的なパイプラインのレイテンシは以下のように積み上がる。
マイク -> VAD -> STT部分結果 -> エンドポイント -> LLM TTFT -> TTS TTFW -> スピーカー
10ms 30ms 80ms 200ms 400ms 150ms 30ms
合計: 約900ms
これを300ms未満に詰めるには3つの仕掛けがいる。
1. **ストリーミングSTT** — エンドポイントを待たず、部分結果をLLMに流す。
2. **ストリーミングLLM** — 最初のトークンからTTSへ流す。
3. **ストリーミングTTS** — 単語単位で音声を出力する。
OpenAI Realtime・Gemini Liveはこの3段をモデル内部で融合し、200-400msまで縮めている。
3. ElevenLabs v3 — 英語圏TTSの王座
ElevenLabsは2022年創業ながら、過去最速で市場を取ったTTS企業である。v3は以下を提供する。
- 32言語、60秒クローン、5秒のInstant Voice Clone(IVC)
- 感情ラベル: 怒り、悲しみ、興奮、ささやきなど
- ElevenLabs Conversational AI — STT + LLM + TTSの単一SDK
- ElevenLabs Studio — 長尺ダビング / オーディオブック
- Voice Library — 5万以上の公開ボイス
- ElevenLabs Reader — 視覚障害者・多読者向けアプリ
Python SDKの呼び出し例。
from elevenlabs.client import ElevenLabs
from elevenlabs import play
client = ElevenLabs(api_key="...")
audio = client.text_to_speech.convert(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v3",
text="こんにちは。2026年の音声AIガイドです。",
)
play(audio)
ストリーミングは次のとおり。
stream = client.text_to_speech.convert_as_stream(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_flash_v2_5", # 低レイテンシモデル
text="低レイテンシのストリーミング例。",
)
for chunk in stream:
speaker.write(chunk)
価格(2026年5月)。
| プラン | 月間文字数 | 価格 |
| --- | --- | --- |
| Free | 10k | 無料 |
| Starter | 30k | 5ドル |
| Creator | 100k | 22ドル |
| Pro | 500k | 99ドル |
| Scale | 2M | 330ドル |
| Enterprise | カスタム | 要相談 |
従量APIはeleven_multilingual_v3で1M文字あたり約180ドル、eleven_flash_v2_5はその半額ほど。
長所: 音質、多言語、Voice Libraryの規模、Conversational AIの統合。
短所: 価格、英語以外(韓国語/日本語など)の自然さがやや劣る。
4. Cartesia Sonic — 最速のTTS
Cartesiaは2023年にMamba著者(Albert Gu、Karan Goel)が創業した会社である。SSM(状態空間モデル)ベースのSonic TTSで知られる特徴は次のとおり。
- **TTFW 75ms** — 商用TTSで突出して速い
- Sonic-2(2025) / Sonic-3(2026) — 多言語、感情、歌唱
- LiveKit Agentsの既定TTS
- 3秒のサンプルで音声クローン
Python SDKの呼び出し。
from cartesia import Cartesia
client = Cartesia(api_key="...")
ストリーミング合成
ws = client.tts.websocket()
for output in ws.send(
model_id="sonic-3",
transcript="低レイテンシ音声デモです。",
voice_id="694f9389-aac1-45b6-b726-9d9369183238",
output_format={
"container": "raw",
"encoding": "pcm_s16le",
"sample_rate": 24000,
},
):
speaker.write(output.audio)
価格は1M文字あたり約65ドルで、ElevenLabsの半額以下。ただし韓国語・日本語の品質はElevenLabsより一段下がる。
レイテンシが絶対値ならCartesia、多言語の品質を優先するならElevenLabs。
5. Play.HT 3 — 多言語 + Realtime
Play.HTは2016年創業のロサンゼルス拠点企業で、30以上の言語に対応する。3.0の要点は以下。
- PlayDialog — 2人以上の対話合成
- Realtime API — TTFW 200ms
- 142ボイス + クローン
- LangChain・LlamaIndex統合
Python呼び出し。
from pyht import Client, TTSOptions, Format
client = Client(user_id="...", api_key="...")
options = TTSOptions(
voice="s3://voice-cloning-zero-shot/...",
sample_rate=24000,
format=Format.FORMAT_WAV,
)
for chunk in client.tts("Play.HT 3のデモです。", options=options):
speaker.write(chunk)
価格は10万文字39ドルから。ElevenLabsとCartesiaの中間。
特長: PlayDialogは2人会話の自然さで群を抜く。ポッドキャスト自動生成で人気。
6. OpenAI Voice — tts-1, gpt-4o-mini-tts, Realtime API
OpenAIは2024年のtts-1で始め、2025-2026年にフルスタックを揃えた。
| モデル | 用途 | 備考 |
| --- | --- | --- |
| tts-1 | 標準TTS | 高速、まずまずの品質、6ボイス |
| tts-1-hd | 高品質TTS | 価格高め、音質良 |
| gpt-4o-mini-tts | 次世代TTS | 指示可能、感情制御 |
| Realtime API (gpt-4o-realtime-preview) | フルデュプレックス音声 | STT+LLM+TTS統合 |
Realtime APIの例。
const ws = new WebSocket(
'wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2026',
{
headers: {
Authorization: 'Bearer YOUR_KEY',
'OpenAI-Beta': 'realtime=v1',
},
}
)
ws.on('open', () => {
ws.send(
JSON.stringify({
type: 'session.update',
session: {
modalities: ['text', 'audio'],
voice: 'alloy',
instructions: '親切かつ簡潔に応答してください。',
turn_detection: { type: 'server_vad' },
},
})
)
})
ws.on('message', (data) => {
const evt = JSON.parse(data)
if (evt.type === 'response.audio.delta') {
speaker.write(Buffer.from(evt.delta, 'base64'))
}
})
価格(Realtime API): 音声入力1Mトークン100ドル、出力1Mトークン200ドル。1分の通話で約0.06ドル。tts-1は1M文字15ドル、gpt-4o-mini-ttsは12ドルで最安。
長所: 価格、統合、GPTモデル直結。
短所: ボイス多様性がElevenLabs・Cartesiaに比べて少ない。
7. Hume AI EVI 2 — 感情音声インターフェース
Hume AIは感情をMLの一級市民として扱う会社である。EVI 2(Empathic Voice Interface 2)は次を行う。
- 発話の感情を測定 — 28の感情次元
- 応答ボイスの感情を自動調整
- フルデュプレックス音声 — TTFW約700ms
- ユーザーのトーンに合わせて応答トーンを調整
デモは印象的だが、日常会話の自然さではOpenAI Realtimeより若干劣る。医療相談・メンタルヘルス・伴侶チャットボットなど、感情敏感な領域で強い。
価格は1分あたり約0.072ドル。
8. Sesame — Maya / Milesの衝撃
Sesameは、Oculus共同創業者Brendan IribeがMaven AIを2024年に買収して設立した会社である。2025年3月に公開したMayaとMilesのボイスデモはX(旧Twitter)を騒然とさせた。
- 自然な呼吸・ためらい・笑い
- ユーザーの感情に合わせたトーン調整
- 長い会話でも一貫したペルソナ
- Conversational Speech Model(CSM) 1Bを研究用にオープンソース化
デモ: [https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice](https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice)
2026年5月現在、商用APIはまだlimited previewだが、その自然さはElevenLabs・Hume・OpenAIのいずれもまだ追えていない領域だ。短所は英語中心であること。
9. Fish Audio Speech 1.5 — 中華圏の覇者
Fish Audioは中国拠点で、2024年から急成長したTTS企業。Speech 1.5の強みは以下。
- 中国語の自然さで首位 — 方言を含む
- 30秒の音声クローン
- 9言語対応
- 1M文字あたり約12ドル — 非常に安い
- オープンソースのFish Speech v1.4
選定基準:
- 中国語話者・中華市場 → Fish Audio
- 韓国語・日本語優先 → 타입캐스트 / 클로바 / CoeFont
後継のOpenAudio S1モデルも公開済み。
10. Deepgram Aura — STT企業発のTTS
Deepgramは2015年創業のSTT専業企業。2024年にTTSのAuraを初リリースした。
- TTFW約200ms
- 1M文字あたり約15ドル — OpenAI tts-1並み
- 12ボイス(英語中心)
- 自社STT + Auraを束ねたフルスタック音声エージェントSDKを提供
特長: STTとTTSを同一ベンダーで統合すると、請求・SLA・セキュリティモデルが単純化する。一方TTS自体の品質はElevenLabs・Cartesiaより一段下。
11. その他のTTS — Resemble, WellSaid, Coqui, F5-TTS
| ツール | 特徴 |
| --- | --- |
| Resemble AI | クローン・セキュリティ特化、政府/防衛市場 |
| WellSaid Labs | 米国エンタープライズ中心 |
| Coqui TTS | オープンソース。会社は2024年に閉鎖、コミュニティが維持 |
| F5-TTS (UCB, 2024) | 5秒クローンのオープンソース。爆発的人気 |
| MaskGCT | Microsoft + Sealand、2024年オープンソース |
| CosyVoice 2 | Alibaba 2025年 — 中国語+英語が強い |
| GPT-SoVITS | インディ開発、日本・中国コミュニティで人気 |
| OpenVoice v2 | MyShell.ai、クローン+多言語 |
| Bark, Vall-E-X, XTTS v2 | 2023-2024年のレガシーオープンモデル |
オープンソース優先なら、2026年時点では**F5-TTS**または**CosyVoice 2**が最善。F5-TTSは5秒サンプルでも驚くクローン性能、CosyVoice 2はAlibabaの後援で安定。
12. クラウド3大 — Polly, Google TTS, Azure Speech
| ベンダー | 特徴 | 価格 |
| --- | --- | --- |
| Amazon Polly | Neural · Generative voice、90以上のボイス | 1M文字4ドル(標準) |
| Google Cloud TTS | Studio、Neural2、Wavenet | 1M文字16ドル(Studio) |
| Azure Speech | Custom Neural Voice、多言語が強い | 1M文字16-30ドル |
エンタープライズ・政府・規制業種では依然デフォルト。ボイスの新鮮さと自然さはElevenLabs・Cartesiaに一世代遅れるが、AWS / GCP / Azure統合とSLAが決め手になる。
Microsoft Researchの**NaturalSpeech 3**は学術的に最高水準だがGA未満。Google DeepMindの**Lyria 2**は音楽生成用だが、ボーカル合成でTTSと重なる領域を作った。
13. STT — Deepgram Nova-3, AssemblyAI Universal-2, OpenAI
| ツール | TTFW | WER (英語) | 多言語 |
| --- | --- | --- | --- |
| Deepgram Nova-3 | `<50ms` | 6.8% | 36 |
| AssemblyAI Universal-2 | 200ms | 5.7% | 70+ |
| OpenAI Whisper v3 turbo | バッチ | 7.5% | 99 |
| OpenAI gpt-4o-transcribe | ストリーミング | 5.2% | 99+ |
| Gladia | 300ms | 6.5% | 100+ |
| Speechmatics | 250ms | 6.0% | 50+ |
| Rev AI | 300ms | 7.0% | 36 |
| Soniox | 80ms | 5.9% | 60+ |
レイテンシが絶対値ならNova-3またはSoniox。WERを優先するならGPT-4o transcribeまたはAssemblyAI。
オープンソースは**Whisper・WhisperX・Distil-Whisper・Vosk・Moonshine(Useful Sensors)・Owl ASR**。Moonshineはモバイル/エッジ向きとして台頭中。
Deepgram Nova-3 ストリーミングSTT例
from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions
dg = DeepgramClient(api_key="...")
connection = dg.listen.live.v("1")
def on_message(_, result, **kwargs):
print(result.channel.alternatives[0].transcript)
connection.on(LiveTranscriptionEvents.Transcript, on_message)
connection.start(LiveOptions(model="nova-3", language="ja", interim_results=True))
for chunk in mic_stream():
connection.send(chunk)
14. フルデュプレックス音声エージェント — LiveKit, Pipecat, Vapi
音声エージェントは単純なTTS/STTを超えて、**ターン管理・割り込み・VAD・ツール呼び出し**を同時に扱う。
LiveKit Agents
LiveKit AgentsはWebRTCバックボーン上にPythonで書くフルスタックの音声エージェントフレームワーク。CartesiaがデフォルトTTSである。
from livekit.agents import Agent, AgentSession, JobContext
from livekit.plugins import openai, cartesia, deepgram, silero
class Assistant(Agent):
async def on_enter(self):
await self.session.say("こんにちは。何をお手伝いしましょうか。")
async def entrypoint(ctx: JobContext):
session = AgentSession(
stt=deepgram.STT(model="nova-3"),
llm=openai.LLM(model="gpt-4o"),
tts=cartesia.TTS(voice="..."),
vad=silero.VAD.load(),
)
await session.start(agent=Assistant(), room=ctx.room)
Pipecat
PipecatはDaily.coが支援するPython音声エージェントフレームワーク。LiveKitよりモジュラーで、ビジョン+オーディオのマルチモーダルに強い。
Vapi · Retell AI · Bland AI
3社はSaaS型の音声エージェントを提供する。
- **Vapi** — 最も急成長、no-codeとAPIの両対応
- **Retell AI** — Y Combinator出身、電話統合が強い
- **Bland AI** — 米国コールセンター特化、1分あたり0.09ドル
SaaSは立ち上がりが速くSIP / Twilio統合が完成しているが、コストが積み上がると自前のLiveKit + Cartesiaスタックの方が安くなる。
15. フルデュプレックスLLM — Realtime API, Gemini Live, Claude Voice
伝統的パイプラインを置き換えるもうひとつの道がLLMネイティブ音声である。
| モデル | リリース | 備考 |
| --- | --- | --- |
| OpenAI Realtime API (gpt-4o-realtime) | 2024-10 | WebSocket、8ボイス |
| Google Gemini 2.5 Live | 2025 | 動画マルチモーダル統合 |
| Anthropic Claude voice mode | 2025 | モバイルアプリ、Sonnetベース |
| Mistral Voxtral | 2025 | オープン7B/24B音声モデル |
LLMネイティブ音声の長所は**感情・割り込み・バックチャネル(うん/なるほど)**を自然に扱えること。短所は外部TTSを差し替えられず、ボイス多様性に乏しいこと。
16. 割り込み / VAD / barge-in — 見えない本質
音声エージェントが不自然に感じる原因の90%は**割り込み処理**である。人間は終わっていない文を切り、バックチャネルを挟み、次の話者がすぐ始める。それを扱う技術群:
- **VAD(Voice Activity Detection)** — Silero VADが事実上の標準。30-50msで音声開始/終了を検知。
- **Turn Detection** — 単なる無音検知ではなく、「ターンが終わったか」を判断。LiveKit Turn Detector(2026)、OpenAI Realtime内蔵。
- **Barge-in** — ユーザーが話したらAIのTTSを即座に切り、リスニングモードに切り替える。
- **Endpointing** — 部分STT結果からLLMを先回りでトリガー。
Silero VADの使用例。
vad, utils = torch.hub.load(
"snakers4/silero-vad", "silero_vad", trust_repo=True
)
(get_speech_timestamps, _, read_audio, *_) = utils
audio = read_audio("test.wav", sampling_rate=16000)
ts = get_speech_timestamps(audio, vad, sampling_rate=16000)
17. クローン倫理 — ELVIS法、EU AI法、SynthID
音声クローンは2024年のニューハンプシャー予備選で偽バイデン音声が登場したことで社会的問題化した。立法はそれに続いた。
- **テネシー州ELVIS法**(2024年7月施行) — 米国初、音声・容姿の無断AI複製を刑事処罰。
- **EU AI法**(2024年5月発効) — 音声クローンは高リスク/透明性義務。
- **カリフォルニア州AB 2839**(2024年) — 選挙期間中のディープフェイク禁止。
- **米国FCC**(2024年) — AI音声を使ったロボコールを違法化。
対抗技術:
- **SynthID Audio**(Google DeepMind) — 可聴域以下のウォーターマーク。
- **Resemble Detect** — Resemble AIの偽音声検出モデル。
- **AntiFake**(ワシントン大学) — TTS学習に耐性をもつ音声攪乱。
商用TTSの大半は同意確認フロー(録音された同意文)を義務化する。ElevenLabsは「I have the right to clone this voice」を発話したサンプルを要求する。
18. 韓国 — 타입캐스트、클로바、카카오、HyperCLOVA X Voice
韓国市場は国内企業ががっちり押さえている。
- **타입캐스트(Neosapience)** — 韓国シェア1位。コンテンツクリエイター・広告・オーディオブック。映像合成の一貫性で非常に強い。
- **ネイバー클로바 Voice / 클로바ダビング** — 50以上の韓国語ボイス、ダビングは動画字幕の自動吹替。
- **HyperCLOVA X Voice** — ネイバーLLMと結合した音声エージェントSDK。
- **카카오TTS / 카카오i Voice** — KakaoTalkチャットボット・카카오i統合。
- **AI Tester(엔플라이)** — 広告ボイス特化。
特異点: 韓国語の韻律と外来語発音では海外TTSが依然として不自然。타입캐스트と클로바が圧倒的に自然。
타입캐스트API呼び出し例。
resp = requests.post(
"https://typecast.ai/api/speak",
headers={"Authorization": "Bearer ..."},
json={
"actor_id": "5c3b3...",
"text": "타입캐스트音声合成のデモです。",
"lang": "ko",
"tempo": 1.0,
},
)
価格: 타입캐스트は100文字あたり約1.5ウォン、클로바は200文字あたり約4ウォン。
19. 日本 — CoeFont, VOICEVOX, Synthesizer V
日本は韓国とは雰囲気が違う。**キャラクターボイス + マーケットプレイス**モデルが強い。
- **CoeFont** — 1万以上のボイスのマーケットプレイス。声優が自分のボイスを登録・販売する。
- **Rinna Japanese TTS** — マイクロソフト出身りんなの日本語オープンTTS。
- **VOICEROID / VOICEVOX** — VOICEVOXは無料、ずんだもん・四国めたんなどのキャラクターボイス。YouTube・ニコニコの標準。
- **Synthesizer V** — 歌唱合成、日本語・中国語・韓国語ボーカル。
- **AI Voice Project(AIVoice)** — プロ声優の音声を合法ライセンスで再現。
特異点: 日本では**商用利用可否・キャラクター別利用規約**の確認が必須。VOICEVOX内でもキャラクターごとに条件が違う。
選定基準:
- ビジネス・コールセンター → CoeFont、Rinna
- YouTube・ゲーム・同人コンテンツ → VOICEVOX
- 歌唱合成 → Synthesizer V
20. 価格比較 — 1M文字 / 1分通話
価格差は1桁を超えることが多い。2026年5月時点で整理する。
| ツール | 1M文字 | フルデュプレックス1分 |
| --- | --- | --- |
| ElevenLabs Multilingual v3 | 180ドル | 0.30ドル |
| ElevenLabs Flash v2.5 | 90ドル | 0.15ドル |
| Cartesia Sonic 3 | 65ドル | 0.11ドル |
| Play.HT 3 | 120ドル | 0.20ドル |
| OpenAI tts-1 | 15ドル | 0.06ドル |
| OpenAI gpt-4o-mini-tts | 12ドル | 0.05ドル |
| OpenAI Realtime API | - | 0.06ドル |
| Hume EVI 2 | - | 0.072ドル |
| Fish Audio 1.5 | 12ドル | 0.04ドル |
| Deepgram Aura | 15ドル | 0.05ドル |
| Amazon Polly Generative | 30ドル | 0.08ドル |
| Google Cloud TTS Studio | 160ドル | 0.27ドル |
| Azure Custom Neural | 24ドル | 0.07ドル |
| 타입캐스트 | 約15ドル | - |
| ネイバー클로바 Voice | 約20ドル | - |
| CoeFont | 約30ドル | - |
| Vapi (フルエージェント) | - | 0.08ドル |
| Retell AI | - | 0.075ドル |
| Bland AI | - | 0.09ドル |
スタートアップ段階ならOpenAI tts-1・Fish Audio・Cartesiaがコスト効率最強。エンタープライズ品質が必要ならElevenLabs・타입캐스트・클로바。
21. 誰が何を選ぶべきか
マトリクスで整理する。
| 目的 | 推奨 |
| --- | --- |
| 英語コンソール用フルデュプレックス | OpenAI Realtime API |
| 多言語音声エージェント | LiveKit Agents + Cartesia |
| 英語オーディオブック / ダビング | ElevenLabs Studio |
| 感情伴侶チャットボット | Hume EVI 2 |
| 自然さの実演デモ | Sesame Maya / Miles |
| 中国語コンテンツ | Fish Audio |
| 韓国語コンテンツ | 타입캐스트、ネイバー클로바 |
| 日本語キャラクター | VOICEVOX |
| 日本語マーケット | CoeFont |
| オープン / 自前ホスティング | F5-TTS、CosyVoice 2 |
| コールセンターSaaS | Vapi、Retell AI、Bland AI |
| モバイル / エッジSTT | Moonshine、Distil-Whisper |
| 高速STT | Deepgram Nova-3 |
| 高精度STT | OpenAI gpt-4o-transcribe |
| エンタープライズ既定 | Polly、Google TTS、Azure Speech |
3つの決定軸:
1. **レイテンシ vs 品質** — Cartesia/Realtimeは速く、ElevenLabs/Sesameは豊か。
2. **API統合 vs 自前ホスティング** — APIは速く出せ、オープンモデルはデータ主権を守る。
3. **グローバル vs 国語** — 韓国語・日本語は海外勢が追いつけない自然さの差がある。
22. ユースケース — 何が実際に稼いでいるか
2026年に音声AIが売上を立てている領域。
- **コールセンター自動化** — Retell、Bland AIが米国の不動産/医療で導入。コール1件あたり5-15ドルの削減。
- **オーディオブック / ポッドキャストのダビング** — ElevenLabs Studioが出版社と契約。時間あたりコストが10分の1。
- **ゲームNPCの音声** — Sony、EA、Ubisoftが揃ってElevenLabs・Resembleと提携。
- **言語学習** — Duolingo Max、SpeakがOpenAI Realtimeを採用。
- **アクセシビリティ** — Apple、MicrosoftがOSレベルでTTS統合。
- **広告・マーケティング吹替** — 映像ダビングが単独最大市場。
- **個人向け伴侶チャットボット** — Character.AI、ReplikaがElevenLabs / Cartesiaを使用。
最も明確な収益源はコールセンター自動化、次にコンテンツダビング。
23. まとめ — 音声がインターフェースになった年
5年前の音声AIは留守番電話レベルだった。2026年の音声AIは違う。
- TTFW 75msのCartesia、32言語のElevenLabs、単一モデルのOpenAI Realtimeが共存する。
- LiveKit Agents・Pipecat・Vapi・Retell・Bland AIがオーケストレーションを作った。
- Sesame・Humeが感情と自然さの新基準を示した。
- Deepgram Nova-3がSTTのレイテンシを50ms未満に下げた。
- 韓国は타입캐스트・클로바、日本はCoeFont・VOICEVOXが国内市場を守る。
- ELVIS法、EU AI法がクローンの倫理に線を引いた。
残るは、どんな音声インターフェースを作るかを決めることだ。本稿がその出発点になれば幸いである。
参考 / References
- ElevenLabs — [https://elevenlabs.io/](https://elevenlabs.io/)
- ElevenLabs Conversational AI — [https://elevenlabs.io/conversational-ai](https://elevenlabs.io/conversational-ai)
- Cartesia — [https://cartesia.ai/](https://cartesia.ai/)
- Cartesia Sonic — [https://cartesia.ai/sonic](https://cartesia.ai/sonic)
- Play.HT — [https://play.ht/](https://play.ht/)
- OpenAI Realtime API — [https://platform.openai.com/docs/guides/realtime](https://platform.openai.com/docs/guides/realtime)
- OpenAI TTS — [https://platform.openai.com/docs/guides/text-to-speech](https://platform.openai.com/docs/guides/text-to-speech)
- Hume AI EVI — [https://hume.ai/products/empathic-voice-interface](https://hume.ai/products/empathic-voice-interface)
- Sesame Research — [https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice](https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice)
- Fish Audio — [https://fish.audio/](https://fish.audio/)
- Deepgram Aura — [https://deepgram.com/product/text-to-speech](https://deepgram.com/product/text-to-speech)
- Deepgram Nova-3 — [https://deepgram.com/learn/introducing-nova-3](https://deepgram.com/learn/introducing-nova-3)
- AssemblyAI Universal-2 — [https://www.assemblyai.com/blog/universal-2/](https://www.assemblyai.com/blog/universal-2/)
- OpenAI Whisper — [https://openai.com/research/whisper](https://openai.com/research/whisper)
- LiveKit Agents — [https://docs.livekit.io/agents/](https://docs.livekit.io/agents/)
- Pipecat — [https://www.pipecat.ai/](https://www.pipecat.ai/)
- Vapi — [https://vapi.ai/](https://vapi.ai/)
- Retell AI — [https://www.retellai.com/](https://www.retellai.com/)
- Bland AI — [https://www.bland.ai/](https://www.bland.ai/)
- Silero VAD — [https://github.com/snakers4/silero-vad](https://github.com/snakers4/silero-vad)
- Resemble AI — [https://www.resemble.ai/](https://www.resemble.ai/)
- WellSaid Labs — [https://wellsaidlabs.com/](https://wellsaidlabs.com/)
- Coqui TTS — [https://github.com/coqui-ai/TTS](https://github.com/coqui-ai/TTS)
- F5-TTS — [https://github.com/SWivid/F5-TTS](https://github.com/SWivid/F5-TTS)
- CosyVoice — [https://github.com/FunAudioLLM/CosyVoice](https://github.com/FunAudioLLM/CosyVoice)
- MaskGCT — [https://github.com/open-mmlab/Amphion](https://github.com/open-mmlab/Amphion)
- OpenVoice — [https://github.com/myshell-ai/OpenVoice](https://github.com/myshell-ai/OpenVoice)
- Moonshine — [https://github.com/usefulsensors/moonshine](https://github.com/usefulsensors/moonshine)
- Distil-Whisper — [https://github.com/huggingface/distil-whisper](https://github.com/huggingface/distil-whisper)
- Tennessee ELVIS Act — [https://www.capitol.tn.gov/Bills/113/Bill/HB2091.pdf](https://www.capitol.tn.gov/Bills/113/Bill/HB2091.pdf)
- EU AI Act — [https://artificialintelligenceact.eu/](https://artificialintelligenceact.eu/)
- SynthID — [https://deepmind.google/technologies/synthid/](https://deepmind.google/technologies/synthid/)
- 타입캐스트 — [https://typecast.ai/](https://typecast.ai/)
- ネイバー클로바 Voice — [https://www.ncloud.com/product/aiService/css](https://www.ncloud.com/product/aiService/css)
- CoeFont — [https://coefont.cloud/](https://coefont.cloud/)
- VOICEVOX — [https://voicevox.hiroshiba.jp/](https://voicevox.hiroshiba.jp/)
현재 단락 (1/405)
2026年5月現在、「音声AI」という言葉の重みは5年前とまったく違う。