💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

プロローグ — 音声がLLMの口と耳になった年

2026年5月現在、「音声AI」という言葉の重みは5年前とまったく違う。

- ElevenLabs v3は32言語・感情ラベル・5秒クローンに対応し、実質的に英語圏TTSの標準となった。

- Cartesia SonicはTTFW(Time To First Word) 75msで最も速い商用TTSで、LiveKit Agentsの既定TTSである。

- OpenAI Realtime APIはSTT・LLM・TTSを単一のWebSocketで処理するフルデュプレックスを一般化した。

- Google Gemini Live・Anthropic Claude voice modeがLLMネイティブ音声を定着させた。

- Hume EVI 2とSesameのMaya/Milesデモ(2025年3月)は、感情と自然さの限界を再定義した。

- Fish Audio・CosyVoice 2・F5-TTSがオープン/中華圏で急速にシェアを伸ばした。

- Deepgram Nova-3がSTTのレイテンシを50ms未満に下げ、AssemblyAI Universal-2・OpenAI GPT-4o transcribeが精度で競っている。

- LiveKit Agents・Pipecat・Vapi・Retell AI・Bland AIといったオーケストレーション層が音声エージェントの定番スタックを作った。

- テネシー州ELVIS法・EU AI法が音声クローンの倫理に初めて法的な線を引いた。

- 韓国は타입캐스트(Neosapience)とネイバー클로바ダビング、日本はCoeFontとVOICEVOXが国内市場を主導する。

本稿はその全体地図である。どのツールがどの位置を占めているか、どの指標が本当に重要か、2026年に新規プロジェクトを始めるなら何を選ぶべきかを整理する。

1. 2026年の音声スタック — 4段パイプライン

今日の音声AIは4つの層で整理できる。

[ 第1段 ] 入力 - マイク / WebRTC / SIP / 電話

[ 第2段 ] STT (ASR) - Deepgram Nova-3 / AssemblyAI / GPT-4o transcribe / Whisper v3 turbo

[ 第3段 ] LLM - GPT-5 / Claude 4.5 / Gemini 2.5 Pro / Llama 4

[ 第4段 ] TTS - ElevenLabs / Cartesia / OpenAI / Play.HT / Hume / Sesame

[ 横軸 ] オーケストレーション - LiveKit Agents / Pipecat / Vapi / Retell / Bland

[ 横軸 ] 割り込み - VAD / barge-in / turn detection / endpointing

伝統的なSTT → LLM → TTSは今でも最多採用だが、2025年からOpenAI Realtime・Gemini Liveが証明した**フルデュプレックスのLLMネイティブ音声**が急速に領域を侵食している。

| 段 | 主要指標 |

| --- | --- |

| STT | WER(単語誤り率)、初回部分結果のレイテンシ、多言語 |

| LLM | TTFT(初トークン)、TPS(トークン/秒) |

| TTS | TTFW(初語)、音質MOS、ボイスの多様性 |

| フルデュプレックス | エンドツーエンドのレイテンシ、割り込みの自然さ |

会話レイテンシの目標は一貫している。**最初の音声まで300ms以下**。

2. 主要指標 — レイテンシ、ひたすらレイテンシ

音声AIで最も無視されがちで最も重要なのは**人間の知覚閾値**である。

- 200ms以下: 自然な人間の会話に感じる。

- 200-500ms: わずかに違和感があるが許容範囲。

- 500ms-1s: 明らかに遅い。

- 1s以上: 自動応答機のように聞こえる。

伝統的なパイプラインのレイテンシは以下のように積み上がる。

マイク -> VAD -> STT部分結果 -> エンドポイント -> LLM TTFT -> TTS TTFW -> スピーカー

10ms 30ms 80ms 200ms 400ms 150ms 30ms

合計: 約900ms

これを300ms未満に詰めるには3つの仕掛けがいる。

1. **ストリーミングSTT** — エンドポイントを待たず、部分結果をLLMに流す。

2. **ストリーミングLLM** — 最初のトークンからTTSへ流す。

3. **ストリーミングTTS** — 単語単位で音声を出力する。

OpenAI Realtime・Gemini Liveはこの3段をモデル内部で融合し、200-400msまで縮めている。

3. ElevenLabs v3 — 英語圏TTSの王座

ElevenLabsは2022年創業ながら、過去最速で市場を取ったTTS企業である。v3は以下を提供する。

- 32言語、60秒クローン、5秒のInstant Voice Clone(IVC)

- 感情ラベル: 怒り、悲しみ、興奮、ささやきなど

- ElevenLabs Conversational AI — STT + LLM + TTSの単一SDK

- ElevenLabs Studio — 長尺ダビング / オーディオブック

- Voice Library — 5万以上の公開ボイス

- ElevenLabs Reader — 視覚障害者・多読者向けアプリ

Python SDKの呼び出し例。

from elevenlabs.client import ElevenLabs

from elevenlabs import play

client = ElevenLabs(api_key="...")

audio = client.text_to_speech.convert(

voice_id="JBFqnCBsd6RMkjVDRZzb",

model_id="eleven_multilingual_v3",

text="こんにちは。2026年の音声AIガイドです。",

)

play(audio)

ストリーミングは次のとおり。

stream = client.text_to_speech.convert_as_stream(

voice_id="JBFqnCBsd6RMkjVDRZzb",

model_id="eleven_flash_v2_5", # 低レイテンシモデル

text="低レイテンシのストリーミング例。",

)

for chunk in stream:

speaker.write(chunk)

価格(2026年5月)。

| プラン | 月間文字数 | 価格 |

| --- | --- | --- |

| Free | 10k | 無料 |

| Starter | 30k | 5ドル |

| Creator | 100k | 22ドル |

| Pro | 500k | 99ドル |

| Scale | 2M | 330ドル |

| Enterprise | カスタム | 要相談 |

従量APIはeleven_multilingual_v3で1M文字あたり約180ドル、eleven_flash_v2_5はその半額ほど。

長所: 音質、多言語、Voice Libraryの規模、Conversational AIの統合。

短所: 価格、英語以外(韓国語/日本語など)の自然さがやや劣る。

4. Cartesia Sonic — 最速のTTS

Cartesiaは2023年にMamba著者(Albert Gu、Karan Goel)が創業した会社である。SSM(状態空間モデル)ベースのSonic TTSで知られる特徴は次のとおり。

- **TTFW 75ms** — 商用TTSで突出して速い

- Sonic-2(2025) / Sonic-3(2026) — 多言語、感情、歌唱

- LiveKit Agentsの既定TTS

- 3秒のサンプルで音声クローン

Python SDKの呼び出し。

from cartesia import Cartesia

client = Cartesia(api_key="...")

ストリーミング合成

ws = client.tts.websocket()

for output in ws.send(

model_id="sonic-3",

transcript="低レイテンシ音声デモです。",

voice_id="694f9389-aac1-45b6-b726-9d9369183238",

output_format={

"container": "raw",

"encoding": "pcm_s16le",

"sample_rate": 24000,

speaker.write(output.audio)

価格は1M文字あたり約65ドルで、ElevenLabsの半額以下。ただし韓国語・日本語の品質はElevenLabsより一段下がる。

レイテンシが絶対値ならCartesia、多言語の品質を優先するならElevenLabs。

5. Play.HT 3 — 多言語 + Realtime

Play.HTは2016年創業のロサンゼルス拠点企業で、30以上の言語に対応する。3.0の要点は以下。

- PlayDialog — 2人以上の対話合成

- Realtime API — TTFW 200ms

- 142ボイス + クローン

- LangChain・LlamaIndex統合

Python呼び出し。

from pyht import Client, TTSOptions, Format

client = Client(user_id="...", api_key="...")

options = TTSOptions(

voice="s3://voice-cloning-zero-shot/...",

sample_rate=24000,

format=Format.FORMAT_WAV,

)

for chunk in client.tts("Play.HT 3のデモです。", options=options):

speaker.write(chunk)

価格は10万文字39ドルから。ElevenLabsとCartesiaの中間。

特長: PlayDialogは2人会話の自然さで群を抜く。ポッドキャスト自動生成で人気。

6. OpenAI Voice — tts-1, gpt-4o-mini-tts, Realtime API

OpenAIは2024年のtts-1で始め、2025-2026年にフルスタックを揃えた。

| モデル | 用途 | 備考 |

| --- | --- | --- |

| tts-1 | 標準TTS | 高速、まずまずの品質、6ボイス |

| tts-1-hd | 高品質TTS | 価格高め、音質良 |

| gpt-4o-mini-tts | 次世代TTS | 指示可能、感情制御 |

| Realtime API (gpt-4o-realtime-preview) | フルデュプレックス音声 | STT+LLM+TTS統合 |

Realtime APIの例。

const ws = new WebSocket(

'wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2026',

{

headers: {

Authorization: 'Bearer YOUR_KEY',

'OpenAI-Beta': 'realtime=v1',

}

)

ws.on('open', () => {

ws.send(

JSON.stringify({

type: 'session.update',

session: {

modalities: ['text', 'audio'],

voice: 'alloy',

instructions: '親切かつ簡潔に応答してください。',

turn_detection: { type: 'server_vad' },

})

)

})

ws.on('message', (data) => {

const evt = JSON.parse(data)

if (evt.type === 'response.audio.delta') {

speaker.write(Buffer.from(evt.delta, 'base64'))

}

})

価格(Realtime API): 音声入力1Mトークン100ドル、出力1Mトークン200ドル。1分の通話で約0.06ドル。tts-1は1M文字15ドル、gpt-4o-mini-ttsは12ドルで最安。

長所: 価格、統合、GPTモデル直結。

短所: ボイス多様性がElevenLabs・Cartesiaに比べて少ない。

7. Hume AI EVI 2 — 感情音声インターフェース

Hume AIは感情をMLの一級市民として扱う会社である。EVI 2(Empathic Voice Interface 2)は次を行う。

- 発話の感情を測定 — 28の感情次元

- 応答ボイスの感情を自動調整

- フルデュプレックス音声 — TTFW約700ms

- ユーザーのトーンに合わせて応答トーンを調整

デモは印象的だが、日常会話の自然さではOpenAI Realtimeより若干劣る。医療相談・メンタルヘルス・伴侶チャットボットなど、感情敏感な領域で強い。

価格は1分あたり約0.072ドル。

8. Sesame — Maya / Milesの衝撃

Sesameは、Oculus共同創業者Brendan IribeがMaven AIを2024年に買収して設立した会社である。2025年3月に公開したMayaとMilesのボイスデモはX(旧Twitter)を騒然とさせた。

- 自然な呼吸・ためらい・笑い

- ユーザーの感情に合わせたトーン調整

- 長い会話でも一貫したペルソナ

- Conversational Speech Model(CSM) 1Bを研究用にオープンソース化

デモ: [https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice](https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice)

2026年5月現在、商用APIはまだlimited previewだが、その自然さはElevenLabs・Hume・OpenAIのいずれもまだ追えていない領域だ。短所は英語中心であること。

9. Fish Audio Speech 1.5 — 中華圏の覇者

Fish Audioは中国拠点で、2024年から急成長したTTS企業。Speech 1.5の強みは以下。

- 中国語の自然さで首位 — 方言を含む

- 30秒の音声クローン

- 9言語対応

- 1M文字あたり約12ドル — 非常に安い

- オープンソースのFish Speech v1.4

選定基準:

- 中国語話者・中華市場 → Fish Audio

- 韓国語・日本語優先 → 타입캐스트 / 클로바 / CoeFont

後継のOpenAudio S1モデルも公開済み。

10. Deepgram Aura — STT企業発のTTS

Deepgramは2015年創業のSTT専業企業。2024年にTTSのAuraを初リリースした。

- TTFW約200ms

- 1M文字あたり約15ドル — OpenAI tts-1並み

- 12ボイス(英語中心)

- 自社STT + Auraを束ねたフルスタック音声エージェントSDKを提供

特長: STTとTTSを同一ベンダーで統合すると、請求・SLA・セキュリティモデルが単純化する。一方TTS自体の品質はElevenLabs・Cartesiaより一段下。

11. その他のTTS — Resemble, WellSaid, Coqui, F5-TTS

| ツール | 特徴 |

| --- | --- |

| Resemble AI | クローン・セキュリティ特化、政府/防衛市場 |

| WellSaid Labs | 米国エンタープライズ中心 |

| Coqui TTS | オープンソース。会社は2024年に閉鎖、コミュニティが維持 |

| F5-TTS (UCB, 2024) | 5秒クローンのオープンソース。爆発的人気 |

| MaskGCT | Microsoft + Sealand、2024年オープンソース |

| CosyVoice 2 | Alibaba 2025年 — 中国語+英語が強い |

| GPT-SoVITS | インディ開発、日本・中国コミュニティで人気 |

| OpenVoice v2 | MyShell.ai、クローン+多言語 |

| Bark, Vall-E-X, XTTS v2 | 2023-2024年のレガシーオープンモデル |

オープンソース優先なら、2026年時点では**F5-TTS**または**CosyVoice 2**が最善。F5-TTSは5秒サンプルでも驚くクローン性能、CosyVoice 2はAlibabaの後援で安定。

12. クラウド3大 — Polly, Google TTS, Azure Speech

| ベンダー | 特徴 | 価格 |

| --- | --- | --- |

| Amazon Polly | Neural · Generative voice、90以上のボイス | 1M文字4ドル(標準) |

| Google Cloud TTS | Studio、Neural2、Wavenet | 1M文字16ドル(Studio) |

| Azure Speech | Custom Neural Voice、多言語が強い | 1M文字16-30ドル |

エンタープライズ・政府・規制業種では依然デフォルト。ボイスの新鮮さと自然さはElevenLabs・Cartesiaに一世代遅れるが、AWS / GCP / Azure統合とSLAが決め手になる。

Microsoft Researchの**NaturalSpeech 3**は学術的に最高水準だがGA未満。Google DeepMindの**Lyria 2**は音楽生成用だが、ボーカル合成でTTSと重なる領域を作った。

13. STT — Deepgram Nova-3, AssemblyAI Universal-2, OpenAI

| ツール | TTFW | WER (英語) | 多言語 |

| --- | --- | --- | --- |

| Deepgram Nova-3 | `<50ms` | 6.8% | 36 |

| AssemblyAI Universal-2 | 200ms | 5.7% | 70+ |

| OpenAI Whisper v3 turbo | バッチ | 7.5% | 99 |

| OpenAI gpt-4o-transcribe | ストリーミング | 5.2% | 99+ |

| Gladia | 300ms | 6.5% | 100+ |

| Speechmatics | 250ms | 6.0% | 50+ |

| Rev AI | 300ms | 7.0% | 36 |

| Soniox | 80ms | 5.9% | 60+ |

レイテンシが絶対値ならNova-3またはSoniox。WERを優先するならGPT-4o transcribeまたはAssemblyAI。

オープンソースは**Whisper・WhisperX・Distil-Whisper・Vosk・Moonshine(Useful Sensors)・Owl ASR**。Moonshineはモバイル/エッジ向きとして台頭中。

Deepgram Nova-3 ストリーミングSTT例

from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions

dg = DeepgramClient(api_key="...")

connection = dg.listen.live.v("1")

def on_message(_, result, **kwargs):

print(result.channel.alternatives[0].transcript)

connection.on(LiveTranscriptionEvents.Transcript, on_message)

connection.start(LiveOptions(model="nova-3", language="ja", interim_results=True))

for chunk in mic_stream():

connection.send(chunk)

14. フルデュプレックス音声エージェント — LiveKit, Pipecat, Vapi

音声エージェントは単純なTTS/STTを超えて、**ターン管理・割り込み・VAD・ツール呼び出し**を同時に扱う。

LiveKit Agents

LiveKit AgentsはWebRTCバックボーン上にPythonで書くフルスタックの音声エージェントフレームワーク。CartesiaがデフォルトTTSである。

from livekit.agents import Agent, AgentSession, JobContext

from livekit.plugins import openai, cartesia, deepgram, silero

class Assistant(Agent):

async def on_enter(self):

await self.session.say("こんにちは。何をお手伝いしましょうか。")

async def entrypoint(ctx: JobContext):

session = AgentSession(

stt=deepgram.STT(model="nova-3"),

llm=openai.LLM(model="gpt-4o"),

tts=cartesia.TTS(voice="..."),

vad=silero.VAD.load(),

)

await session.start(agent=Assistant(), room=ctx.room)

Pipecat

PipecatはDaily.coが支援するPython音声エージェントフレームワーク。LiveKitよりモジュラーで、ビジョン+オーディオのマルチモーダルに強い。

Vapi · Retell AI · Bland AI

3社はSaaS型の音声エージェントを提供する。

- **Vapi** — 最も急成長、no-codeとAPIの両対応

- **Retell AI** — Y Combinator出身、電話統合が強い

- **Bland AI** — 米国コールセンター特化、1分あたり0.09ドル

SaaSは立ち上がりが速くSIP / Twilio統合が完成しているが、コストが積み上がると自前のLiveKit + Cartesiaスタックの方が安くなる。

15. フルデュプレックスLLM — Realtime API, Gemini Live, Claude Voice

伝統的パイプラインを置き換えるもうひとつの道がLLMネイティブ音声である。

| モデル | リリース | 備考 |

| --- | --- | --- |

| OpenAI Realtime API (gpt-4o-realtime) | 2024-10 | WebSocket、8ボイス |

| Google Gemini 2.5 Live | 2025 | 動画マルチモーダル統合 |

| Anthropic Claude voice mode | 2025 | モバイルアプリ、Sonnetベース |

| Mistral Voxtral | 2025 | オープン7B/24B音声モデル |

LLMネイティブ音声の長所は**感情・割り込み・バックチャネル(うん/なるほど)**を自然に扱えること。短所は外部TTSを差し替えられず、ボイス多様性に乏しいこと。

16. 割り込み / VAD / barge-in — 見えない本質

音声エージェントが不自然に感じる原因の90%は**割り込み処理**である。人間は終わっていない文を切り、バックチャネルを挟み、次の話者がすぐ始める。それを扱う技術群:

- **VAD(Voice Activity Detection)** — Silero VADが事実上の標準。30-50msで音声開始/終了を検知。

- **Turn Detection** — 単なる無音検知ではなく、「ターンが終わったか」を判断。LiveKit Turn Detector(2026)、OpenAI Realtime内蔵。

- **Barge-in** — ユーザーが話したらAIのTTSを即座に切り、リスニングモードに切り替える。

- **Endpointing** — 部分STT結果からLLMを先回りでトリガー。

Silero VADの使用例。

vad, utils = torch.hub.load(

"snakers4/silero-vad", "silero_vad", trust_repo=True

)

(get_speech_timestamps, _, read_audio, *_) = utils

audio = read_audio("test.wav", sampling_rate=16000)

ts = get_speech_timestamps(audio, vad, sampling_rate=16000)

17. クローン倫理 — ELVIS法、EU AI法、SynthID

音声クローンは2024年のニューハンプシャー予備選で偽バイデン音声が登場したことで社会的問題化した。立法はそれに続いた。

- **テネシー州ELVIS法**(2024年7月施行) — 米国初、音声・容姿の無断AI複製を刑事処罰。

- **EU AI法**(2024年5月発効) — 音声クローンは高リスク/透明性義務。

- **カリフォルニア州AB 2839**(2024年) — 選挙期間中のディープフェイク禁止。

- **米国FCC**(2024年) — AI音声を使ったロボコールを違法化。

対抗技術:

- **SynthID Audio**(Google DeepMind) — 可聴域以下のウォーターマーク。

- **Resemble Detect** — Resemble AIの偽音声検出モデル。

- **AntiFake**(ワシントン大学) — TTS学習に耐性をもつ音声攪乱。

商用TTSの大半は同意確認フロー(録音された同意文)を義務化する。ElevenLabsは「I have the right to clone this voice」を発話したサンプルを要求する。

18. 韓国 — 타입캐스트、클로바、카카오、HyperCLOVA X Voice

韓国市場は国内企業ががっちり押さえている。

- **타입캐스트(Neosapience)** — 韓国シェア1位。コンテンツクリエイター・広告・オーディオブック。映像合成の一貫性で非常に強い。

- **ネイバー클로바 Voice / 클로바ダビング** — 50以上の韓国語ボイス、ダビングは動画字幕の自動吹替。

- **HyperCLOVA X Voice** — ネイバーLLMと結合した音声エージェントSDK。

- **카카오TTS / 카카오i Voice** — KakaoTalkチャットボット・카카오i統合。

- **AI Tester(엔플라이)** — 広告ボイス特化。

特異点: 韓国語の韻律と外来語発音では海外TTSが依然として不自然。타입캐스트と클로바が圧倒的に自然。

타입캐스트API呼び出し例。

resp = requests.post(

"https://typecast.ai/api/speak",

headers={"Authorization": "Bearer ..."},

json={

"actor_id": "5c3b3...",

"text": "타입캐스트音声合成のデモです。",

"lang": "ko",

"tempo": 1.0,

)

価格: 타입캐스트は100文字あたり約1.5ウォン、클로바は200文字あたり約4ウォン。

19. 日本 — CoeFont, VOICEVOX, Synthesizer V

日本は韓国とは雰囲気が違う。**キャラクターボイス + マーケットプレイス**モデルが強い。

- **CoeFont** — 1万以上のボイスのマーケットプレイス。声優が自分のボイスを登録・販売する。

- **Rinna Japanese TTS** — マイクロソフト出身りんなの日本語オープンTTS。

- **VOICEROID / VOICEVOX** — VOICEVOXは無料、ずんだもん・四国めたんなどのキャラクターボイス。YouTube・ニコニコの標準。

- **Synthesizer V** — 歌唱合成、日本語・中国語・韓国語ボーカル。

- **AI Voice Project(AIVoice)** — プロ声優の音声を合法ライセンスで再現。

特異点: 日本では**商用利用可否・キャラクター別利用規約**の確認が必須。VOICEVOX内でもキャラクターごとに条件が違う。

選定基準:

- ビジネス・コールセンター → CoeFont、Rinna

- YouTube・ゲーム・同人コンテンツ → VOICEVOX

- 歌唱合成 → Synthesizer V

20. 価格比較 — 1M文字 / 1分通話

価格差は1桁を超えることが多い。2026年5月時点で整理する。

| ツール | 1M文字 | フルデュプレックス1分 |

| --- | --- | --- |

| ElevenLabs Multilingual v3 | 180ドル | 0.30ドル |

| ElevenLabs Flash v2.5 | 90ドル | 0.15ドル |

| Cartesia Sonic 3 | 65ドル | 0.11ドル |

| Play.HT 3 | 120ドル | 0.20ドル |

| OpenAI tts-1 | 15ドル | 0.06ドル |

| OpenAI gpt-4o-mini-tts | 12ドル | 0.05ドル |

| OpenAI Realtime API | - | 0.06ドル |

| Hume EVI 2 | - | 0.072ドル |

| Fish Audio 1.5 | 12ドル | 0.04ドル |

| Deepgram Aura | 15ドル | 0.05ドル |

| Amazon Polly Generative | 30ドル | 0.08ドル |

| Google Cloud TTS Studio | 160ドル | 0.27ドル |

| Azure Custom Neural | 24ドル | 0.07ドル |

| 타입캐스트 | 約15ドル | - |

| ネイバー클로바 Voice | 約20ドル | - |

| CoeFont | 約30ドル | - |

| Vapi (フルエージェント) | - | 0.08ドル |

| Retell AI | - | 0.075ドル |

| Bland AI | - | 0.09ドル |

スタートアップ段階ならOpenAI tts-1・Fish Audio・Cartesiaがコスト効率最強。エンタープライズ品質が必要ならElevenLabs・타입캐스트・클로바。

21. 誰が何を選ぶべきか

マトリクスで整理する。

| 目的 | 推奨 |

| --- | --- |

| 英語コンソール用フルデュプレックス | OpenAI Realtime API |

| 多言語音声エージェント | LiveKit Agents + Cartesia |

| 英語オーディオブック / ダビング | ElevenLabs Studio |

| 感情伴侶チャットボット | Hume EVI 2 |

| 自然さの実演デモ | Sesame Maya / Miles |

| 中国語コンテンツ | Fish Audio |

| 韓国語コンテンツ | 타입캐스트、ネイバー클로바 |

| 日本語キャラクター | VOICEVOX |

| 日本語マーケット | CoeFont |

| オープン / 自前ホスティング | F5-TTS、CosyVoice 2 |

| コールセンターSaaS | Vapi、Retell AI、Bland AI |

| モバイル / エッジSTT | Moonshine、Distil-Whisper |

| 高速STT | Deepgram Nova-3 |

| 高精度STT | OpenAI gpt-4o-transcribe |

| エンタープライズ既定 | Polly、Google TTS、Azure Speech |

3つの決定軸:

1. **レイテンシ vs 品質** — Cartesia/Realtimeは速く、ElevenLabs/Sesameは豊か。

2. **API統合 vs 自前ホスティング** — APIは速く出せ、オープンモデルはデータ主権を守る。

3. **グローバル vs 国語** — 韓国語・日本語は海外勢が追いつけない自然さの差がある。

22. ユースケース — 何が実際に稼いでいるか

2026年に音声AIが売上を立てている領域。

- **コールセンター自動化** — Retell、Bland AIが米国の不動産/医療で導入。コール1件あたり5-15ドルの削減。

- **オーディオブック / ポッドキャストのダビング** — ElevenLabs Studioが出版社と契約。時間あたりコストが10分の1。

- **ゲームNPCの音声** — Sony、EA、Ubisoftが揃ってElevenLabs・Resembleと提携。

- **言語学習** — Duolingo Max、SpeakがOpenAI Realtimeを採用。

- **アクセシビリティ** — Apple、MicrosoftがOSレベルでTTS統合。

- **広告・マーケティング吹替** — 映像ダビングが単独最大市場。

- **個人向け伴侶チャットボット** — Character.AI、ReplikaがElevenLabs / Cartesiaを使用。

最も明確な収益源はコールセンター自動化、次にコンテンツダビング。

23. まとめ — 音声がインターフェースになった年

5年前の音声AIは留守番電話レベルだった。2026年の音声AIは違う。

- TTFW 75msのCartesia、32言語のElevenLabs、単一モデルのOpenAI Realtimeが共存する。

- LiveKit Agents・Pipecat・Vapi・Retell・Bland AIがオーケストレーションを作った。

- Sesame・Humeが感情と自然さの新基準を示した。

- Deepgram Nova-3がSTTのレイテンシを50ms未満に下げた。

- 韓国は타입캐스트・클로바、日本はCoeFont・VOICEVOXが国内市場を守る。

- ELVIS法、EU AI法がクローンの倫理に線を引いた。

残るは、どんな音声インターフェースを作るかを決めることだ。本稿がその出発点になれば幸いである。

参考 / References

- ElevenLabs — [https://elevenlabs.io/](https://elevenlabs.io/)

- ElevenLabs Conversational AI — [https://elevenlabs.io/conversational-ai](https://elevenlabs.io/conversational-ai)

- Cartesia — [https://cartesia.ai/](https://cartesia.ai/)

- Cartesia Sonic — [https://cartesia.ai/sonic](https://cartesia.ai/sonic)

- Play.HT — [https://play.ht/](https://play.ht/)

- OpenAI Realtime API — [https://platform.openai.com/docs/guides/realtime](https://platform.openai.com/docs/guides/realtime)

- OpenAI TTS — [https://platform.openai.com/docs/guides/text-to-speech](https://platform.openai.com/docs/guides/text-to-speech)

- Hume AI EVI — [https://hume.ai/products/empathic-voice-interface](https://hume.ai/products/empathic-voice-interface)

- Sesame Research — [https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice](https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice)

- Fish Audio — [https://fish.audio/](https://fish.audio/)

- Deepgram Aura — [https://deepgram.com/product/text-to-speech](https://deepgram.com/product/text-to-speech)

- Deepgram Nova-3 — [https://deepgram.com/learn/introducing-nova-3](https://deepgram.com/learn/introducing-nova-3)

- AssemblyAI Universal-2 — [https://www.assemblyai.com/blog/universal-2/](https://www.assemblyai.com/blog/universal-2/)

- OpenAI Whisper — [https://openai.com/research/whisper](https://openai.com/research/whisper)

- LiveKit Agents — [https://docs.livekit.io/agents/](https://docs.livekit.io/agents/)

- Pipecat — [https://www.pipecat.ai/](https://www.pipecat.ai/)

- Vapi — [https://vapi.ai/](https://vapi.ai/)

- Retell AI — [https://www.retellai.com/](https://www.retellai.com/)

- Bland AI — [https://www.bland.ai/](https://www.bland.ai/)

- Silero VAD — [https://github.com/snakers4/silero-vad](https://github.com/snakers4/silero-vad)

- Resemble AI — [https://www.resemble.ai/](https://www.resemble.ai/)

- WellSaid Labs — [https://wellsaidlabs.com/](https://wellsaidlabs.com/)

- Coqui TTS — [https://github.com/coqui-ai/TTS](https://github.com/coqui-ai/TTS)

- F5-TTS — [https://github.com/SWivid/F5-TTS](https://github.com/SWivid/F5-TTS)

- CosyVoice — [https://github.com/FunAudioLLM/CosyVoice](https://github.com/FunAudioLLM/CosyVoice)

- MaskGCT — [https://github.com/open-mmlab/Amphion](https://github.com/open-mmlab/Amphion)

- OpenVoice — [https://github.com/myshell-ai/OpenVoice](https://github.com/myshell-ai/OpenVoice)

- Moonshine — [https://github.com/usefulsensors/moonshine](https://github.com/usefulsensors/moonshine)

- Distil-Whisper — [https://github.com/huggingface/distil-whisper](https://github.com/huggingface/distil-whisper)

- Tennessee ELVIS Act — [https://www.capitol.tn.gov/Bills/113/Bill/HB2091.pdf](https://www.capitol.tn.gov/Bills/113/Bill/HB2091.pdf)

- EU AI Act — [https://artificialintelligenceact.eu/](https://artificialintelligenceact.eu/)

- SynthID — [https://deepmind.google/technologies/synthid/](https://deepmind.google/technologies/synthid/)

- 타입캐스트 — [https://typecast.ai/](https://typecast.ai/)

- ネイバー클로바 Voice — [https://www.ncloud.com/product/aiService/css](https://www.ncloud.com/product/aiService/css)

- CoeFont — [https://coefont.cloud/](https://coefont.cloud/)

- VOICEVOX — [https://voicevox.hiroshiba.jp/](https://voicevox.hiroshiba.jp/)