音声AI & TTS 2026 完全ガイド - ElevenLabs · Cartesia Sonic · OpenAI Voice · Play.HT · Hume · Sesame · Fish Audio · Deepgram Aura 徹底解説

プロローグ — 音声がLLMの口と耳になった年

2026年5月現在、「音声AI」という言葉の重みは5年前とまったく違う。

ElevenLabs v3は32言語・感情ラベル・5秒クローンに対応し、実質的に英語圏TTSの標準となった。
Cartesia SonicはTTFW(Time To First Word) 75msで最も速い商用TTSで、LiveKit Agentsの既定TTSである。
OpenAI Realtime APIはSTT・LLM・TTSを単一のWebSocketで処理するフルデュプレックスを一般化した。
Google Gemini Live・Anthropic Claude voice modeがLLMネイティブ音声を定着させた。
Hume EVI 2とSesameのMaya/Milesデモ(2025年3月)は、感情と自然さの限界を再定義した。
Fish Audio・CosyVoice 2・F5-TTSがオープン/中華圏で急速にシェアを伸ばした。
Deepgram Nova-3がSTTのレイテンシを50ms未満に下げ、AssemblyAI Universal-2・OpenAI GPT-4o transcribeが精度で競っている。
LiveKit Agents・Pipecat・Vapi・Retell AI・Bland AIといったオーケストレーション層が音声エージェントの定番スタックを作った。
テネシー州ELVIS法・EU AI法が音声クローンの倫理に初めて法的な線を引いた。
韓国は타입캐스트(Neosapience)とネイバー클로바ダビング、日本はCoeFontとVOICEVOXが国内市場を主導する。

本稿はその全体地図である。どのツールがどの位置を占めているか、どの指標が本当に重要か、2026年に新規プロジェクトを始めるなら何を選ぶべきかを整理する。

1. 2026年の音声スタック — 4段パイプライン

今日の音声AIは4つの層で整理できる。

[ 第1段 ] 入力          - マイク / WebRTC / SIP / 電話
[ 第2段 ] STT (ASR)     - Deepgram Nova-3 / AssemblyAI / GPT-4o transcribe / Whisper v3 turbo
[ 第3段 ] LLM           - GPT-5 / Claude 4.5 / Gemini 2.5 Pro / Llama 4
[ 第4段 ] TTS           - ElevenLabs / Cartesia / OpenAI / Play.HT / Hume / Sesame
[ 横軸 ] オーケストレーション - LiveKit Agents / Pipecat / Vapi / Retell / Bland
[ 横軸 ] 割り込み       - VAD / barge-in / turn detection / endpointing

伝統的なSTT → LLM → TTSは今でも最多採用だが、2025年からOpenAI Realtime・Gemini Liveが証明したフルデュプレックスのLLMネイティブ音声が急速に領域を侵食している。

段	主要指標
STT	WER(単語誤り率)、初回部分結果のレイテンシ、多言語
LLM	TTFT(初トークン)、TPS(トークン/秒)
TTS	TTFW(初語)、音質MOS、ボイスの多様性
フルデュプレックス	エンドツーエンドのレイテンシ、割り込みの自然さ

会話レイテンシの目標は一貫している。最初の音声まで300ms以下。

2. 主要指標 — レイテンシ、ひたすらレイテンシ

音声AIで最も無視されがちで最も重要なのは人間の知覚閾値である。

200ms以下: 自然な人間の会話に感じる。
200-500ms: わずかに違和感があるが許容範囲。
500ms-1s: 明らかに遅い。
1s以上: 自動応答機のように聞こえる。

伝統的なパイプラインのレイテンシは以下のように積み上がる。

マイク -> VAD -> STT部分結果 -> エンドポイント -> LLM TTFT -> TTS TTFW -> スピーカー
 10ms   30ms     80ms           200ms             400ms       150ms       30ms
                                合計: 約900ms

これを300ms未満に詰めるには3つの仕掛けがいる。

ストリーミングSTT — エンドポイントを待たず、部分結果をLLMに流す。
ストリーミングLLM — 最初のトークンからTTSへ流す。
ストリーミングTTS — 単語単位で音声を出力する。

OpenAI Realtime・Gemini Liveはこの3段をモデル内部で融合し、200-400msまで縮めている。

3. ElevenLabs v3 — 英語圏TTSの王座

ElevenLabsは2022年創業ながら、過去最速で市場を取ったTTS企業である。v3は以下を提供する。

32言語、60秒クローン、5秒のInstant Voice Clone(IVC)
感情ラベル: 怒り、悲しみ、興奮、ささやきなど
ElevenLabs Conversational AI — STT + LLM + TTSの単一SDK
ElevenLabs Studio — 長尺ダビング / オーディオブック
Voice Library — 5万以上の公開ボイス
ElevenLabs Reader — 視覚障害者・多読者向けアプリ

Python SDKの呼び出し例。

from elevenlabs.client import ElevenLabs
from elevenlabs import play

client = ElevenLabs(api_key="...")

audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v3",
    text="こんにちは。2026年の音声AIガイドです。",
)

play(audio)

ストリーミングは次のとおり。

stream = client.text_to_speech.convert_as_stream(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_flash_v2_5",  # 低レイテンシモデル
    text="低レイテンシのストリーミング例。",
)

for chunk in stream:
    speaker.write(chunk)

価格(2026年5月)。

プラン	月間文字数	価格
Free	10k	無料
Starter	30k	5ドル
Creator	100k	22ドル
Pro	500k	99ドル
Scale	2M	330ドル
Enterprise	カスタム	要相談

従量APIはeleven_multilingual_v3で1M文字あたり約180ドル、eleven_flash_v2_5はその半額ほど。

長所: 音質、多言語、Voice Libraryの規模、Conversational AIの統合。短所: 価格、英語以外(韓国語/日本語など)の自然さがやや劣る。

4. Cartesia Sonic — 最速のTTS

Cartesiaは2023年にMamba著者(Albert Gu、Karan Goel)が創業した会社である。SSM(状態空間モデル)ベースのSonic TTSで知られる特徴は次のとおり。

TTFW 75ms — 商用TTSで突出して速い
Sonic-2(2025) / Sonic-3(2026) — 多言語、感情、歌唱
LiveKit Agentsの既定TTS
3秒のサンプルで音声クローン

Python SDKの呼び出し。

from cartesia import Cartesia

client = Cartesia(api_key="...")

# ストリーミング合成
ws = client.tts.websocket()

for output in ws.send(
    model_id="sonic-3",
    transcript="低レイテンシ音声デモです。",
    voice_id="694f9389-aac1-45b6-b726-9d9369183238",
    output_format={
        "container": "raw",
        "encoding": "pcm_s16le",
        "sample_rate": 24000,
    },
):
    speaker.write(output.audio)

価格は1M文字あたり約65ドルで、ElevenLabsの半額以下。ただし韓国語・日本語の品質はElevenLabsより一段下がる。

レイテンシが絶対値ならCartesia、多言語の品質を優先するならElevenLabs。

5. Play.HT 3 — 多言語 + Realtime

Play.HTは2016年創業のロサンゼルス拠点企業で、30以上の言語に対応する。3.0の要点は以下。

PlayDialog — 2人以上の対話合成
Realtime API — TTFW 200ms
142ボイス + クローン
LangChain・LlamaIndex統合

Python呼び出し。

from pyht import Client, TTSOptions, Format

client = Client(user_id="...", api_key="...")

options = TTSOptions(
    voice="s3://voice-cloning-zero-shot/...",
    sample_rate=24000,
    format=Format.FORMAT_WAV,
)

for chunk in client.tts("Play.HT 3のデモです。", options=options):
    speaker.write(chunk)

価格は10万文字39ドルから。ElevenLabsとCartesiaの中間。

特長: PlayDialogは2人会話の自然さで群を抜く。ポッドキャスト自動生成で人気。

6. OpenAI Voice — tts-1, gpt-4o-mini-tts, Realtime API

OpenAIは2024年のtts-1で始め、2025-2026年にフルスタックを揃えた。

モデル	用途	備考
tts-1	標準TTS	高速、まずまずの品質、6ボイス
tts-1-hd	高品質TTS	価格高め、音質良
gpt-4o-mini-tts	次世代TTS	指示可能、感情制御
Realtime API (gpt-4o-realtime-preview)	フルデュプレックス音声	STT+LLM+TTS統合

Realtime APIの例。

import WebSocket from 'ws'

const ws = new WebSocket(
  'wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2026',
  {
    headers: {
      Authorization: 'Bearer YOUR_KEY',
      'OpenAI-Beta': 'realtime=v1',
    },
  }
)

ws.on('open', () => {
  ws.send(
    JSON.stringify({
      type: 'session.update',
      session: {
        modalities: ['text', 'audio'],
        voice: 'alloy',
        instructions: '親切かつ簡潔に応答してください。',
        turn_detection: { type: 'server_vad' },
      },
    })
  )
})

ws.on('message', (data) => {
  const evt = JSON.parse(data)
  if (evt.type === 'response.audio.delta') {
    speaker.write(Buffer.from(evt.delta, 'base64'))
  }
})

価格(Realtime API): 音声入力1Mトークン100ドル、出力1Mトークン200ドル。1分の通話で約0.06ドル。tts-1は1M文字15ドル、gpt-4o-mini-ttsは12ドルで最安。

長所: 価格、統合、GPTモデル直結。短所: ボイス多様性がElevenLabs・Cartesiaに比べて少ない。

7. Hume AI EVI 2 — 感情音声インターフェース

Hume AIは感情をMLの一級市民として扱う会社である。EVI 2(Empathic Voice Interface 2)は次を行う。

発話の感情を測定 — 28の感情次元
応答ボイスの感情を自動調整
フルデュプレックス音声 — TTFW約700ms
ユーザーのトーンに合わせて応答トーンを調整

デモは印象的だが、日常会話の自然さではOpenAI Realtimeより若干劣る。医療相談・メンタルヘルス・伴侶チャットボットなど、感情敏感な領域で強い。

価格は1分あたり約0.072ドル。

8. Sesame — Maya / Milesの衝撃

Sesameは、Oculus共同創業者Brendan IribeがMaven AIを2024年に買収して設立した会社である。2025年3月に公開したMayaとMilesのボイスデモはX(旧Twitter)を騒然とさせた。

自然な呼吸・ためらい・笑い
ユーザーの感情に合わせたトーン調整
長い会話でも一貫したペルソナ
Conversational Speech Model(CSM) 1Bを研究用にオープンソース化

デモ: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

2026年5月現在、商用APIはまだlimited previewだが、その自然さはElevenLabs・Hume・OpenAIのいずれもまだ追えていない領域だ。短所は英語中心であること。

9. Fish Audio Speech 1.5 — 中華圏の覇者

Fish Audioは中国拠点で、2024年から急成長したTTS企業。Speech 1.5の強みは以下。

中国語の自然さで首位 — 方言を含む
30秒の音声クローン
9言語対応
1M文字あたり約12ドル — 非常に安い
オープンソースのFish Speech v1.4

選定基準:

中国語話者・中華市場 → Fish Audio
韓国語・日本語優先 → 타입캐스트 / 클로바 / CoeFont

後継のOpenAudio S1モデルも公開済み。

10. Deepgram Aura — STT企業発のTTS

Deepgramは2015年創業のSTT専業企業。2024年にTTSのAuraを初リリースした。

TTFW約200ms
1M文字あたり約15ドル — OpenAI tts-1並み
12ボイス(英語中心)
自社STT + Auraを束ねたフルスタック音声エージェントSDKを提供

特長: STTとTTSを同一ベンダーで統合すると、請求・SLA・セキュリティモデルが単純化する。一方TTS自体の品質はElevenLabs・Cartesiaより一段下。

11. その他のTTS — Resemble, WellSaid, Coqui, F5-TTS

ツール	特徴
Resemble AI	クローン・セキュリティ特化、政府/防衛市場
WellSaid Labs	米国エンタープライズ中心
Coqui TTS	オープンソース。会社は2024年に閉鎖、コミュニティが維持
F5-TTS (UCB, 2024)	5秒クローンのオープンソース。爆発的人気
MaskGCT	Microsoft + Sealand、2024年オープンソース
CosyVoice 2	Alibaba 2025年 — 中国語+英語が強い
GPT-SoVITS	インディ開発、日本・中国コミュニティで人気
OpenVoice v2	MyShell.ai、クローン+多言語
Bark, Vall-E-X, XTTS v2	2023-2024年のレガシーオープンモデル

オープンソース優先なら、2026年時点ではF5-TTSまたはCosyVoice 2が最善。F5-TTSは5秒サンプルでも驚くクローン性能、CosyVoice 2はAlibabaの後援で安定。

12. クラウド3大 — Polly, Google TTS, Azure Speech

ベンダー	特徴	価格
Amazon Polly	Neural · Generative voice、90以上のボイス	1M文字4ドル(標準)
Google Cloud TTS	Studio、Neural2、Wavenet	1M文字16ドル(Studio)
Azure Speech	Custom Neural Voice、多言語が強い	1M文字16-30ドル

エンタープライズ・政府・規制業種では依然デフォルト。ボイスの新鮮さと自然さはElevenLabs・Cartesiaに一世代遅れるが、AWS / GCP / Azure統合とSLAが決め手になる。

Microsoft ResearchのNaturalSpeech 3は学術的に最高水準だがGA未満。Google DeepMindのLyria 2は音楽生成用だが、ボーカル合成でTTSと重なる領域を作った。

13. STT — Deepgram Nova-3, AssemblyAI Universal-2, OpenAI

ツール	TTFW	WER (英語)	多言語
Deepgram Nova-3	`<50ms`	6.8%	36
AssemblyAI Universal-2	200ms	5.7%	70+
OpenAI Whisper v3 turbo	バッチ	7.5%	99
OpenAI gpt-4o-transcribe	ストリーミング	5.2%	99+
Gladia	300ms	6.5%	100+
Speechmatics	250ms	6.0%	50+
Rev AI	300ms	7.0%	36
Soniox	80ms	5.9%	60+

レイテンシが絶対値ならNova-3またはSoniox。WERを優先するならGPT-4o transcribeまたはAssemblyAI。

オープンソースはWhisper・WhisperX・Distil-Whisper・Vosk・Moonshine(Useful Sensors)・Owl ASR。Moonshineはモバイル/エッジ向きとして台頭中。

# Deepgram Nova-3 ストリーミングSTT例
from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions

dg = DeepgramClient(api_key="...")
connection = dg.listen.live.v("1")

def on_message(_, result, **kwargs):
    print(result.channel.alternatives[0].transcript)

connection.on(LiveTranscriptionEvents.Transcript, on_message)
connection.start(LiveOptions(model="nova-3", language="ja", interim_results=True))

for chunk in mic_stream():
    connection.send(chunk)

14. フルデュプレックス音声エージェント — LiveKit, Pipecat, Vapi

音声エージェントは単純なTTS/STTを超えて、ターン管理・割り込み・VAD・ツール呼び出しを同時に扱う。

LiveKit Agents

LiveKit AgentsはWebRTCバックボーン上にPythonで書くフルスタックの音声エージェントフレームワーク。CartesiaがデフォルトTTSである。

from livekit.agents import Agent, AgentSession, JobContext
from livekit.plugins import openai, cartesia, deepgram, silero

class Assistant(Agent):
    async def on_enter(self):
        await self.session.say("こんにちは。何をお手伝いしましょうか。")

async def entrypoint(ctx: JobContext):
    session = AgentSession(
        stt=deepgram.STT(model="nova-3"),
        llm=openai.LLM(model="gpt-4o"),
        tts=cartesia.TTS(voice="..."),
        vad=silero.VAD.load(),
    )
    await session.start(agent=Assistant(), room=ctx.room)

Pipecat

PipecatはDaily.coが支援するPython音声エージェントフレームワーク。LiveKitよりモジュラーで、ビジョン+オーディオのマルチモーダルに強い。

Vapi · Retell AI · Bland AI

3社はSaaS型の音声エージェントを提供する。

Vapi — 最も急成長、no-codeとAPIの両対応
Retell AI — Y Combinator出身、電話統合が強い
Bland AI — 米国コールセンター特化、1分あたり0.09ドル

SaaSは立ち上がりが速くSIP / Twilio統合が完成しているが、コストが積み上がると自前のLiveKit + Cartesiaスタックの方が安くなる。

15. フルデュプレックスLLM — Realtime API, Gemini Live, Claude Voice

伝統的パイプラインを置き換えるもうひとつの道がLLMネイティブ音声である。

モデル	リリース	備考
OpenAI Realtime API (gpt-4o-realtime)	2024-10	WebSocket、8ボイス
Google Gemini 2.5 Live	2025	動画マルチモーダル統合
Anthropic Claude voice mode	2025	モバイルアプリ、Sonnetベース
Mistral Voxtral	2025	オープン7B/24B音声モデル

LLMネイティブ音声の長所は**感情・割り込み・バックチャネル(うん/なるほど)**を自然に扱えること。短所は外部TTSを差し替えられず、ボイス多様性に乏しいこと。

16. 割り込み / VAD / barge-in — 見えない本質

音声エージェントが不自然に感じる原因の90%は割り込み処理である。人間は終わっていない文を切り、バックチャネルを挟み、次の話者がすぐ始める。それを扱う技術群:

VAD(Voice Activity Detection) — Silero VADが事実上の標準。30-50msで音声開始/終了を検知。
Turn Detection — 単なる無音検知ではなく、「ターンが終わったか」を判断。LiveKit Turn Detector(2026)、OpenAI Realtime内蔵。
Barge-in — ユーザーが話したらAIのTTSを即座に切り、リスニングモードに切り替える。
Endpointing — 部分STT結果からLLMを先回りでトリガー。

Silero VADの使用例。

import torch

vad, utils = torch.hub.load(
    "snakers4/silero-vad", "silero_vad", trust_repo=True
)

(get_speech_timestamps, _, read_audio, *_) = utils

audio = read_audio("test.wav", sampling_rate=16000)
ts = get_speech_timestamps(audio, vad, sampling_rate=16000)

17. クローン倫理 — ELVIS法、EU AI法、SynthID

音声クローンは2024年のニューハンプシャー予備選で偽バイデン音声が登場したことで社会的問題化した。立法はそれに続いた。

テネシー州ELVIS法(2024年7月施行) — 米国初、音声・容姿の無断AI複製を刑事処罰。
EU AI法(2024年5月発効) — 音声クローンは高リスク/透明性義務。
カリフォルニア州AB 2839(2024年) — 選挙期間中のディープフェイク禁止。
米国FCC(2024年) — AI音声を使ったロボコールを違法化。

対抗技術:

SynthID Audio(Google DeepMind) — 可聴域以下のウォーターマーク。
Resemble Detect — Resemble AIの偽音声検出モデル。
AntiFake(ワシントン大学) — TTS学習に耐性をもつ音声攪乱。

商用TTSの大半は同意確認フロー(録音された同意文)を義務化する。ElevenLabsは「I have the right to clone this voice」を発話したサンプルを要求する。

18. 韓国 — 타입캐스트、클로바、카카오、HyperCLOVA X Voice

韓国市場は国内企業ががっちり押さえている。

타입캐스트(Neosapience) — 韓国シェア1位。コンテンツクリエイター・広告・オーディオブック。映像合成の一貫性で非常に強い。
ネイバー클로바 Voice / 클로바ダビング — 50以上の韓国語ボイス、ダビングは動画字幕の自動吹替。
HyperCLOVA X Voice — ネイバーLLMと結合した音声エージェントSDK。
카카오TTS / 카카오i Voice — KakaoTalkチャットボット・카카오i統合。
AI Tester(엔플라이) — 広告ボイス特化。

特異点: 韓国語の韻律と外来語発音では海外TTSが依然として不自然。타입캐스트と클로바が圧倒的に自然。

타입캐스트API呼び出し例。

import requests

resp = requests.post(
    "https://typecast.ai/api/speak",
    headers={"Authorization": "Bearer ..."},
    json={
        "actor_id": "5c3b3...",
        "text": "타입캐스트音声合成のデモです。",
        "lang": "ko",
        "tempo": 1.0,
    },
)

価格: 타입캐스트は100文字あたり約1.5ウォン、클로바は200文字あたり約4ウォン。

19. 日本 — CoeFont, VOICEVOX, Synthesizer V

日本は韓国とは雰囲気が違う。キャラクターボイス + マーケットプレイスモデルが強い。

CoeFont — 1万以上のボイスのマーケットプレイス。声優が自分のボイスを登録・販売する。
Rinna Japanese TTS — マイクロソフト出身りんなの日本語オープンTTS。
VOICEROID / VOICEVOX — VOICEVOXは無料、ずんだもん・四国めたんなどのキャラクターボイス。YouTube・ニコニコの標準。
Synthesizer V — 歌唱合成、日本語・中国語・韓国語ボーカル。
AI Voice Project(AIVoice) — プロ声優の音声を合法ライセンスで再現。

特異点: 日本では商用利用可否・キャラクター別利用規約の確認が必須。VOICEVOX内でもキャラクターごとに条件が違う。

選定基準:

ビジネス・コールセンター → CoeFont、Rinna
YouTube・ゲーム・同人コンテンツ → VOICEVOX
歌唱合成 → Synthesizer V

20. 価格比較 — 1M文字 / 1分通話

価格差は1桁を超えることが多い。2026年5月時点で整理する。

ツール	1M文字	フルデュプレックス1分
ElevenLabs Multilingual v3	180ドル	0.30ドル
ElevenLabs Flash v2.5	90ドル	0.15ドル
Cartesia Sonic 3	65ドル	0.11ドル
Play.HT 3	120ドル	0.20ドル
OpenAI tts-1	15ドル	0.06ドル
OpenAI gpt-4o-mini-tts	12ドル	0.05ドル
OpenAI Realtime API	-	0.06ドル
Hume EVI 2	-	0.072ドル
Fish Audio 1.5	12ドル	0.04ドル
Deepgram Aura	15ドル	0.05ドル
Amazon Polly Generative	30ドル	0.08ドル
Google Cloud TTS Studio	160ドル	0.27ドル
Azure Custom Neural	24ドル	0.07ドル
타입캐스트	約15ドル	-
ネイバー클로바 Voice	約20ドル	-
CoeFont	約30ドル	-
Vapi (フルエージェント)	-	0.08ドル
Retell AI	-	0.075ドル
Bland AI	-	0.09ドル

スタートアップ段階ならOpenAI tts-1・Fish Audio・Cartesiaがコスト効率最強。エンタープライズ品質が必要ならElevenLabs・타입캐스트・클로바。

21. 誰が何を選ぶべきか

マトリクスで整理する。

目的	推奨
英語コンソール用フルデュプレックス	OpenAI Realtime API
多言語音声エージェント	LiveKit Agents + Cartesia
英語オーディオブック / ダビング	ElevenLabs Studio
感情伴侶チャットボット	Hume EVI 2
自然さの実演デモ	Sesame Maya / Miles
中国語コンテンツ	Fish Audio
韓国語コンテンツ	타입캐스트、ネイバー클로바
日本語キャラクター	VOICEVOX
日本語マーケット	CoeFont
オープン / 自前ホスティング	F5-TTS、CosyVoice 2
コールセンターSaaS	Vapi、Retell AI、Bland AI
モバイル / エッジSTT	Moonshine、Distil-Whisper
高速STT	Deepgram Nova-3
高精度STT	OpenAI gpt-4o-transcribe
エンタープライズ既定	Polly、Google TTS、Azure Speech

3つの決定軸:

レイテンシ vs 品質 — Cartesia/Realtimeは速く、ElevenLabs/Sesameは豊か。
API統合 vs 自前ホスティング — APIは速く出せ、オープンモデルはデータ主権を守る。
グローバル vs 国語 — 韓国語・日本語は海外勢が追いつけない自然さの差がある。

22. ユースケース — 何が実際に稼いでいるか

2026年に音声AIが売上を立てている領域。

コールセンター自動化 — Retell、Bland AIが米国の不動産/医療で導入。コール1件あたり5-15ドルの削減。
オーディオブック / ポッドキャストのダビング — ElevenLabs Studioが出版社と契約。時間あたりコストが10分の1。
ゲームNPCの音声 — Sony、EA、Ubisoftが揃ってElevenLabs・Resembleと提携。
言語学習 — Duolingo Max、SpeakがOpenAI Realtimeを採用。
アクセシビリティ — Apple、MicrosoftがOSレベルでTTS統合。
広告・マーケティング吹替 — 映像ダビングが単独最大市場。
個人向け伴侶チャットボット — Character.AI、ReplikaがElevenLabs / Cartesiaを使用。

最も明確な収益源はコールセンター自動化、次にコンテンツダビング。

23. まとめ — 音声がインターフェースになった年

5年前の音声AIは留守番電話レベルだった。2026年の音声AIは違う。

TTFW 75msのCartesia、32言語のElevenLabs、単一モデルのOpenAI Realtimeが共存する。
LiveKit Agents・Pipecat・Vapi・Retell・Bland AIがオーケストレーションを作った。
Sesame・Humeが感情と自然さの新基準を示した。
Deepgram Nova-3がSTTのレイテンシを50ms未満に下げた。
韓国は타입캐스트・클로바、日本はCoeFont・VOICEVOXが国内市場を守る。
ELVIS法、EU AI法がクローンの倫理に線を引いた。

残るは、どんな音声インターフェースを作るかを決めることだ。本稿がその出発点になれば幸いである。

参考 / References

ElevenLabs — https://elevenlabs.io/
ElevenLabs Conversational AI — https://elevenlabs.io/conversational-ai
Cartesia — https://cartesia.ai/
Cartesia Sonic — https://cartesia.ai/sonic
Play.HT — https://play.ht/
OpenAI Realtime API — https://platform.openai.com/docs/guides/realtime
OpenAI TTS — https://platform.openai.com/docs/guides/text-to-speech
Hume AI EVI — https://hume.ai/products/empathic-voice-interface
Sesame Research — https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
Fish Audio — https://fish.audio/
Deepgram Aura — https://deepgram.com/product/text-to-speech
Deepgram Nova-3 — https://deepgram.com/learn/introducing-nova-3
AssemblyAI Universal-2 — https://www.assemblyai.com/blog/universal-2/
OpenAI Whisper — https://openai.com/research/whisper
LiveKit Agents — https://docs.livekit.io/agents/
Pipecat — https://www.pipecat.ai/
Vapi — https://vapi.ai/
Retell AI — https://www.retellai.com/
Bland AI — https://www.bland.ai/
Silero VAD — https://github.com/snakers4/silero-vad
Resemble AI — https://www.resemble.ai/
WellSaid Labs — https://wellsaidlabs.com/
Coqui TTS — https://github.com/coqui-ai/TTS
F5-TTS — https://github.com/SWivid/F5-TTS
CosyVoice — https://github.com/FunAudioLLM/CosyVoice
MaskGCT — https://github.com/open-mmlab/Amphion
OpenVoice — https://github.com/myshell-ai/OpenVoice
Moonshine — https://github.com/usefulsensors/moonshine
Distil-Whisper — https://github.com/huggingface/distil-whisper
Tennessee ELVIS Act — https://www.capitol.tn.gov/Bills/113/Bill/HB2091.pdf
EU AI Act — https://artificialintelligenceact.eu/
SynthID — https://deepmind.google/technologies/synthid/
타입캐스트 — https://typecast.ai/
ネイバー클로바 Voice — https://www.ncloud.com/product/aiService/css
CoeFont — https://coefont.cloud/
VOICEVOX — https://voicevox.hiroshiba.jp/