Skip to content
Published on

音声AI & TTS 2026 完全ガイド - ElevenLabs · Cartesia Sonic · OpenAI Voice · Play.HT · Hume · Sesame · Fish Audio · Deepgram Aura 徹底解説

Authors

プロローグ — 音声がLLMの口と耳になった年

2026年5月現在、「音声AI」という言葉の重みは5年前とまったく違う。

  • ElevenLabs v3は32言語・感情ラベル・5秒クローンに対応し、実質的に英語圏TTSの標準となった。
  • Cartesia SonicはTTFW(Time To First Word) 75msで最も速い商用TTSで、LiveKit Agentsの既定TTSである。
  • OpenAI Realtime APIはSTT・LLM・TTSを単一のWebSocketで処理するフルデュプレックスを一般化した。
  • Google Gemini Live・Anthropic Claude voice modeがLLMネイティブ音声を定着させた。
  • Hume EVI 2とSesameのMaya/Milesデモ(2025年3月)は、感情と自然さの限界を再定義した。
  • Fish Audio・CosyVoice 2・F5-TTSがオープン/中華圏で急速にシェアを伸ばした。
  • Deepgram Nova-3がSTTのレイテンシを50ms未満に下げ、AssemblyAI Universal-2・OpenAI GPT-4o transcribeが精度で競っている。
  • LiveKit Agents・Pipecat・Vapi・Retell AI・Bland AIといったオーケストレーション層が音声エージェントの定番スタックを作った。
  • テネシー州ELVIS法・EU AI法が音声クローンの倫理に初めて法的な線を引いた。
  • 韓国は타입캐스트(Neosapience)とネイバー클로바ダビング、日本はCoeFontとVOICEVOXが国内市場を主導する。

本稿はその全体地図である。どのツールがどの位置を占めているか、どの指標が本当に重要か、2026年に新規プロジェクトを始めるなら何を選ぶべきかを整理する。


1. 2026年の音声スタック — 4段パイプライン

今日の音声AIは4つの層で整理できる。

[ 第1段 ] 入力          - マイク / WebRTC / SIP / 電話
[ 第2段 ] STT (ASR)     - Deepgram Nova-3 / AssemblyAI / GPT-4o transcribe / Whisper v3 turbo
[ 第3段 ] LLM           - GPT-5 / Claude 4.5 / Gemini 2.5 Pro / Llama 4
[ 第4段 ] TTS           - ElevenLabs / Cartesia / OpenAI / Play.HT / Hume / Sesame
[ 横軸 ] オーケストレーション - LiveKit Agents / Pipecat / Vapi / Retell / Bland
[ 横軸 ] 割り込み       - VAD / barge-in / turn detection / endpointing

伝統的なSTT → LLM → TTSは今でも最多採用だが、2025年からOpenAI Realtime・Gemini Liveが証明したフルデュプレックスのLLMネイティブ音声が急速に領域を侵食している。

主要指標
STTWER(単語誤り率)、初回部分結果のレイテンシ、多言語
LLMTTFT(初トークン)、TPS(トークン/秒)
TTSTTFW(初語)、音質MOS、ボイスの多様性
フルデュプレックスエンドツーエンドのレイテンシ、割り込みの自然さ

会話レイテンシの目標は一貫している。最初の音声まで300ms以下


2. 主要指標 — レイテンシ、ひたすらレイテンシ

音声AIで最も無視されがちで最も重要なのは人間の知覚閾値である。

  • 200ms以下: 自然な人間の会話に感じる。
  • 200-500ms: わずかに違和感があるが許容範囲。
  • 500ms-1s: 明らかに遅い。
  • 1s以上: 自動応答機のように聞こえる。

伝統的なパイプラインのレイテンシは以下のように積み上がる。

マイク -> VAD -> STT部分結果 -> エンドポイント -> LLM TTFT -> TTS TTFW -> スピーカー
 10ms   30ms     80ms           200ms             400ms       150ms       30ms
                                合計: 約900ms

これを300ms未満に詰めるには3つの仕掛けがいる。

  1. ストリーミングSTT — エンドポイントを待たず、部分結果をLLMに流す。
  2. ストリーミングLLM — 最初のトークンからTTSへ流す。
  3. ストリーミングTTS — 単語単位で音声を出力する。

OpenAI Realtime・Gemini Liveはこの3段をモデル内部で融合し、200-400msまで縮めている。


3. ElevenLabs v3 — 英語圏TTSの王座

ElevenLabsは2022年創業ながら、過去最速で市場を取ったTTS企業である。v3は以下を提供する。

  • 32言語、60秒クローン、5秒のInstant Voice Clone(IVC)
  • 感情ラベル: 怒り、悲しみ、興奮、ささやきなど
  • ElevenLabs Conversational AI — STT + LLM + TTSの単一SDK
  • ElevenLabs Studio — 長尺ダビング / オーディオブック
  • Voice Library — 5万以上の公開ボイス
  • ElevenLabs Reader — 視覚障害者・多読者向けアプリ

Python SDKの呼び出し例。

from elevenlabs.client import ElevenLabs
from elevenlabs import play

client = ElevenLabs(api_key="...")

audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v3",
    text="こんにちは。2026年の音声AIガイドです。",
)

play(audio)

ストリーミングは次のとおり。

stream = client.text_to_speech.convert_as_stream(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_flash_v2_5",  # 低レイテンシモデル
    text="低レイテンシのストリーミング例。",
)

for chunk in stream:
    speaker.write(chunk)

価格(2026年5月)。

プラン月間文字数価格
Free10k無料
Starter30k5ドル
Creator100k22ドル
Pro500k99ドル
Scale2M330ドル
Enterpriseカスタム要相談

従量APIはeleven_multilingual_v3で1M文字あたり約180ドル、eleven_flash_v2_5はその半額ほど。

長所: 音質、多言語、Voice Libraryの規模、Conversational AIの統合。 短所: 価格、英語以外(韓国語/日本語など)の自然さがやや劣る。


4. Cartesia Sonic — 最速のTTS

Cartesiaは2023年にMamba著者(Albert Gu、Karan Goel)が創業した会社である。SSM(状態空間モデル)ベースのSonic TTSで知られる特徴は次のとおり。

  • TTFW 75ms — 商用TTSで突出して速い
  • Sonic-2(2025) / Sonic-3(2026) — 多言語、感情、歌唱
  • LiveKit Agentsの既定TTS
  • 3秒のサンプルで音声クローン

Python SDKの呼び出し。

from cartesia import Cartesia

client = Cartesia(api_key="...")

# ストリーミング合成
ws = client.tts.websocket()

for output in ws.send(
    model_id="sonic-3",
    transcript="低レイテンシ音声デモです。",
    voice_id="694f9389-aac1-45b6-b726-9d9369183238",
    output_format={
        "container": "raw",
        "encoding": "pcm_s16le",
        "sample_rate": 24000,
    },
):
    speaker.write(output.audio)

価格は1M文字あたり約65ドルで、ElevenLabsの半額以下。ただし韓国語・日本語の品質はElevenLabsより一段下がる。

レイテンシが絶対値ならCartesia、多言語の品質を優先するならElevenLabs。


5. Play.HT 3 — 多言語 + Realtime

Play.HTは2016年創業のロサンゼルス拠点企業で、30以上の言語に対応する。3.0の要点は以下。

  • PlayDialog — 2人以上の対話合成
  • Realtime API — TTFW 200ms
  • 142ボイス + クローン
  • LangChain・LlamaIndex統合

Python呼び出し。

from pyht import Client, TTSOptions, Format

client = Client(user_id="...", api_key="...")

options = TTSOptions(
    voice="s3://voice-cloning-zero-shot/...",
    sample_rate=24000,
    format=Format.FORMAT_WAV,
)

for chunk in client.tts("Play.HT 3のデモです。", options=options):
    speaker.write(chunk)

価格は10万文字39ドルから。ElevenLabsとCartesiaの中間。

特長: PlayDialogは2人会話の自然さで群を抜く。ポッドキャスト自動生成で人気。


6. OpenAI Voice — tts-1, gpt-4o-mini-tts, Realtime API

OpenAIは2024年のtts-1で始め、2025-2026年にフルスタックを揃えた。

モデル用途備考
tts-1標準TTS高速、まずまずの品質、6ボイス
tts-1-hd高品質TTS価格高め、音質良
gpt-4o-mini-tts次世代TTS指示可能、感情制御
Realtime API (gpt-4o-realtime-preview)フルデュプレックス音声STT+LLM+TTS統合

Realtime APIの例。

import WebSocket from 'ws'

const ws = new WebSocket(
  'wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2026',
  {
    headers: {
      Authorization: 'Bearer YOUR_KEY',
      'OpenAI-Beta': 'realtime=v1',
    },
  }
)

ws.on('open', () => {
  ws.send(
    JSON.stringify({
      type: 'session.update',
      session: {
        modalities: ['text', 'audio'],
        voice: 'alloy',
        instructions: '親切かつ簡潔に応答してください。',
        turn_detection: { type: 'server_vad' },
      },
    })
  )
})

ws.on('message', (data) => {
  const evt = JSON.parse(data)
  if (evt.type === 'response.audio.delta') {
    speaker.write(Buffer.from(evt.delta, 'base64'))
  }
})

価格(Realtime API): 音声入力1Mトークン100ドル、出力1Mトークン200ドル。1分の通話で約0.06ドル。tts-1は1M文字15ドル、gpt-4o-mini-ttsは12ドルで最安。

長所: 価格、統合、GPTモデル直結。 短所: ボイス多様性がElevenLabs・Cartesiaに比べて少ない。


7. Hume AI EVI 2 — 感情音声インターフェース

Hume AIは感情をMLの一級市民として扱う会社である。EVI 2(Empathic Voice Interface 2)は次を行う。

  • 発話の感情を測定 — 28の感情次元
  • 応答ボイスの感情を自動調整
  • フルデュプレックス音声 — TTFW約700ms
  • ユーザーのトーンに合わせて応答トーンを調整

デモは印象的だが、日常会話の自然さではOpenAI Realtimeより若干劣る。医療相談・メンタルヘルス・伴侶チャットボットなど、感情敏感な領域で強い。

価格は1分あたり約0.072ドル。


8. Sesame — Maya / Milesの衝撃

Sesameは、Oculus共同創業者Brendan IribeがMaven AIを2024年に買収して設立した会社である。2025年3月に公開したMayaとMilesのボイスデモはX(旧Twitter)を騒然とさせた。

  • 自然な呼吸・ためらい・笑い
  • ユーザーの感情に合わせたトーン調整
  • 長い会話でも一貫したペルソナ
  • Conversational Speech Model(CSM) 1Bを研究用にオープンソース化

デモ: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

2026年5月現在、商用APIはまだlimited previewだが、その自然さはElevenLabs・Hume・OpenAIのいずれもまだ追えていない領域だ。短所は英語中心であること。


9. Fish Audio Speech 1.5 — 中華圏の覇者

Fish Audioは中国拠点で、2024年から急成長したTTS企業。Speech 1.5の強みは以下。

  • 中国語の自然さで首位 — 方言を含む
  • 30秒の音声クローン
  • 9言語対応
  • 1M文字あたり約12ドル — 非常に安い
  • オープンソースのFish Speech v1.4

選定基準:

  • 中国語話者・中華市場 → Fish Audio
  • 韓国語・日本語優先 → 타입캐스트 / 클로바 / CoeFont

後継のOpenAudio S1モデルも公開済み。


10. Deepgram Aura — STT企業発のTTS

Deepgramは2015年創業のSTT専業企業。2024年にTTSのAuraを初リリースした。

  • TTFW約200ms
  • 1M文字あたり約15ドル — OpenAI tts-1並み
  • 12ボイス(英語中心)
  • 自社STT + Auraを束ねたフルスタック音声エージェントSDKを提供

特長: STTとTTSを同一ベンダーで統合すると、請求・SLA・セキュリティモデルが単純化する。一方TTS自体の品質はElevenLabs・Cartesiaより一段下。


11. その他のTTS — Resemble, WellSaid, Coqui, F5-TTS

ツール特徴
Resemble AIクローン・セキュリティ特化、政府/防衛市場
WellSaid Labs米国エンタープライズ中心
Coqui TTSオープンソース。会社は2024年に閉鎖、コミュニティが維持
F5-TTS (UCB, 2024)5秒クローンのオープンソース。爆発的人気
MaskGCTMicrosoft + Sealand、2024年オープンソース
CosyVoice 2Alibaba 2025年 — 中国語+英語が強い
GPT-SoVITSインディ開発、日本・中国コミュニティで人気
OpenVoice v2MyShell.ai、クローン+多言語
Bark, Vall-E-X, XTTS v22023-2024年のレガシーオープンモデル

オープンソース優先なら、2026年時点ではF5-TTSまたはCosyVoice 2が最善。F5-TTSは5秒サンプルでも驚くクローン性能、CosyVoice 2はAlibabaの後援で安定。


12. クラウド3大 — Polly, Google TTS, Azure Speech

ベンダー特徴価格
Amazon PollyNeural · Generative voice、90以上のボイス1M文字4ドル(標準)
Google Cloud TTSStudio、Neural2、Wavenet1M文字16ドル(Studio)
Azure SpeechCustom Neural Voice、多言語が強い1M文字16-30ドル

エンタープライズ・政府・規制業種では依然デフォルト。ボイスの新鮮さと自然さはElevenLabs・Cartesiaに一世代遅れるが、AWS / GCP / Azure統合とSLAが決め手になる。

Microsoft ResearchのNaturalSpeech 3は学術的に最高水準だがGA未満。Google DeepMindのLyria 2は音楽生成用だが、ボーカル合成でTTSと重なる領域を作った。


13. STT — Deepgram Nova-3, AssemblyAI Universal-2, OpenAI

ツールTTFWWER (英語)多言語
Deepgram Nova-3<50ms6.8%36
AssemblyAI Universal-2200ms5.7%70+
OpenAI Whisper v3 turboバッチ7.5%99
OpenAI gpt-4o-transcribeストリーミング5.2%99+
Gladia300ms6.5%100+
Speechmatics250ms6.0%50+
Rev AI300ms7.0%36
Soniox80ms5.9%60+

レイテンシが絶対値ならNova-3またはSoniox。WERを優先するならGPT-4o transcribeまたはAssemblyAI。

オープンソースはWhisper・WhisperX・Distil-Whisper・Vosk・Moonshine(Useful Sensors)・Owl ASR。Moonshineはモバイル/エッジ向きとして台頭中。

# Deepgram Nova-3 ストリーミングSTT例
from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions

dg = DeepgramClient(api_key="...")
connection = dg.listen.live.v("1")

def on_message(_, result, **kwargs):
    print(result.channel.alternatives[0].transcript)

connection.on(LiveTranscriptionEvents.Transcript, on_message)
connection.start(LiveOptions(model="nova-3", language="ja", interim_results=True))

for chunk in mic_stream():
    connection.send(chunk)

14. フルデュプレックス音声エージェント — LiveKit, Pipecat, Vapi

音声エージェントは単純なTTS/STTを超えて、ターン管理・割り込み・VAD・ツール呼び出しを同時に扱う。

LiveKit Agents

LiveKit AgentsはWebRTCバックボーン上にPythonで書くフルスタックの音声エージェントフレームワーク。CartesiaがデフォルトTTSである。

from livekit.agents import Agent, AgentSession, JobContext
from livekit.plugins import openai, cartesia, deepgram, silero

class Assistant(Agent):
    async def on_enter(self):
        await self.session.say("こんにちは。何をお手伝いしましょうか。")

async def entrypoint(ctx: JobContext):
    session = AgentSession(
        stt=deepgram.STT(model="nova-3"),
        llm=openai.LLM(model="gpt-4o"),
        tts=cartesia.TTS(voice="..."),
        vad=silero.VAD.load(),
    )
    await session.start(agent=Assistant(), room=ctx.room)

Pipecat

PipecatはDaily.coが支援するPython音声エージェントフレームワーク。LiveKitよりモジュラーで、ビジョン+オーディオのマルチモーダルに強い。

Vapi · Retell AI · Bland AI

3社はSaaS型の音声エージェントを提供する。

  • Vapi — 最も急成長、no-codeとAPIの両対応
  • Retell AI — Y Combinator出身、電話統合が強い
  • Bland AI — 米国コールセンター特化、1分あたり0.09ドル

SaaSは立ち上がりが速くSIP / Twilio統合が完成しているが、コストが積み上がると自前のLiveKit + Cartesiaスタックの方が安くなる。


15. フルデュプレックスLLM — Realtime API, Gemini Live, Claude Voice

伝統的パイプラインを置き換えるもうひとつの道がLLMネイティブ音声である。

モデルリリース備考
OpenAI Realtime API (gpt-4o-realtime)2024-10WebSocket、8ボイス
Google Gemini 2.5 Live2025動画マルチモーダル統合
Anthropic Claude voice mode2025モバイルアプリ、Sonnetベース
Mistral Voxtral2025オープン7B/24B音声モデル

LLMネイティブ音声の長所は**感情・割り込み・バックチャネル(うん/なるほど)**を自然に扱えること。短所は外部TTSを差し替えられず、ボイス多様性に乏しいこと。


16. 割り込み / VAD / barge-in — 見えない本質

音声エージェントが不自然に感じる原因の90%は割り込み処理である。人間は終わっていない文を切り、バックチャネルを挟み、次の話者がすぐ始める。それを扱う技術群:

  • VAD(Voice Activity Detection) — Silero VADが事実上の標準。30-50msで音声開始/終了を検知。
  • Turn Detection — 単なる無音検知ではなく、「ターンが終わったか」を判断。LiveKit Turn Detector(2026)、OpenAI Realtime内蔵。
  • Barge-in — ユーザーが話したらAIのTTSを即座に切り、リスニングモードに切り替える。
  • Endpointing — 部分STT結果からLLMを先回りでトリガー。

Silero VADの使用例。

import torch

vad, utils = torch.hub.load(
    "snakers4/silero-vad", "silero_vad", trust_repo=True
)

(get_speech_timestamps, _, read_audio, *_) = utils

audio = read_audio("test.wav", sampling_rate=16000)
ts = get_speech_timestamps(audio, vad, sampling_rate=16000)

17. クローン倫理 — ELVIS法、EU AI法、SynthID

音声クローンは2024年のニューハンプシャー予備選で偽バイデン音声が登場したことで社会的問題化した。立法はそれに続いた。

  • テネシー州ELVIS法(2024年7月施行) — 米国初、音声・容姿の無断AI複製を刑事処罰。
  • EU AI法(2024年5月発効) — 音声クローンは高リスク/透明性義務。
  • カリフォルニア州AB 2839(2024年) — 選挙期間中のディープフェイク禁止。
  • 米国FCC(2024年) — AI音声を使ったロボコールを違法化。

対抗技術:

  • SynthID Audio(Google DeepMind) — 可聴域以下のウォーターマーク。
  • Resemble Detect — Resemble AIの偽音声検出モデル。
  • AntiFake(ワシントン大学) — TTS学習に耐性をもつ音声攪乱。

商用TTSの大半は同意確認フロー(録音された同意文)を義務化する。ElevenLabsは「I have the right to clone this voice」を発話したサンプルを要求する。


18. 韓国 — 타입캐스트、클로바、카카오、HyperCLOVA X Voice

韓国市場は国内企業ががっちり押さえている。

  • 타입캐스트(Neosapience) — 韓国シェア1位。コンテンツクリエイター・広告・オーディオブック。映像合成の一貫性で非常に強い。
  • ネイバー클로바 Voice / 클로바ダビング — 50以上の韓国語ボイス、ダビングは動画字幕の自動吹替。
  • HyperCLOVA X Voice — ネイバーLLMと結合した音声エージェントSDK。
  • 카카오TTS / 카카오i Voice — KakaoTalkチャットボット・카카오i統合。
  • AI Tester(엔플라이) — 広告ボイス特化。

特異点: 韓国語の韻律と外来語発音では海外TTSが依然として不自然。타입캐스트と클로바が圧倒的に自然。

타입캐스트API呼び出し例。

import requests

resp = requests.post(
    "https://typecast.ai/api/speak",
    headers={"Authorization": "Bearer ..."},
    json={
        "actor_id": "5c3b3...",
        "text": "타입캐스트音声合成のデモです。",
        "lang": "ko",
        "tempo": 1.0,
    },
)

価格: 타입캐스트は100文字あたり約1.5ウォン、클로바は200文字あたり約4ウォン。


19. 日本 — CoeFont, VOICEVOX, Synthesizer V

日本は韓国とは雰囲気が違う。キャラクターボイス + マーケットプレイスモデルが強い。

  • CoeFont — 1万以上のボイスのマーケットプレイス。声優が自分のボイスを登録・販売する。
  • Rinna Japanese TTS — マイクロソフト出身りんなの日本語オープンTTS。
  • VOICEROID / VOICEVOX — VOICEVOXは無料、ずんだもん・四国めたんなどのキャラクターボイス。YouTube・ニコニコの標準。
  • Synthesizer V — 歌唱合成、日本語・中国語・韓国語ボーカル。
  • AI Voice Project(AIVoice) — プロ声優の音声を合法ライセンスで再現。

特異点: 日本では商用利用可否・キャラクター別利用規約の確認が必須。VOICEVOX内でもキャラクターごとに条件が違う。

選定基準:

  • ビジネス・コールセンター → CoeFont、Rinna
  • YouTube・ゲーム・同人コンテンツ → VOICEVOX
  • 歌唱合成 → Synthesizer V

20. 価格比較 — 1M文字 / 1分通話

価格差は1桁を超えることが多い。2026年5月時点で整理する。

ツール1M文字フルデュプレックス1分
ElevenLabs Multilingual v3180ドル0.30ドル
ElevenLabs Flash v2.590ドル0.15ドル
Cartesia Sonic 365ドル0.11ドル
Play.HT 3120ドル0.20ドル
OpenAI tts-115ドル0.06ドル
OpenAI gpt-4o-mini-tts12ドル0.05ドル
OpenAI Realtime API-0.06ドル
Hume EVI 2-0.072ドル
Fish Audio 1.512ドル0.04ドル
Deepgram Aura15ドル0.05ドル
Amazon Polly Generative30ドル0.08ドル
Google Cloud TTS Studio160ドル0.27ドル
Azure Custom Neural24ドル0.07ドル
타입캐스트約15ドル-
ネイバー클로바 Voice約20ドル-
CoeFont約30ドル-
Vapi (フルエージェント)-0.08ドル
Retell AI-0.075ドル
Bland AI-0.09ドル

スタートアップ段階ならOpenAI tts-1・Fish Audio・Cartesiaがコスト効率最強。エンタープライズ品質が必要ならElevenLabs・타입캐스트・클로바。


21. 誰が何を選ぶべきか

マトリクスで整理する。

目的推奨
英語コンソール用フルデュプレックスOpenAI Realtime API
多言語音声エージェントLiveKit Agents + Cartesia
英語オーディオブック / ダビングElevenLabs Studio
感情伴侶チャットボットHume EVI 2
自然さの実演デモSesame Maya / Miles
中国語コンテンツFish Audio
韓国語コンテンツ타입캐스트、ネイバー클로바
日本語キャラクターVOICEVOX
日本語マーケットCoeFont
オープン / 自前ホスティングF5-TTS、CosyVoice 2
コールセンターSaaSVapi、Retell AI、Bland AI
モバイル / エッジSTTMoonshine、Distil-Whisper
高速STTDeepgram Nova-3
高精度STTOpenAI gpt-4o-transcribe
エンタープライズ既定Polly、Google TTS、Azure Speech

3つの決定軸:

  1. レイテンシ vs 品質 — Cartesia/Realtimeは速く、ElevenLabs/Sesameは豊か。
  2. API統合 vs 自前ホスティング — APIは速く出せ、オープンモデルはデータ主権を守る。
  3. グローバル vs 国語 — 韓国語・日本語は海外勢が追いつけない自然さの差がある。

22. ユースケース — 何が実際に稼いでいるか

2026年に音声AIが売上を立てている領域。

  • コールセンター自動化 — Retell、Bland AIが米国の不動産/医療で導入。コール1件あたり5-15ドルの削減。
  • オーディオブック / ポッドキャストのダビング — ElevenLabs Studioが出版社と契約。時間あたりコストが10分の1。
  • ゲームNPCの音声 — Sony、EA、Ubisoftが揃ってElevenLabs・Resembleと提携。
  • 言語学習 — Duolingo Max、SpeakがOpenAI Realtimeを採用。
  • アクセシビリティ — Apple、MicrosoftがOSレベルでTTS統合。
  • 広告・マーケティング吹替 — 映像ダビングが単独最大市場。
  • 個人向け伴侶チャットボット — Character.AI、ReplikaがElevenLabs / Cartesiaを使用。

最も明確な収益源はコールセンター自動化、次にコンテンツダビング。


23. まとめ — 音声がインターフェースになった年

5年前の音声AIは留守番電話レベルだった。2026年の音声AIは違う。

  • TTFW 75msのCartesia、32言語のElevenLabs、単一モデルのOpenAI Realtimeが共存する。
  • LiveKit Agents・Pipecat・Vapi・Retell・Bland AIがオーケストレーションを作った。
  • Sesame・Humeが感情と自然さの新基準を示した。
  • Deepgram Nova-3がSTTのレイテンシを50ms未満に下げた。
  • 韓国は타입캐스트・클로바、日本はCoeFont・VOICEVOXが国内市場を守る。
  • ELVIS法、EU AI法がクローンの倫理に線を引いた。

残るは、どんな音声インターフェースを作るかを決めることだ。本稿がその出発点になれば幸いである。


参考 / References