音声AI 2026 — ElevenLabs / Cartesia / Sesame / Whisper Turbo / Deepgram / Parakeet 徹底ガイド

Voice AI 2026シリーズ — 2024年10月のWhisper Turbo以来、音声AIはテキストLLMと同じ速度で動いている。本稿は2026年5月時点でのTTS・STT・リアルタイム音声エージェントの地図だ。

Prologue — なぜ今、また音声か
第1章 · 2026年の音声AI地図 — TTS / STT / 音声エージェントの3軸
第2章 · Whisper Large v3 Turbo (2024.10) — 8倍速の多言語STT
第3章 · Deepgram Nova-3 / AssemblyAI Universal-2 — 商用STT競争
第4章 · NVIDIA Parakeet 1.1 — OSSのSOTA
第5章 · ElevenLabs — TTSの標準
第6章 · Cartesia (Mamba著者たち) — Sonic 2 + 超低遅延
第7章 · Sesame (Iribe, 2025.3) — "voice presence"
第8章 · ChatTTS / F5-TTS / XTTS-v2 — OSSのTTS
第9章 · Realtime API — OpenAI / Google / ElevenLabs Conversational
第10章 · 音声エージェント — Vapi / Retell / Bland / Synthflow
第11章 · 韓国 — Naver CLOVA、Kakao KOTTS、SKT NUGU
第12章 · 日本 — VOICEVOX(OSS)、Coeiroink、GPT-SoVITS、Bert-VITS2
第13章 · 誰が何を選ぶべきか — コールセンター / ゲームNPC / オーディオブック / 通訳
第14章 · まとめ — 2026年音声AIの大きな絵
参考 / References

Prologue — なぜ今、また音声か

2022〜2023年のLLMブームはテキスト中心だった。ChatGPTのWebチャット、GitHub Copilot、RAGボット — すべてキーボード入力。音声は「いつかは来るんだろうな」の領域だった。

2026年には次の3つの出来事で絵が変わった。

Whisper Large v3 Turbo (2024.10) — OpenAIがv3比で8倍速いturbo版をOSSで公開。A100一枚でリアルタイムSTTが現実に。
Cartesia Sonic 2 (2024) — Mamba状態空間モデル論文の著者(Albert Gu, Tri Dao)らが起業した会社。90ms未満TTS。GPT-4級LLMと組み合わせても「AIと電話している」と気づけない。
Sesame (2025.3) — Oculus共同創業者のBrendan Iribeが出した「voice presence」デモ。SNSの30秒クリップで「これは違う」と全員が言った。

ここにElevenLabs V3、Deepgram Nova-3、AssemblyAI Universal-2、NVIDIA Parakeet 1.1、OpenAI Realtime API、Vapi/Retellなどの音声エージェント・プラットフォームが重なる。2026年5月時点で「AIコールセンター」はPoCではなく量産段階だ。

本稿は14章にわたってその地形を整理する。

第1章 · 2026年の音声AI地図 — TTS / STT / 音声エージェントの3軸

1.1 3軸の分業

音声AIシステムはほぼ常に3コンポーネントに分かれる。

段階	役割	代表モデル/サービス
STT (Speech-to-Text)	人の音声 → テキスト	Whisper Turbo, Deepgram Nova-3, AssemblyAI Universal-2, Parakeet
LLM	テキスト入力 → テキスト応答	GPT-4o, Claude 3.5, Gemini 2
TTS (Text-to-Speech)	テキスト → 音声	ElevenLabs, Cartesia Sonic 2, Sesame, OpenAI TTS, VOICEVOX

ここに「全部を一つのモデルで」処理する統合型が加わる。OpenAI Realtime API、Google Live API、ElevenLabs Conversational v2など。統合型はより自然だが、価格・制約・デバッグ難度が異なる。

1.2 評価軸

2026年時点で音声AIは次の4軸で評価される。

遅延(latency) — ユーザの発話終了からAIが口を開くまで。200ms未満が自然さの閾値
品質(quality) — 自然さ、感情表現、多言語精度
価格(cost) — 分単位または1M文字単位
制御(control) — 音声クローン、感情タグ、SSML、発話速度

この4軸を同時に全部満たすモデルはない。ゆえに「どのワークロードか」で答えが変わる。コールセンター、ゲームキャラ吹替、オーディオブックでは優先順位が違う。

1.3 OSS vs 商用

軸	OSS	商用
TTS品質	F5-TTS, XTTS-v2, ChatTTS — 良くなったが商用には及ばず	ElevenLabs, Cartesia, Sesame — 圧倒的
STT精度	Whisper, Parakeet — 商用とほぼ同等	Deepgram, AssemblyAI — 微優位、ドメイン調整可能
遅延	セルフホストで100ms可能	200〜500ms(ネットワーク経由)
価格	GPU費用のみ	分 $0.01〜$ 0.30

OSSはSTTで商用にほぼ追いつき、TTSではまだ差がある。これが2026年の大きな絵だ。

第2章 · Whisper Large v3 Turbo (2024.10) — 8倍速の多言語STT

2.1 v3 → v3 turboの変化

2022年9月にOpenAIがWhisperをOSSで公開したとき、それは音声AIで最大級の事件だった。99言語、多言語、無料、商用級STT精度。

2024年10月公開のv3 turboはv3 largeのdecoder層を32→4に削り、圧縮した変種である。結果:

速度: v3比で約8倍速
モデルサイズ: 1.5B → 809Mパラメータ
精度: 英語/韓国語/日本語などのメジャー言語ではv3比1〜2%の損失(実用的にはほぼ同等)
言語カバレッジ: 99言語→若干減(一部の希少言語が削除)

import whisper

model = whisper.load_model("turbo")  # large-v3-turbo
result = model.transcribe("interview.mp3", language="ja")
print(result["text"])

2.2 なぜ8倍が意味あるのか

以前のv3 largeは1時間音声の文字起こしにA100で約3分かかっていた。リアルタイムからは程遠かった(ストリーミングは別途処理)。

turboは同じ音声を22秒で終わらせる。結果として:

リアルタイム字幕: 200〜400ms単位で切っても追従できる
バッチ処理コストが1/8に: クラウドGPU時間が削減
エッジ端末: M2 MacBook Airでもリアルタイム可能

2.3 限界

話者分離(diarization): Whisperは誰が話したか分からない。WhisperXなど外部ツールが必要。
真のストリーミング: 30秒チャンクが基本なので本物のストリーミングではない。faster-whisperやwhisper-streamingで迂回。
ドメイン適応: 医療/法律/金融の語彙はファインチューニングが必要。Deepgram/AssemblyAIはドメイン専用モデルを提供。

2.4 比較 — faster-whisper / WhisperX / Distil-Whisper

ツール	中核	用途
OpenAI公式 Whisper	リファレンスPyTorch	研究/評価
faster-whisper	CTranslate2バックエンド、さらに4倍速	本番バッチ
WhisperX	+ 話者分離 + 単語タイムスタンプ	メディア字幕
Distil-Whisper	蒸留した小型版	モバイル/エッジ

本番ではfaster-whisperまたはWhisperXが定番。OpenAI公式実装は研究/評価用。

第3章 · Deepgram Nova-3 / AssemblyAI Universal-2 — 商用STT競争

3.1 Deepgram Nova-3 — 低遅延の王者

Deepgramの強みは遅延だ。Nova-3の特徴:

最初の単語遅延が100ms未満 — ユーザが話し始めると即座にpartial transcript
エンドツーエンドの自社学習 — 外部ASRの上に乗せたものではない
ドメイン専用モデル — 医療、コールセンター、メディアなど
価格 — 分 $0.0043(バッチ) 〜$ 0.0145(ストリーミング)

from deepgram import DeepgramClient, PrerecordedOptions

deepgram = DeepgramClient(api_key="...")
options = PrerecordedOptions(model="nova-3", smart_format=True, diarize=True)
response = deepgram.listen.prerecorded.v("1").transcribe_file(
    {"buffer": audio_buffer}, options
)

「100msの差がUXを決める」コールセンターボットやライブ字幕では事実上一択。

3.2 AssemblyAI Universal-2 — フルセットの強者

AssemblyAIは「文字起こし + 後処理」フルセットで勝負する。Universal-2の特徴:

単語精度 — 英語WER 5%未満(Whisper v3 large同等または微優位)
Auto-chapters, summarization, PII redaction, sentiment — 全部1つのAPIで
言語検出 — 99言語を自動検出
価格 — 分$0.0065(Bestモデル) + 後処理オプション別途

特にメディア/ポッドキャストのように「文字起こしだけでなくチャプター/要約/感情も欲しい」場面で強い。

3.3 Speechmatics — アクセントの強者

イギリス発の会社で、多様な英語アクセント(インド、オーストラリア、カリブ、スコットランド)に強い。グローバルコールセンターでアクセント多様性が高いときに優位。

3.4 NVIDIA Riva — セルフホストの強者

NVIDIA Rivaはセルフホストの音声SDK。データが外に出せない政府/金融/医療で使われる。RivaでParakeetをサーブするのが典型的なパターン。

3.5 AWS Transcribe / Azure Speech / Google STT

ハイパースケーラー3社もSTTを持つ。精度はDeepgram/AssemblyAI比で若干劣るが、同じクラウド内の他サービスとの統合が容易。

3.6 比較表

サービス	英語WER	日本語WER	遅延	分単価 (USD)	強み
Whisper v3 turbo (自前)	~5%	~8%	~1〜3秒	GPUのみ	無料、多言語
Deepgram Nova-3	~4%	~11%	`<100ms`	0.004〜0.015	低遅延
AssemblyAI Universal-2	~4%	~9%	~300ms	0.0065+	後処理
Parakeet 1.1 (自前)	~5%	N/A	~200ms	GPUのみ	OSSのSOTA
Speechmatics	~5%	~10%	~200ms	0.007+	アクセント
AWS Transcribe	~7%	~10%	~500ms	0.024	AWS統合

数値は公開ベンチマークからの概算。実数値はドメインや音質で大きく変動する。

第4章 · NVIDIA Parakeet 1.1 — OSSのSOTA

4.1 Parakeetとは

NVIDIAがNeMoフレームワークで学習したOSS STTモデル群。2024年末にParakeet 1.1が公開されたとき、「OSS STTが商用に追いついた」と評された。

モデルサイズ: 110M〜1.1Bパラメータの各種
アーキテクチャ: FastConformer + CTC/Transducerハイブリッド
速度: 同じGPUでWhisper turbo比2倍以上速い
精度: HuggingFace OpenASRリーダーボードの英語部門でトップ

4.2 なぜ速いのか

WhisperはTransformer encoder + decoderを使う。30秒チャンク中でトークンを自己回帰生成。ParakeetはFastConformer encoder + CTC(またはRNN-T)decoder。CTCは自己回帰ではなく系列アラインメントなので、ずっと速い。

代わりに多言語カバレッジはWhisperに劣る。Parakeet 1.1英語版は英語専用で、多言語版(Canary)は別。

4.3 NeMoでセルフホスト

import nemo.collections.asr as nemo_asr

asr_model = nemo_asr.models.ASRModel.from_pretrained(
    "nvidia/parakeet-tdt-1.1b"
)
transcripts = asr_model.transcribe(["audio.wav"])
print(transcripts[0])

GPU一枚で分単位に数百時間の音声を処理できる。ライセンスもCC-BY-4.0で商用フレンドリー。

4.4 多言語版 — Canary

NVIDIAがParakeetとは別に出した多言語ASR。英語/スペイン語/ドイツ語/フランス語など一部の言語をサポート。日本語/韓国語はまだ限定的で、Whisperが優位。

第5章 · ElevenLabs — TTSの標準

5.1 なぜElevenLabsが1位なのか

2023年登場以降、ElevenLabsはTTSの事実上の標準だ。理由:

自然さ — 「AIの声」ではなく「あの人の声」と感じる最初のモデル
多言語 — 同じ声で30言語、アクセント保持
クローン — 1分のサンプルでボイスクローン、「Professional Voice Clone」は30分以上
APIとUXの両方が良い — 開発者は5分で統合可能、非開発者もWebからすぐ使える

5.2 モデルラインナップ

Multilingual v2 (2023) — クラシック。高品質で安定。遅延 ~400ms
Flash v2.5 (2024) — 低遅延版、75ms未満。品質はv2より若干劣る
V3 alpha (2025) — 感情タグ、対話、audio tags([whispers]、[laughs])
Conversational v2 (2025) — TTS + STT + LLMバンドルの音声エージェント

5.3 V3の感情タグ

V3ではテキストにインラインタグを混ぜて感情を指定できる。

[excited] Welcome back!
[whispers] I have a secret.
[laughs] That's hilarious.
[sighs] Okay, let's start over.

これは見た目以上に大きい変化だ。以前はSSMLでprosodyを細かく調整する必要があった。V3は自然言語タグだけで感情を表現できる。

5.4 価格

Starter: 月5ドルで30K文字
Creator: 月22ドルで100K文字 + ボイスクローン
Pro/Scale/Business: 従量制
API単価: 英語で約 $0.18/1K文字 (Flash)、$ 0.30/1K文字 (V2)

他より高いが、品質差がワークフローを変えるため、ゲーム・動画・オーディオブック市場では事実上デフォルト。

5.5 限界

日本語の自然さは英語に劣る(それでも他のグローバルTTSよりはマシ)
日本語は時々プロソディが不自然
価格が他の選択肢の2〜5倍

第6章 · Cartesia (Mamba著者たち) — Sonic 2 + 超低遅延

6.1 誰が作ったか

Cartesiaは2023年にAlbert Gu、Tri DaoらMamba状態空間モデル論文の著者たちが立ち上げた会社だ。MambaはTransformerの代替として注目を集めたアーキテクチャで、系列長が伸びてもメモリ/演算が線形に増えるだけ。音声によく合う。

6.2 Sonic / Sonic 2 — 90ms TTS

Cartesiaの最初のモデルSonicは90ms未満TTSで話題になった。Sonic 2(2024年末)では:

最初のバイト遅延が75ms未満 — ElevenLabs Flashの半分
品質 — ElevenLabs Multilingual v2と比較可能
多言語 — 英語/スペイン語/フランス語/ドイツ語/日本語/中国語/韓国語など
ボイスクローン — 3秒のサンプルでinstant clone

from cartesia import Cartesia

client = Cartesia(api_key="...")
audio = client.tts.sse(
    model_id="sonic-2",
    transcript="こんにちは、初めまして。",
    voice={"mode": "id", "id": "your_voice_id"},
    output_format={"container": "raw", "encoding": "pcm_f32le", "sample_rate": 44100},
)

6.3 なぜ速いのか

Mamba系の状態空間モデルはTransformerのattentionと違い、トークン間依存をO(n)時間で処理する。TTSのように系列が長いワークロードで大きな利点。

加えてCartesiaは推論時のストリーミングを最優先で設計している。最初のチャンクが入った瞬間に最初のバイトが出ていくようにパイプラインが組まれている。

6.4 どこで使うか

リアルタイム音声エージェント(Vapi/RetellのデフォルトTTSオプションの一つ)
ゲームNPC — 動的セリフ
ライブ通訳

ElevenLabsが「最高品質」なら、Cartesiaは「遅延と品質のベストバランス」。

第7章 · Sesame (Iribe, 2025.3) — "voice presence"

7.1 Brendan IribeとSesame

Brendan IribeはOculus VR共同創業者。Facebookへの売却後、Andurilなどを経て2024年にSesameを立ち上げ、2025年3月に初公開デモを出した。

Sesameのコンセプトは"voice presence" — 単に自然な音声ではなく、相手がそこにいると感じる音声。呼吸、ためらい、「えーと」、バックチャネル(「うん」「あー」)、割り込みを自然に。

7.2 デモが衝撃だった理由

2025年3月に公開された30秒デモはSNSで爆発的に共有された。理由:

回答が始まる前に約0.3秒の「ちょっと考える」呼吸
ユーザの発話中に「あ、そう?」のようなバックチャネル挿入
文末のフェードが自然 — AI音声特有の「ハッと終わる」感が消えている
テキストの意味と一緒に動く感情表現

ElevenLabs/Cartesiaが「自然な音声」を作ったのに対し、Sesameは「人がそこにいる感じ」を作ったと評された。

7.3 技術的に何が違うか

Sesameは論文を一部公開している。要点:

単一バックボーンでテキスト・音声・prosodyを同時にモデル化 — 別途のTTSではなく音声LLM
割り込み処理 — ユーザが割り込むと自然に止まって応答
非言語音 — ため息、笑い、咳払いが学習データに含まれる

7.4 限界と疑問

2026年5月時点でGAではなく一部ベータ。価格/SLAは未公開
英語中心で日本語/韓国語は未対応
Sesameが本当に量産可能なコストで「voice presence」を作れるかは未証明

それでもこの方向(音声を単なるTTSではなくpresenceとして扱う)はElevenLabs/Cartesiaが間もなく追従するだろう。

第8章 · ChatTTS / F5-TTS / XTTS-v2 — OSSのTTS

8.1 ChatTTS — 中国チームの自然な英語TTS

ChatTTSは2024年に中国チームが公開したOSS TTS。特徴:

英語自然さがElevenLabs Multilingual v2に近い水準(OSSのトップ)
対話体に特化 — 同じテキストでも「会話のように」読む
HuggingFaceに無料の重み
日本語/韓国語は弱い

8.2 F5-TTS — HuggingFaceのトレンド1位

F5-TTSは2024年末に公開され、HuggingFaceのトレンディング1位になったOSS TTS。日本/韓国の開発者コミュニティでも話題。特徴:

Flow matchingベース(diffusion変種) — 学習がより安定
ボイスクローン — 15秒のサンプルでzero-shot
多言語 — 英語/中国語中心、その他は要ファインチューニング
ライセンス — 非商用(商用制限あり、要確認)

8.3 XTTS-v2 (Coqui) — クローンのクラシック

Coquiは2023〜2024年に活発だったOSS TTS企業。会社自体は解散したがXTTS-v2の重みはHuggingFaceに残っている。

17言語
6秒のサンプルでボイスクローン
自然さはElevenLabsに劣るが無料
日本語/韓国語サポート

from TTS.api import TTS

tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
tts.tts_to_file(
    text="こんにちは。",
    speaker_wav="reference.wav",
    language="ja",
    file_path="output.wav",
)

8.4 Tortoise TTS — 遅いが高品質

Tortoiseは2022年に出た比較的古いOSS TTS。推論が非常に遅い(分単位)が品質が良くて一時期は「OSS TTSの標準」だった。現在はChatTTS/F5-TTSに座を譲った。

8.5 OSS TTS選択ガイド

モデル	英語品質	多言語	推論速度	ライセンス
ChatTTS	非常に良い	弱い	速い	非商用懸念
F5-TTS	良い	英語/中国語	普通	非商用
XTTS-v2	良い	17言語	普通	CPL(条件付き商用)
Tortoise	非常に良い	英語	非常に遅い	Apache 2.0

商用利用にはライセンス確認が必須。F5-TTSは非商用制限が明示されていて商用製品では使えない。

第9章 · Realtime API — OpenAI / Google / ElevenLabs Conversational

9.1 「Realtime」とは何か

伝統的な音声パイプラインはSTT→LLM→TTSの3段直列だ。各段で遅延・歪み・待ち時間が積み重なる。Realtime APIはこれを「音声入力→音声出力」の単一モデルにまとめる。

長所:

遅延が短い(200〜500ms vs 1〜2秒)
割り込み処理が自然
非言語情報(笑い、ため息、トーン)が伝わる

短所:

価格が高い(入力分 $0.06 + 出力分$ 0.24水準)
デバッグが難しい(テキスト段がないのでログが音声)
関数呼び出し/外部ツール統合がやや手間

9.2 OpenAI Realtime API (gpt-4o-realtime)

2024年末公開。WebSocketベース。

const ws = new WebSocket("wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview")
ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: { voice: "alloy", instructions: "親切な日本語アシスタントとして答えてください。" }
  }))
})
ws.on("message", (data) => {
  const event = JSON.parse(data)
  if (event.type === "response.audio.delta") {
    // base64 PCMチャンク
  }
})

GPT-4oの音声モデルが入力音声を聞き、直接出力音声を作る。日本語/韓国語もサポート。

9.3 Google Live API (Gemini 2)

Gemini 2のLive API。WebSocketで似たインターフェイス。Googleエコシステム(検索、Maps、Calendar)統合が強み。

9.4 ElevenLabs Conversational v2

ElevenLabsもTTS専業から音声エージェントプラットフォームへ拡大。STTは自社+Deepgramオプション、LLMはOpenAI/Anthropic/Googleから選択、TTSはElevenLabsボイス。すなわち「差し替え可能」な統合プラットフォーム。

9.5 RealtimeかSplitか

Realtime推奨:

シンプルなチャットボット、FAQ応答
人に近い自然さがKPIのシナリオ(フィッティング、コーチング)
割り込み/バックチャネルが重要なシナリオ

Split推奨:

複雑なワークフロー(多段ツール呼び出し、コンテキスト分岐)
ブランドボイス維持のための独自TTS
ログ/監査が厳しいドメイン(金融、医療)

第10章 · 音声エージェント — Vapi / Retell / Bland / Synthflow

10.1 音声エージェントプラットフォームとは

コールセンターボットを作るには自分でSTT/LLM/TTSをつなぎ、電話網(SIP/Twilio)を接続し、割り込み・ターンテイキング・コールルーティングを実装する必要がある。それを全部やってくれるプラットフォームが2024〜2025年に爆発的に増えた。

10.2 Vapi

サンフランシスコ発のスタートアップ。YC出身。特徴:

TTS/STT/LLMを差し替え可能(ElevenLabs/Cartesia/Deepgram/AssemblyAIなど)
Twilio/Vonage経由のPSTN統合
Webhookで外部API呼び出し(予約、CRM更新)
価格 — 分 $0.05〜$ 0.15 + モデル代

10.3 Retell AI

Vapiの最も直接的な競合。UIがやや洗練されていて、ライブ通話の文字起こしが見やすい。価格帯は同等。

10.4 Bland AI

セールスコールに特化。大量アウトバウンド(不動産コールドコールなど)に強い。コール単価が安い。

10.5 Synthflow

EU発のノーコード音声エージェントビルダー。GUIでフローを描けるので、開発者以外の運用チームでも使える。

10.6 比較表

プラットフォーム	強み	弱み	分単価 (USD)
Vapi	柔軟性、API良し	UIは普通	0.05〜0.15 + モデル
Retell AI	UIきれい、文字起こし見やすい	価格類似	0.07〜0.15 + モデル
Bland AI	大量アウトバウンド	インバウンド/複雑ボットは弱い	コール当り約0.09
Synthflow	ノーコード、EUデータ	API柔軟性弱い	0.13+ + モデル

10.7 自作 vs プラットフォーム

分1万コール以下ならプラットフォームがほぼ常に安い。1万コール以上、またはデータが外に出せないドメインなら、LiveKit + Deepgram + Cartesiaなどの自前構築。

第11章 · 韓国 — Naver CLOVA、Kakao KOTTS、SKT NUGU

11.1 Naver CLOVA Voice / CLOVA Studio

NaverはCLOVA Voice(TTS)、CLOVA Speech(STT)、HyperCLOVA X(LLM)を揃えた音声フルスタック。韓国語自然さはElevenLabsより優位。価格は分単位または文字単位で課金。

11.2 Kakao KOTTS

Kakao Enterpriseの韓国語TTS。コールセンター、案内システムなどB2B中心。Kakao Talkチャットボットビルダーと統合。

11.3 SKT NUGU

SK Telecomの音声アシスタントプラットフォーム。NUGUスピーカー、TMAPナビ音声、NUGU Candyなど、コンシューマ市場に強い。

11.4 Coway Sonattsその他

Cowayなど一部企業が独自韓国語TTSを開発。一般市場露出は限定的。

11.5 韓国語STT — CLOVA vs Deepgram vs Whisper

モデル	韓国語WER	強み	弱み
Naver CLOVA Speech	約5〜7%	韓国語ドメインチューニング、固有名詞	グローバル統合弱い
Deepgram (Korean)	約9%	低遅延、グローバル	ドメインチューニング弱い
Whisper v3 turbo	約8%	無料、多言語	話者分離は別途
Parakeet	未対応(英語中心)	-	-

韓国企業が韓国ユーザーだけを対象にするならCLOVAが第一候補。グローバル+韓国語ならWhisper turboまたはDeepgram。

11.6 韓国語音声エージェント事例

銀行/カードコールセンターIVR — KB、Shinhan、KakaoBankなど部分導入
配達アプリの音声注文 — 一部試験
ゲームNPC — NCsoftの事例

韓国語音声エージェントはグローバル比2〜3年遅れだが、急速に追い上げ中。

第12章 · 日本 — VOICEVOX(OSS)、Coeiroink、GPT-SoVITS、Bert-VITS2

12.1 VOICEVOX — 日本OSS TTSの事実上の標準

VOICEVOXは日本で圧倒的な認知度を持つOSS TTSだ。特徴:

無料、一定条件下で商用可能 — キャラクター別の利用規約確認必須
数十種類のキャラクターボイス — ずんだもん、四国めたん、九州そらなどがインターネットミーム化
GPUなしでローカル実行可能 — CPUでもリアルタイム
日本のYouTube/ニコニコ動画の半分はVOICEVOX

12.2 Coeiroink

VOICEVOXに似た日本OSS TTS。キャラクターを比較的自由に使えるライセンスで、選好する人もいる。

12.3 GPT-SoVITS

日本・中国コミュニティで人気のzero-shotボイスクローンTTS。1分未満のサンプルでクローン可能。日本のボイスコンテンツ制作者には事実上の標準。

12.4 Bert-VITS2

もう一つの人気OSS。BERTベースのテキストエンコーダー+VITSデコーダー。日本語/中国語に強み。

12.5 日本語商用TTS

ElevenLabs Multilingual v2 — 日本語対応、自然さは平均以上
Azure Neural TTS — 日本語ボイス豊富
Google WaveNet — 日本語安定
AWS Polly — 日本語ボイス多数

商用はグローバル3社が強いが、日本のコンテンツ市場(VTuber、動画、ゲーム)ではVOICEVOX/GPT-SoVITSが圧倒的。

12.6 日本語STT

モデル	日本語WER	備考
Whisper v3 turbo	約8%	最もよく使われる
AssemblyAI	約9%	後処理強み
Google STT	約7%	日本語ドメインチューニング良し
Azure Speech	約7%	日本語ボイス豊富
Deepgram	約11%	日本語は弱点

日本語ではDeepgramが意外に弱く、Google/Azureが優位の場合が多い。

第13章 · 誰が何を選ぶべきか — コールセンター / ゲームNPC / オーディオブック / 通訳

13.1 コールセンター・インバウンドボット

目標: 高速応答 + 自然な日本語/英語 + 割り込み処理 + ツール呼び出し

推奨:

STT: Deepgram Nova-3(英語) または Whisper turbo(日本語)
LLM: GPT-4o または Claude 3.5
TTS: Cartesia Sonic 2(英語) または VOICEVOX/商用日本語TTS
プラットフォーム: VapiまたはRetell AI

代替: OpenAI Realtime API単独(シンプルなボットなら十分、価格は高め)

13.2 ゲームNPC吹替

目標: キャラクターボイスの一貫性 + 感情表現 + 多言語

推奨:

TTS: ElevenLabs Professional Voice Clone + V3感情タグ
または: Cartesiaボイスクローン(動的セリフで低遅延が必要な場合)
OSSオプション: GPT-SoVITS(キャラクターボイスクローン)

13.3 オーディオブック / ポッドキャスト

目標: 自然な長尺、感情表現、正確な発音

推奨:

ElevenLabs Multilingual v2 + Voice Lab
日本語短編なら: VOICEVOX または Azure Neural TTS
複数話者なら: ElevenLabs Projects モード

13.4 ライブ通訳

目標: 超低遅延STT + 即時翻訳 + 自然なTTS

推奨:

STT: Deepgram Nova-3 または AssemblyAI
翻訳: GPT-4o または Claude
TTS: Cartesia Sonic 2(低遅延が肝)
または: OpenAI Realtime API(最もシンプル、最もスムーズ)

13.5 動画字幕 / コンテンツ後処理

目標: 精度 + 話者分離 + チャプター/要約

推奨:

AssemblyAI Universal-2(最もフルセット)
または: WhisperX(全部OSSで処理したいとき)

13.6 コスト重視 + 非公開データ

目標: データが外に出せない、GPUだけで運用

推奨:

STT: Parakeet 1.1 または Whisper v3 turbo(NeMo または faster-whisper)
TTS: XTTS-v2 または F5-TTS(ライセンス注意)
LLM: Llama 3 70B または Qwen 2.5
インフラ: NVIDIA Riva または独自 vLLM/Triton

13.7 一行要約マトリクス

シナリオ	STT	TTS	備考
韓国語コールセンター	CLOVA Speech	CLOVA Voice	ドメインチューニング
英語コールセンター	Deepgram	Cartesia Sonic 2	低遅延
ゲームNPC	(不要)	ElevenLabs V3	感情タグ
オーディオブック	(不要)	ElevenLabs v2	長尺
ライブ通訳	Deepgram	Cartesia	または OpenAI Realtime
メディア字幕	AssemblyAI	(不要)	チャプター/要約
社内非公開	Parakeet	XTTS-v2	NVIDIA Riva
日本コンテンツ	Whisper	VOICEVOX	キャラボイス

第14章 · まとめ — 2026年音声AIの大きな絵

3つの大きな流れ。

第一に、STTはほぼ解決した。 Whisper turbo、Deepgram Nova-3、Parakeet 1.1で英語WER 5%未満が一般化。残るのはドメイン適応(医療/法律の語彙)、多言語精度(特に低リソース言語)、話者分離・感情メタデータなど補助情報。

第二に、TTSは「自然な音声」から「voice presence」へ移行中だ。 ElevenLabs/Cartesiaが自然さをほぼ完成させ、Sesameが「人がそこにいる感じ」という新ベンチマークを投げた。2026年後半から2027年にElevenLabs/Cartesiaが似た領域へ追従する。

第三に、統合型(Realtime API)が分離型パイプラインを侵食する。 シンプルなボットならOpenAI Realtime API一つで十分。分離型が生き残る領域は、(a)ブランドボイスが重要な所、(b)複雑なツール呼び出しが必要な所、(c)音声データを別途監査するドメイン。

音声AIはもう「面白いデモ」ではない。2026年にはコールセンター、自動車インフォテインメント、ゲーム、教育、ヘルスケアなどの量産ワークロードに入っている。今後1〜2年の見どころは、(1)Sesameが本当に量産可能か、(2)OSS TTSがElevenLabs差を縮められるか、(3)Whisper turboがもう一度ジャンプするかだ。

参考 / References

OpenAI Whisper v3 turbo公開 — https://github.com/openai/whisper/discussions/2363
OpenAI Whisper論文 — https://arxiv.org/abs/2212.04356
Deepgram Nova-3 — https://deepgram.com/learn/introducing-nova-3
AssemblyAI Universal-2 — https://www.assemblyai.com/blog/universal-2
NVIDIA Parakeet — https://huggingface.co/nvidia/parakeet-tdt-1.1b
NVIDIA NeMo — https://github.com/NVIDIA/NeMo
HuggingFace OpenASR Leaderboard — https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
ElevenLabs APIドキュメント — https://elevenlabs.io/docs
Cartesia — https://cartesia.ai
Mamba論文 (Albert Gu, Tri Dao) — https://arxiv.org/abs/2312.00752
Sesame (Brendan Iribe) — https://www.sesame.com
ChatTTS GitHub — https://github.com/2noise/ChatTTS
F5-TTS — https://github.com/SWivid/F5-TTS
Coqui XTTS-v2 — https://huggingface.co/coqui/XTTS-v2
Tortoise TTS — https://github.com/neonbjb/tortoise-tts
OpenAI Realtime API — https://platform.openai.com/docs/guides/realtime
Google Gemini Live API — https://ai.google.dev/gemini-api/docs/live
ElevenLabs Conversational AI — https://elevenlabs.io/conversational-ai
Vapi — https://vapi.ai
Retell AI — https://retellai.com
Bland AI — https://bland.ai
Synthflow — https://synthflow.ai
Naver CLOVA Voice — https://www.ncloud.com/product/aiService/clovaVoice
Kakao KOTTS — https://www.kakaocorp.com
VOICEVOX — https://voicevox.hiroshiba.jp
Coeiroink — https://coeiroink.com
GPT-SoVITS — https://github.com/RVC-Boss/GPT-SoVITS
Bert-VITS2 — https://github.com/fishaudio/Bert-VITS2
LiveKit Agents — https://docs.livekit.io/agents
faster-whisper — https://github.com/SYSTRAN/faster-whisper
WhisperX — https://github.com/m-bain/whisperX