Chaos and Order

💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

> **Voice AI 2026シリーズ** — 2024年10月のWhisper Turbo以来、音声AIはテキストLLMと同じ速度で動いている。本稿は2026年5月時点でのTTS・STT・リアルタイム音声エージェントの地図だ。

Prologue — なぜ今、また音声か

2022〜2023年のLLMブームはテキスト中心だった。ChatGPTのWebチャット、GitHub Copilot、RAGボット — すべてキーボード入力。音声は「いつかは来るんだろうな」の領域だった。

2026年には次の3つの出来事で絵が変わった。

1. **Whisper Large v3 Turbo (2024.10)** — OpenAIがv3比で8倍速いturbo版をOSSで公開。A100一枚でリアルタイムSTTが現実に。

2. **Cartesia Sonic 2 (2024)** — Mamba状態空間モデル論文の著者(Albert Gu, Tri Dao)らが起業した会社。90ms未満TTS。GPT-4級LLMと組み合わせても「AIと電話している」と気づけない。

3. **Sesame (2025.3)** — Oculus共同創業者のBrendan Iribeが出した「voice presence」デモ。SNSの30秒クリップで「これは違う」と全員が言った。

ここにElevenLabs V3、Deepgram Nova-3、AssemblyAI Universal-2、NVIDIA Parakeet 1.1、OpenAI Realtime API、Vapi/Retellなどの音声エージェント・プラットフォームが重なる。2026年5月時点で「AIコールセンター」はPoCではなく量産段階だ。

本稿は14章にわたってその地形を整理する。

第1章 · 2026年の音声AI地図 — TTS / STT / 音声エージェントの3軸

1.1 3軸の分業

音声AIシステムはほぼ常に3コンポーネントに分かれる。

| 段階 | 役割 | 代表モデル/サービス |

| --- | --- | --- |

| STT (Speech-to-Text) | 人の音声 → テキスト | Whisper Turbo, Deepgram Nova-3, AssemblyAI Universal-2, Parakeet |

| LLM | テキスト入力 → テキスト応答 | GPT-4o, Claude 3.5, Gemini 2 |

| TTS (Text-to-Speech) | テキスト → 音声 | ElevenLabs, Cartesia Sonic 2, Sesame, OpenAI TTS, VOICEVOX |

ここに「全部を一つのモデルで」処理する統合型が加わる。OpenAI Realtime API、Google Live API、ElevenLabs Conversational v2など。統合型はより自然だが、価格・制約・デバッグ難度が異なる。

1.2 評価軸

2026年時点で音声AIは次の4軸で評価される。

- **遅延(latency)** — ユーザの発話終了からAIが口を開くまで。200ms未満が自然さの閾値

- **品質(quality)** — 自然さ、感情表現、多言語精度

- **価格(cost)** — 分単位または1M文字単位

- **制御(control)** — 音声クローン、感情タグ、SSML、発話速度

この4軸を同時に全部満たすモデルはない。ゆえに「どのワークロードか」で答えが変わる。コールセンター、ゲームキャラ吹替、オーディオブックでは優先順位が違う。

1.3 OSS vs 商用

| 軸 | OSS | 商用 |

| --- | --- | --- |

| TTS品質 | F5-TTS, XTTS-v2, ChatTTS — 良くなったが商用には及ばず | ElevenLabs, Cartesia, Sesame — 圧倒的 |

| STT精度 | Whisper, Parakeet — 商用とほぼ同等 | Deepgram, AssemblyAI — 微優位、ドメイン調整可能 |

| 遅延 | セルフホストで100ms可能 | 200〜500ms(ネットワーク経由) |

| 価格 | GPU費用のみ | 分$0.01〜$0.30 |

OSSはSTTで商用にほぼ追いつき、TTSではまだ差がある。これが2026年の大きな絵だ。

第2章 · Whisper Large v3 Turbo (2024.10) — 8倍速の多言語STT

2.1 v3 → v3 turboの変化

2022年9月にOpenAIがWhisperをOSSで公開したとき、それは音声AIで最大級の事件だった。99言語、多言語、無料、商用級STT精度。

2024年10月公開のv3 turboはv3 largeのdecoder層を32→4に削り、圧縮した変種である。結果:

- **速度**: v3比で約8倍速

- **モデルサイズ**: 1.5B → 809Mパラメータ

- **精度**: 英語/韓国語/日本語などのメジャー言語ではv3比1〜2%の損失(実用的にはほぼ同等)

- **言語カバレッジ**: 99言語→若干減(一部の希少言語が削除)

model = whisper.load_model("turbo") # large-v3-turbo

result = model.transcribe("interview.mp3", language="ja")

print(result["text"])

2.2 なぜ8倍が意味あるのか

以前のv3 largeは1時間音声の文字起こしにA100で約3分かかっていた。リアルタイムからは程遠かった(ストリーミングは別途処理)。

turboは同じ音声を22秒で終わらせる。結果として:

- **リアルタイム字幕**: 200〜400ms単位で切っても追従できる

- **バッチ処理コストが1/8に**: クラウドGPU時間が削減

- **エッジ端末**: M2 MacBook Airでもリアルタイム可能

2.3 限界

- **話者分離(diarization)**: Whisperは誰が話したか分からない。WhisperXなど外部ツールが必要。

- **真のストリーミング**: 30秒チャンクが基本なので本物のストリーミングではない。faster-whisperやwhisper-streamingで迂回。

- **ドメイン適応**: 医療/法律/金融の語彙はファインチューニングが必要。Deepgram/AssemblyAIはドメイン専用モデルを提供。

2.4 比較 — faster-whisper / WhisperX / Distil-Whisper

| ツール | 中核 | 用途 |

| --- | --- | --- |

| OpenAI公式 Whisper | リファレンスPyTorch | 研究/評価 |

| faster-whisper | CTranslate2バックエンド、さらに4倍速 | 本番バッチ |

| WhisperX | + 話者分離 + 単語タイムスタンプ | メディア字幕 |

| Distil-Whisper | 蒸留した小型版 | モバイル/エッジ |

本番ではfaster-whisperまたはWhisperXが定番。OpenAI公式実装は研究/評価用。

第3章 · Deepgram Nova-3 / AssemblyAI Universal-2 — 商用STT競争

3.1 Deepgram Nova-3 — 低遅延の王者

Deepgramの強みは遅延だ。Nova-3の特徴:

- **最初の単語遅延が100ms未満** — ユーザが話し始めると即座にpartial transcript

- **エンドツーエンドの自社学習** — 外部ASRの上に乗せたものではない

- **ドメイン専用モデル** — 医療、コールセンター、メディアなど

- **価格** — 分$0.0043(バッチ) 〜 $0.0145(ストリーミング)

from deepgram import DeepgramClient, PrerecordedOptions

deepgram = DeepgramClient(api_key="...")

options = PrerecordedOptions(model="nova-3", smart_format=True, diarize=True)

response = deepgram.listen.prerecorded.v("1").transcribe_file(

{"buffer": audio_buffer}, options

)

「100msの差がUXを決める」コールセンターボットやライブ字幕では事実上一択。

3.2 AssemblyAI Universal-2 — フルセットの強者

AssemblyAIは「文字起こし + 後処理」フルセットで勝負する。Universal-2の特徴:

- **単語精度** — 英語WER 5%未満(Whisper v3 large同等または微優位)

- **Auto-chapters, summarization, PII redaction, sentiment** — 全部1つのAPIで

- **言語検出** — 99言語を自動検出

- **価格** — 分$0.0065(Bestモデル) + 後処理オプション別途

特にメディア/ポッドキャストのように「文字起こしだけでなくチャプター/要約/感情も欲しい」場面で強い。

3.3 Speechmatics — アクセントの強者

イギリス発の会社で、多様な英語アクセント(インド、オーストラリア、カリブ、スコットランド)に強い。グローバルコールセンターでアクセント多様性が高いときに優位。

3.4 NVIDIA Riva — セルフホストの強者

NVIDIA Rivaはセルフホストの音声SDK。データが外に出せない政府/金融/医療で使われる。RivaでParakeetをサーブするのが典型的なパターン。

3.5 AWS Transcribe / Azure Speech / Google STT

ハイパースケーラー3社もSTTを持つ。精度はDeepgram/AssemblyAI比で若干劣るが、同じクラウド内の他サービスとの統合が容易。

3.6 比較表

| --- | --- | --- | --- | --- | --- |

| Whisper v3 turbo (自前) | ~5% | ~8% | ~1〜3秒 | GPUのみ | 無料、多言語 |

| Deepgram Nova-3 | ~4% | ~11% | `<100ms` | 0.004〜0.015 | 低遅延 |

| AssemblyAI Universal-2 | ~4% | ~9% | ~300ms | 0.0065+ | 後処理 |

| Parakeet 1.1 (自前) | ~5% | N/A | ~200ms | GPUのみ | OSSのSOTA |

| Speechmatics | ~5% | ~10% | ~200ms | 0.007+ | アクセント |

| AWS Transcribe | ~7% | ~10% | ~500ms | 0.024 | AWS統合 |

数値は公開ベンチマークからの概算。実数値はドメインや音質で大きく変動する。

第4章 · NVIDIA Parakeet 1.1 — OSSのSOTA

4.1 Parakeetとは

NVIDIAがNeMoフレームワークで学習したOSS STTモデル群。2024年末にParakeet 1.1が公開されたとき、「OSS STTが商用に追いついた」と評された。

- **モデルサイズ**: 110M〜1.1Bパラメータの各種

- **アーキテクチャ**: FastConformer + CTC/Transducerハイブリッド

- **速度**: 同じGPUでWhisper turbo比2倍以上速い

- **精度**: HuggingFace OpenASRリーダーボードの英語部門でトップ

4.2 なぜ速いのか

WhisperはTransformer encoder + decoderを使う。30秒チャンク中でトークンを自己回帰生成。ParakeetはFastConformer encoder + CTC(またはRNN-T)decoder。CTCは自己回帰ではなく系列アラインメントなので、ずっと速い。

代わりに多言語カバレッジはWhisperに劣る。Parakeet 1.1英語版は英語専用で、多言語版(Canary)は別。

4.3 NeMoでセルフホスト

asr_model = nemo_asr.models.ASRModel.from_pretrained(

"nvidia/parakeet-tdt-1.1b"

)

transcripts = asr_model.transcribe(["audio.wav"])

print(transcripts[0])

GPU一枚で分単位に数百時間の音声を処理できる。ライセンスもCC-BY-4.0で商用フレンドリー。

4.4 多言語版 — Canary

NVIDIAがParakeetとは別に出した多言語ASR。英語/スペイン語/ドイツ語/フランス語など一部の言語をサポート。日本語/韓国語はまだ限定的で、Whisperが優位。

第5章 · ElevenLabs — TTSの標準

5.1 なぜElevenLabsが1位なのか

2023年登場以降、ElevenLabsはTTSの事実上の標準だ。理由:

1. **自然さ** — 「AIの声」ではなく「あの人の声」と感じる最初のモデル

2. **多言語** — 同じ声で30言語、アクセント保持

3. **クローン** — 1分のサンプルでボイスクローン、「Professional Voice Clone」は30分以上

4. **APIとUXの両方が良い** — 開発者は5分で統合可能、非開発者もWebからすぐ使える

5.2 モデルラインナップ

- **Multilingual v2 (2023)** — クラシック。高品質で安定。遅延 ~400ms

- **Flash v2.5 (2024)** — 低遅延版、75ms未満。品質はv2より若干劣る

- **V3 alpha (2025)** — 感情タグ、対話、audio tags(`[whispers]`、`[laughs]`)

- **Conversational v2 (2025)** — TTS + STT + LLMバンドルの音声エージェント

5.3 V3の感情タグ

V3ではテキストにインラインタグを混ぜて感情を指定できる。

[excited] Welcome back!

[whispers] I have a secret.

[laughs] That's hilarious.

[sighs] Okay, let's start over.

これは見た目以上に大きい変化だ。以前はSSMLでprosodyを細かく調整する必要があった。V3は自然言語タグだけで感情を表現できる。

5.4 価格

- **Starter**: 月5ドルで30K文字

- **Creator**: 月22ドルで100K文字 + ボイスクローン

- **Pro/Scale/Business**: 従量制

- **API単価**: 英語で約$0.18/1K文字 (Flash)、$0.30/1K文字 (V2)

他より高いが、品質差がワークフローを変えるため、ゲーム・動画・オーディオブック市場では事実上デフォルト。

5.5 限界

- 日本語の自然さは英語に劣る(それでも他のグローバルTTSよりはマシ)

- 日本語は時々プロソディが不自然

- 価格が他の選択肢の2〜5倍

第6章 · Cartesia (Mamba著者たち) — Sonic 2 + 超低遅延

6.1 誰が作ったか

Cartesiaは2023年にAlbert Gu、Tri Daoら**Mamba状態空間モデル論文の著者たちが立ち上げた会社**だ。MambaはTransformerの代替として注目を集めたアーキテクチャで、系列長が伸びてもメモリ/演算が線形に増えるだけ。音声によく合う。

6.2 Sonic / Sonic 2 — 90ms TTS

Cartesiaの最初のモデルSonicは90ms未満TTSで話題になった。Sonic 2(2024年末)では:

- **最初のバイト遅延が75ms未満** — ElevenLabs Flashの半分

- **品質** — ElevenLabs Multilingual v2と比較可能

- **多言語** — 英語/スペイン語/フランス語/ドイツ語/日本語/中国語/韓国語など

- **ボイスクローン** — 3秒のサンプルでinstant clone

from cartesia import Cartesia

client = Cartesia(api_key="...")

audio = client.tts.sse(

model_id="sonic-2",

transcript="こんにちは、初めまして。",

voice={"mode": "id", "id": "your_voice_id"},

output_format={"container": "raw", "encoding": "pcm_f32le", "sample_rate": 44100},

)

6.3 なぜ速いのか

Mamba系の状態空間モデルはTransformerのattentionと違い、トークン間依存をO(n)時間で処理する。TTSのように系列が長いワークロードで大きな利点。

加えてCartesiaは推論時のストリーミングを最優先で設計している。最初のチャンクが入った瞬間に最初のバイトが出ていくようにパイプラインが組まれている。

6.4 どこで使うか

- リアルタイム音声エージェント(Vapi/RetellのデフォルトTTSオプションの一つ)

- ゲームNPC — 動的セリフ

- ライブ通訳

ElevenLabsが「最高品質」なら、Cartesiaは「遅延と品質のベストバランス」。

第7章 · Sesame (Iribe, 2025.3) — "voice presence"

7.1 Brendan IribeとSesame

Brendan IribeはOculus VR共同創業者。Facebookへの売却後、Andurilなどを経て2024年にSesameを立ち上げ、2025年3月に初公開デモを出した。

Sesameのコンセプトは"voice presence" — 単に自然な音声ではなく、**相手がそこにいると感じる**音声。呼吸、ためらい、「えーと」、バックチャネル(「うん」「あー」)、割り込みを自然に。

7.2 デモが衝撃だった理由

2025年3月に公開された30秒デモはSNSで爆発的に共有された。理由:

- 回答が始まる前に約0.3秒の「ちょっと考える」呼吸

- ユーザの発話中に「あ、そう?」のようなバックチャネル挿入

- 文末のフェードが自然 — AI音声特有の「ハッと終わる」感が消えている

- テキストの意味と一緒に動く感情表現

ElevenLabs/Cartesiaが「自然な音声」を作ったのに対し、Sesameは「人がそこにいる感じ」を作ったと評された。

7.3 技術的に何が違うか

Sesameは論文を一部公開している。要点:

- **単一バックボーンでテキスト・音声・prosodyを同時にモデル化** — 別途のTTSではなく音声LLM

- **割り込み処理** — ユーザが割り込むと自然に止まって応答

- **非言語音** — ため息、笑い、咳払いが学習データに含まれる

7.4 限界と疑問

- 2026年5月時点でGAではなく一部ベータ。価格/SLAは未公開

- 英語中心で日本語/韓国語は未対応

- Sesameが本当に量産可能なコストで「voice presence」を作れるかは未証明

それでもこの方向(音声を単なるTTSではなくpresenceとして扱う)はElevenLabs/Cartesiaが間もなく追従するだろう。

第8章 · ChatTTS / F5-TTS / XTTS-v2 — OSSのTTS

8.1 ChatTTS — 中国チームの自然な英語TTS

ChatTTSは2024年に中国チームが公開したOSS TTS。特徴:

- 英語自然さがElevenLabs Multilingual v2に近い水準(OSSのトップ)

- 対話体に特化 — 同じテキストでも「会話のように」読む

- HuggingFaceに無料の重み

- 日本語/韓国語は弱い

8.2 F5-TTS — HuggingFaceのトレンド1位

F5-TTSは2024年末に公開され、HuggingFaceのトレンディング1位になったOSS TTS。日本/韓国の開発者コミュニティでも話題。特徴:

- **Flow matching**ベース(diffusion変種) — 学習がより安定

- ボイスクローン — 15秒のサンプルでzero-shot

- 多言語 — 英語/中国語中心、その他は要ファインチューニング

- ライセンス — 非商用(商用制限あり、要確認)

8.3 XTTS-v2 (Coqui) — クローンのクラシック

Coquiは2023〜2024年に活発だったOSS TTS企業。会社自体は解散したがXTTS-v2の重みはHuggingFaceに残っている。

- 17言語

- 6秒のサンプルでボイスクローン

- 自然さはElevenLabsに劣るが無料

- 日本語/韓国語サポート

from TTS.api import TTS

tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")

tts.tts_to_file(

text="こんにちは。",

speaker_wav="reference.wav",

language="ja",

file_path="output.wav",

)

8.4 Tortoise TTS — 遅いが高品質

Tortoiseは2022年に出た比較的古いOSS TTS。推論が非常に遅い(分単位)が品質が良くて一時期は「OSS TTSの標準」だった。現在はChatTTS/F5-TTSに座を譲った。

8.5 OSS TTS選択ガイド

| --- | --- | --- | --- | --- |

| F5-TTS | 良い | 英語/中国語 | 普通 | 非商用 |

| XTTS-v2 | 良い | 17言語 | 普通 | CPL(条件付き商用) |

商用利用にはライセンス確認が必須。F5-TTSは非商用制限が明示されていて商用製品では使えない。

第9章 · Realtime API — OpenAI / Google / ElevenLabs Conversational

9.1 「Realtime」とは何か

伝統的な音声パイプラインはSTT→LLM→TTSの3段直列だ。各段で遅延・歪み・待ち時間が積み重なる。Realtime APIはこれを「音声入力→音声出力」の単一モデルにまとめる。

長所:

- 遅延が短い(200〜500ms vs 1〜2秒)

- 割り込み処理が自然

- 非言語情報(笑い、ため息、トーン)が伝わる

短所:

- 価格が高い(入力分$0.06 + 出力分$0.24水準)

- デバッグが難しい(テキスト段がないのでログが音声)

- 関数呼び出し/外部ツール統合がやや手間

9.2 OpenAI Realtime API (gpt-4o-realtime)

2024年末公開。WebSocketベース。

const ws = new WebSocket("wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview")

ws.on("open", () => {

ws.send(JSON.stringify({

type: "session.update",

session: { voice: "alloy", instructions: "親切な日本語アシスタントとして答えてください。" }

}))

})

ws.on("message", (data) => {

const event = JSON.parse(data)

if (event.type === "response.audio.delta") {

// base64 PCMチャンク

}

})

GPT-4oの音声モデルが入力音声を聞き、直接出力音声を作る。日本語/韓国語もサポート。

9.3 Google Live API (Gemini 2)

Gemini 2のLive API。WebSocketで似たインターフェイス。Googleエコシステム(検索、Maps、Calendar)統合が強み。

9.4 ElevenLabs Conversational v2

ElevenLabsもTTS専業から音声エージェントプラットフォームへ拡大。STTは自社+Deepgramオプション、LLMはOpenAI/Anthropic/Googleから選択、TTSはElevenLabsボイス。すなわち「差し替え可能」な統合プラットフォーム。

9.5 RealtimeかSplitか

**Realtime推奨**:

- シンプルなチャットボット、FAQ応答

- 人に近い自然さがKPIのシナリオ(フィッティング、コーチング)

- 割り込み/バックチャネルが重要なシナリオ

**Split推奨**:

- 複雑なワークフロー(多段ツール呼び出し、コンテキスト分岐)

- ブランドボイス維持のための独自TTS

- ログ/監査が厳しいドメイン(金融、医療)

第10章 · 音声エージェント — Vapi / Retell / Bland / Synthflow

10.1 音声エージェントプラットフォームとは

コールセンターボットを作るには自分でSTT/LLM/TTSをつなぎ、電話網(SIP/Twilio)を接続し、割り込み・ターンテイキング・コールルーティングを実装する必要がある。それを全部やってくれるプラットフォームが2024〜2025年に爆発的に増えた。

10.2 Vapi

サンフランシスコ発のスタートアップ。YC出身。特徴:

- TTS/STT/LLMを差し替え可能(ElevenLabs/Cartesia/Deepgram/AssemblyAIなど)

- Twilio/Vonage経由のPSTN統合

- Webhookで外部API呼び出し(予約、CRM更新)

- 価格 — 分$0.05〜$0.15 + モデル代

10.3 Retell AI

Vapiの最も直接的な競合。UIがやや洗練されていて、ライブ通話の文字起こしが見やすい。価格帯は同等。

10.4 Bland AI

セールスコールに特化。大量アウトバウンド(不動産コールドコールなど)に強い。コール単価が安い。

10.5 Synthflow

EU発のノーコード音声エージェントビルダー。GUIでフローを描けるので、開発者以外の運用チームでも使える。

10.6 比較表

| プラットフォーム | 強み | 弱み | 分単価 (USD) |

| --- | --- | --- | --- |

10.7 自作 vs プラットフォーム

分1万コール以下ならプラットフォームがほぼ常に安い。1万コール以上、またはデータが外に出せないドメインなら、LiveKit + Deepgram + Cartesiaなどの自前構築。

第11章 · 韓国 — Naver CLOVA、Kakao KOTTS、SKT NUGU

11.1 Naver CLOVA Voice / CLOVA Studio

NaverはCLOVA Voice(TTS)、CLOVA Speech(STT)、HyperCLOVA X(LLM)を揃えた音声フルスタック。韓国語自然さはElevenLabsより優位。価格は分単位または文字単位で課金。

11.2 Kakao KOTTS

Kakao Enterpriseの韓国語TTS。コールセンター、案内システムなどB2B中心。Kakao Talkチャットボットビルダーと統合。

11.3 SKT NUGU

SK Telecomの音声アシスタントプラットフォーム。NUGUスピーカー、TMAPナビ音声、NUGU Candyなど、コンシューマ市場に強い。

11.4 Coway Sonattsその他

Cowayなど一部企業が独自韓国語TTSを開発。一般市場露出は限定的。

11.5 韓国語STT — CLOVA vs Deepgram vs Whisper

| モデル | 韓国語WER | 強み | 弱み |

| --- | --- | --- | --- |

| Parakeet | 未対応(英語中心) | - | - |

韓国企業が韓国ユーザーだけを対象にするならCLOVAが第一候補。グローバル+韓国語ならWhisper turboまたはDeepgram。

11.6 韓国語音声エージェント事例

- 銀行/カードコールセンターIVR — KB、Shinhan、KakaoBankなど部分導入

- 配達アプリの音声注文 — 一部試験

- ゲームNPC — NCsoftの事例

韓国語音声エージェントはグローバル比2〜3年遅れだが、急速に追い上げ中。

第12章 · 日本 — VOICEVOX(OSS)、Coeiroink、GPT-SoVITS、Bert-VITS2

12.1 VOICEVOX — 日本OSS TTSの事実上の標準

VOICEVOXは日本で圧倒的な認知度を持つOSS TTSだ。特徴:

- **無料、一定条件下で商用可能** — キャラクター別の利用規約確認必須

- **数十種類のキャラクターボイス** — ずんだもん、四国めたん、九州そらなどがインターネットミーム化

- **GPUなしでローカル実行可能** — CPUでもリアルタイム

- 日本のYouTube/ニコニコ動画の半分はVOICEVOX

12.2 Coeiroink

VOICEVOXに似た日本OSS TTS。キャラクターを比較的自由に使えるライセンスで、選好する人もいる。

12.3 GPT-SoVITS

日本・中国コミュニティで人気のzero-shotボイスクローンTTS。1分未満のサンプルでクローン可能。日本のボイスコンテンツ制作者には事実上の標準。

12.4 Bert-VITS2

もう一つの人気OSS。BERTベースのテキストエンコーダー+VITSデコーダー。日本語/中国語に強み。

12.5 日本語商用TTS

- ElevenLabs Multilingual v2 — 日本語対応、自然さは平均以上

- Azure Neural TTS — 日本語ボイス豊富

- Google WaveNet — 日本語安定

- AWS Polly — 日本語ボイス多数

商用はグローバル3社が強いが、日本のコンテンツ市場(VTuber、動画、ゲーム)ではVOICEVOX/GPT-SoVITSが圧倒的。

12.6 日本語STT

| モデル | 日本語WER | 備考 |

| --- | --- | --- |

| Whisper v3 turbo | 約8% | 最もよく使われる |

| AssemblyAI | 約9% | 後処理強み |

| Google STT | 約7% | 日本語ドメインチューニング良し |

| Azure Speech | 約7% | 日本語ボイス豊富 |

| Deepgram | 約11% | 日本語は弱点 |

日本語ではDeepgramが意外に弱く、Google/Azureが優位の場合が多い。

第13章 · 誰が何を選ぶべきか — コールセンター / ゲームNPC / オーディオブック / 通訳

13.1 コールセンター・インバウンドボット

**目標**: 高速応答 + 自然な日本語/英語 + 割り込み処理 + ツール呼び出し

推奨:

- STT: Deepgram Nova-3(英語) または Whisper turbo(日本語)

- LLM: GPT-4o または Claude 3.5

- TTS: Cartesia Sonic 2(英語) または VOICEVOX/商用日本語TTS

- プラットフォーム: VapiまたはRetell AI

代替: OpenAI Realtime API単独(シンプルなボットなら十分、価格は高め)

13.2 ゲームNPC吹替

**目標**: キャラクターボイスの一貫性 + 感情表現 + 多言語

推奨:

- TTS: ElevenLabs Professional Voice Clone + V3感情タグ

- または: Cartesiaボイスクローン(動的セリフで低遅延が必要な場合)

- OSSオプション: GPT-SoVITS(キャラクターボイスクローン)

13.3 オーディオブック / ポッドキャスト

**目標**: 自然な長尺、感情表現、正確な発音

推奨:

- ElevenLabs Multilingual v2 + Voice Lab

- 日本語短編なら: VOICEVOX または Azure Neural TTS

- 複数話者なら: ElevenLabs Projects モード

13.4 ライブ通訳

**目標**: 超低遅延STT + 即時翻訳 + 自然なTTS

推奨:

- STT: Deepgram Nova-3 または AssemblyAI

- 翻訳: GPT-4o または Claude

- TTS: Cartesia Sonic 2(低遅延が肝)

- または: OpenAI Realtime API(最もシンプル、最もスムーズ)

13.5 動画字幕 / コンテンツ後処理

**目標**: 精度 + 話者分離 + チャプター/要約

推奨:

- AssemblyAI Universal-2(最もフルセット)

- または: WhisperX(全部OSSで処理したいとき)

13.6 コスト重視 + 非公開データ

**目標**: データが外に出せない、GPUだけで運用

推奨:

- STT: Parakeet 1.1 または Whisper v3 turbo(NeMo または faster-whisper)

- TTS: XTTS-v2 または F5-TTS(ライセンス注意)

- LLM: Llama 3 70B または Qwen 2.5

- インフラ: NVIDIA Riva または独自 vLLM/Triton

13.7 一行要約マトリクス

| シナリオ | STT | TTS | 備考 |

| --- | --- | --- | --- |

| オーディオブック | (不要) | ElevenLabs v2 | 長尺 |

第14章 · まとめ — 2026年音声AIの大きな絵

3つの大きな流れ。

**第一に、STTはほぼ解決した。** Whisper turbo、Deepgram Nova-3、Parakeet 1.1で英語WER 5%未満が一般化。残るのはドメイン適応(医療/法律の語彙)、多言語精度(特に低リソース言語)、話者分離・感情メタデータなど補助情報。

**第二に、TTSは「自然な音声」から「voice presence」へ移行中だ。** ElevenLabs/Cartesiaが自然さをほぼ完成させ、Sesameが「人がそこにいる感じ」という新ベンチマークを投げた。2026年後半から2027年にElevenLabs/Cartesiaが似た領域へ追従する。

**第三に、統合型(Realtime API)が分離型パイプラインを侵食する。** シンプルなボットならOpenAI Realtime API一つで十分。分離型が生き残る領域は、(a)ブランドボイスが重要な所、(b)複雑なツール呼び出しが必要な所、(c)音声データを別途監査するドメイン。

音声AIはもう「面白いデモ」ではない。2026年にはコールセンター、自動車インフォテインメント、ゲーム、教育、ヘルスケアなどの量産ワークロードに入っている。今後1〜2年の見どころは、(1)Sesameが本当に量産可能か、(2)OSS TTSがElevenLabs差を縮められるか、(3)Whisper turboがもう一度ジャンプするかだ。

参考 / References

- OpenAI Whisper v3 turbo公開 — https://github.com/openai/whisper/discussions/2363

- OpenAI Whisper論文 — https://arxiv.org/abs/2212.04356

- Deepgram Nova-3 — https://deepgram.com/learn/introducing-nova-3

- AssemblyAI Universal-2 — https://www.assemblyai.com/blog/universal-2

- NVIDIA Parakeet — https://huggingface.co/nvidia/parakeet-tdt-1.1b

- NVIDIA NeMo — https://github.com/NVIDIA/NeMo

- HuggingFace OpenASR Leaderboard — https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

- ElevenLabs APIドキュメント — https://elevenlabs.io/docs

- Cartesia — https://cartesia.ai

- Mamba論文 (Albert Gu, Tri Dao) — https://arxiv.org/abs/2312.00752

- Sesame (Brendan Iribe) — https://www.sesame.com

- ChatTTS GitHub — https://github.com/2noise/ChatTTS

- F5-TTS — https://github.com/SWivid/F5-TTS

- Coqui XTTS-v2 — https://huggingface.co/coqui/XTTS-v2

- Tortoise TTS — https://github.com/neonbjb/tortoise-tts

- OpenAI Realtime API — https://platform.openai.com/docs/guides/realtime

- Google Gemini Live API — https://ai.google.dev/gemini-api/docs/live

- ElevenLabs Conversational AI — https://elevenlabs.io/conversational-ai

- Vapi — https://vapi.ai

- Retell AI — https://retellai.com

- Bland AI — https://bland.ai

- Synthflow — https://synthflow.ai

- Naver CLOVA Voice — https://www.ncloud.com/product/aiService/clovaVoice

- Kakao KOTTS — https://www.kakaocorp.com

- VOICEVOX — https://voicevox.hiroshiba.jp

- Coeiroink — https://coeiroink.com

- GPT-SoVITS — https://github.com/RVC-Boss/GPT-SoVITS

- Bert-VITS2 — https://github.com/fishaudio/Bert-VITS2

- LiveKit Agents — https://docs.livekit.io/agents

- faster-whisper — https://github.com/SYSTRAN/faster-whisper

- WhisperX — https://github.com/m-bain/whisperX