Split View: AI 음성 2026 — ElevenLabs · OpenAI Realtime · Cartesia · Vapi · Sesame · Deepgram, 보이스 에이전트 스택의 현재
AI 음성 2026 — ElevenLabs · OpenAI Realtime · Cartesia · Vapi · Sesame · Deepgram, 보이스 에이전트 스택의 현재
프롤로그 — 생성형 미디어 4부작의 마지막 한 조각
지난 몇 주에 걸쳐 우리는 생성형 미디어를 한 카테고리씩 정리해 왔다. 음악(Suno, Udio, Lyria, ElevenMusic), 이미지(FLUX, Imagen, Midjourney, Ideogram, Recraft, Firefly), 비디오(Sora, Veo, Runway, Pika, Kling, Luma, Hailuo). 패턴이 똑같았다 — 2024년의 충격적인 데모, 2025년의 거친 베타, 2026년의 성숙한 도구들, 그리고 여전히 풀리지 않은 어려운 영역들.
오늘이 마지막 한 조각이다 — 음성(voice). 그런데 음성은 다른 셋과 결정적으로 다른 점이 두 개 있다.
첫째, 음성은 양방향이다. 음악은 만들면 끝, 이미지도 만들면 끝, 비디오도 만들면 끝. 그러나 음성은 사람이 말을 걸면 들어서 이해하고(STT), 무엇을 답할지 생각하고(LLM), 자연스러운 보이스로 돌려준다(TTS). 이 세 단계의 파이프라인이 대화의 단위로 묶인다. 그래서 음성 카테고리는 단순한 TTS 모델 비교가 아니라 보이스 에이전트 스택 전체를 봐야 한다.
둘째, 음성에는 지연(latency)이 절대적이다. 음악은 30초 기다리고, 이미지는 10초 기다리고, 비디오는 1분도 기다린다. 그러나 사람과 사람이 대화할 때 침묵이 800ms를 넘으면 어색해지고, 1.5초를 넘으면 누가 말을 멈춘 줄 안다. 그래서 보이스 에이전트는 사용자 발화 끝 → 답변 첫 오디오 바이트까지 300ms 안에 응답해야 자연스럽다. 음악·이미지·비디오에서는 신경 쓸 일이 없던 차원이다.
이 두 가지 차이가 2026년의 음성 카테고리를 흥미롭게 만든다. 모델 품질만으로는 안 된다. WebRTC 같은 전송층, 턴 디텍션(turn detection), 끼어들기 처리(interruption handling), endpointing, 그리고 캐시 워밍과 워머 풀까지 — 시스템 레이어 전체를 같이 설계해야 한다.
2026년 5월 현재의 풍경.
- ElevenLabs가 컨슈머 TTS와 B2B 보이스 클로닝의 카테고리 리더 자리를 굳혔고, Conversational AI라는 보이스 에이전트 제품으로 위로 올라가고 있다.
- OpenAI Realtime API가 GPT-Realtime 모델 위에서 진짜 음성-인-음성-아웃을 WebRTC로 제공하고, 카테고리 자체를 바꿨다.
- Cartesia의 Sonic-2가 75ms 첫-바이트로 가장 빠른 TTS의 자리에 있다(2026년 5월 기준).
- Vapi가 STT/LLM/TTS를 조합하는 보이스 에이전트 플랫폼 레이어를 차지하고, 작년 6월에 $64M Series B를 받았다.
- Sesame의 CSM(Conversational Speech Model)이 "사람 같은 개성"이라는 새로운 축을 열었다.
- STT 쪽은 Deepgram Nova-3과 AssemblyAI Universal-2가 양강 구도, Whisper Large V3 Turbo와 WhisperX가 오픈소스 베이스라인.
- Hume EVI 4는 감정 인식·생성, Bland는 전화 콜 자동화, Retell도 B2B 보이스 에이전트 시장에서 경쟁한다.
이 글은 그 풍경을 정리한다. 누가 어떤 일에 맞는지, 보이스 에이전트 스택은 어떻게 구성되는지, sub-300ms 첫-바이트 목표를 어떻게 달성하는지, 빌드와 바이의 경계는 어디인지, 그리고 보이스 클로닝의 동의(consent) 현실까지 — AI가 콜센터를 대체한다거나 AI 음성이 위험하다거나 하는 양극단의 이야기는 빼고.
핵심 한 줄: 2026년의 AI 음성은 "TTS가 좋아졌다"가 아니라 "전체 스택이 sub-300ms로 돌아가는 게 가능해졌다"는 이야기다. 그 차이를 알면 도구 선택이 쉬워진다.
1장 · 카테고리의 탄생 — 2023~2024년 사이에 무슨 일이 있었나
1.1 음성 합성의 세 갈래
AI 음성 합성은 사실 30년 된 분야다. 초기에는 concatenative TTS(조각 음성을 이어 붙임), 그 다음은 parametric TTS(음향 파라미터를 통계 모델로 예측), 2017년부터 neural TTS(WaveNet, Tacotron). 지금 우리가 쓰는 도구의 직접 조상은 2020년 이후의 두 흐름이다.
갈래 1: 멀티스피커 뉴럴 TTS. 텍스트와 화자 임베딩을 함께 입력해 어떤 목소리로든 합성하는 모델. ElevenLabs가 이 계열에서 출발했다(2022년 11월 창업).
갈래 2: 자기회귀 코덱 모델. 텍스트 LLM의 아이디어를 오디오에 그대로 적용한다. EnCodec, SoundStream 같은 뉴럴 오디오 코덱으로 오디오를 토큰으로 압축한 뒤, 트랜스포머가 그 시퀀스를 학습한다. Microsoft VALL-E(2023년 1월), Meta Voicebox(2023년 6월), 그리고 OpenAI의 Whisper(STT, 2022년 9월)가 같은 계열의 발견이다.
2023년 말~2024년 초에 두 갈래가 섞이기 시작한다. ElevenLabs는 자기회귀+디퓨전 하이브리드로, Microsoft는 VALL-E 2로, OpenAI는 멀티모달 LLM(GPT-4o) 안에 음성 토큰을 직접 넣는 방향으로 갔다.
1.2 결정적 순간 — GPT-4o의 5월 데모
2024년 5월, OpenAI는 GPT-4o를 공개하면서 음성-인-음성-아웃 데모를 보였다. 사용자가 말하면 모델이 듣고 같은 모델이 답을 음성으로 돌려준다. 끼어들기가 자연스럽고, 감정이 실리고, 노래도 부른다. 카테고리 전체가 그 순간 다시 그려졌다.
그러나 데모 공개 후 음성 기능 출시는 늦었다 — 처음엔 7월, 그 다음 10월 Realtime API(베타), 2025년 8월에 GPT-Realtime 모델의 GA(정식 출시). 그 사이에 Anthropic, Google, Cartesia 같은 다른 진영이 자기 답을 만들 시간을 벌었다.
1.3 보이스 클로닝의 폭탄 — Heart Voice 논쟁
2024년 5월 14일, OpenAI는 "Sky"라는 GPT-4o 음성을 발표했다. 배우 Scarlett Johansson은 이전에 OpenAI의 음성 제안을 거절했었는데, Sky가 자기 목소리와 너무 비슷하다고 공개적으로 항의했다. OpenAI는 Sky 음성을 즉시 내렸다.
이 사건은 산업 전체에 신호를 보냈다. 보이스 클로닝의 동의(consent)는 단순한 약관 체크박스가 아니라 법적·윤리적 기반 자체라는 것이다. 이후 모든 메이저 음성 모델은 "이 목소리를 클론할 권한이 있는지"를 검증하는 절차를 의무화했다.
1.4 왜 갑자기 좋아졌나
다른 생성형 미디어와 같은 세 변수다.
- 데이터. 라이선싱된 멀티스피커 음성 데이터셋(LibriTTS, GigaSpeech, Common Voice)이 풍부해졌고, 메이저 회사들은 자체적으로 수만 시간 단위의 음성을 라이선싱해 학습한다.
- 컴퓨트. H100/H200 클러스터로 멀티빌리언 파라미터 음성 모델 학습이 합리적 시간 안에 끝난다.
- 아키텍처. 뉴럴 오디오 코덱 + 트랜스포머 + 멀티스피커 임베딩 + 디퓨전 디코더의 조합이 자리잡았다.
특히 2024~2025년에 저지연 스트리밍이 표준이 됐다는 게 컸다. 이전에는 "텍스트 전체를 받아서 30초짜리 오디오를 만든 뒤 한 번에 반환"이었다면, 지금은 "텍스트 토큰이 들어오는 대로 오디오 청크를 스트리밍"이다. 이게 보이스 에이전트의 실현을 가능하게 만들었다.
2장 · TTS 리더 — ElevenLabs · Cartesia · OpenAI · Sesame
2.1 ElevenLabs — 카테고리 리더
2026년 5월 시점에서 가장 많이 쓰이는 텍스트-투-스피치는 ElevenLabs다. 2022년 11월 창업, 2024년 1월 Andreessen Horowitz 리드로 시리즈 B(180M, $3.3B 밸류에이션), 그리고 2026년에는 멀티모달 음성 회사로 확장 중이다.
핵심 제품 라인.
- TTS API. Multilingual v2가 베이스, Turbo v2.5가 저지연용, Flash v2.5가 더 빠른 베이스라인. v3 모델군이 2026년 5월에 베타로 풀렸다.
- Voice Design v2. 텍스트 프롬프트로 새 목소리를 디자인한다("warm, mid-30s female narrator, slight British accent"). 2026년 1월에 v2로 업그레이드.
- Voice Cloning. Instant(30초 샘플, 빠른 클론)와 Professional(30분 이상 샘플, 고품질 클론).
- Conversational AI. 2024년 11월 베타 출시, 2025년 1월 GA. STT/LLM/TTS를 묶은 보이스 에이전트 빌더. ElevenLabs가 위로 한 단계 올라간 제품 라인이다.
- ElevenMusic. 음악 생성 사이드(이전 글에서 다룸).
- ElevenStudio. 더빙/번역. 영상의 음성을 다른 언어로 자연스럽게 더빙.
품질? 영어, 일본어, 한국어, 스페인어, 프랑스어, 독일어를 포함한 32개 언어를 지원하고, 한국어 보이스의 자연스러움은 2025년부터 명확히 좋아졌다. 다만 한국어 보이스의 미세 감정 컨트롤(예: 비꼬는 톤, 미묘한 슬픔)은 영어보다 약하다.
가격(2026년 5월).
- Free: 월 10,000 크레딧
- Starter: $5/월, 30,000 크레딧
- Creator: $22/월, 100,000 크레딧, 상업 사용
- Pro: $99/월, 500,000 크레딧
- Scale: $330/월 이상
- Enterprise: 별도
2.2 Cartesia — 저지연 챔피언
Cartesia는 2024년 2월 창업했다. 창업자 Karan Goel, Karan Goel와 Albert Gu는 Stanford에서 state-space model 연구를 했고, Mamba 아키텍처의 공동 저자다. 2024년 5월 64M Series A($300M 밸류에이션), 2026년 1월 추가 Series B 라운드.
핵심 제품은 Sonic 시리즈 — Sonic-1(2024년), Sonic-2(2025년 9월). Sonic-2의 첫-바이트 지연은 75ms(2026년 5월 자체 발표)로, 현재 시장에서 가장 빠른 TTS다. 이게 보이스 에이전트의 sub-300ms 첫-바이트 목표를 처음으로 현실화한 모델이다.
품질은 ElevenLabs 대비 미묘한 차이가 있다. 영어 단순 문장은 거의 동등하고, 표현력이 풍부한 보이스(드라마틱한 내레이션 등)는 ElevenLabs가 약간 위, 그러나 저지연 보이스 에이전트 시나리오에서는 Cartesia가 압도적이다.
가격(2026년 5월).
- Free: 월 50,000 자
- Creator: $5/월, 100,000 자/월
- Pro: $49/월, 1,000,000 자/월
- Scale: $299/월
- Enterprise: 별도
2.3 OpenAI Realtime — 카테고리를 바꾼 한 수
OpenAI Realtime API는 2024년 10월 베타로 시작했고, 2025년 8월에 GPT-Realtime 모델의 GA(정식 출시)와 함께 안정화됐다. WebRTC를 표준 전송층으로 지원하면서 카테고리 자체를 바꿨다.
핵심 특징.
- 음성-인-음성-아웃. STT/LLM/TTS의 3단계 파이프라인이 아니라, 멀티모달 모델 안에서 한 번에 처리. 이론적으로 지연이 더 짧다.
- WebRTC. 브라우저에서 한 줄 코드로 연결. UDP 기반이라 WebSocket 대비 네트워크 손실에 강하다.
- 함수 호출(tool use). 대화 중 모델이 함수를 호출해 외부 시스템에 접근. 보이스 에이전트의 필수 기능.
- VAD(Voice Activity Detection). 사용자가 말을 멈췄는지를 모델이 직접 판단. server-side semantic VAD가 기본.
- 끼어들기. 사용자가 모델 발화 중에 말을 시작하면 모델이 즉시 멈춤.
가격(2026년 5월, GPT-Realtime 기준).
- 오디오 입력: $40/100만 토큰
- 오디오 출력: $80/100만 토큰
- 캐시된 입력: $2.5/100만 토큰
OpenAI Realtime의 한계는 모델 선택권이 거의 없다는 점이다. GPT-Realtime이라는 단일 모델로 고정된다. 다른 LLM(Claude, Gemini)을 쓰려면 STT/TTS를 별도로 구성하고 텍스트 API를 호출하는 전통적 파이프라인으로 가야 한다.
2.4 Sesame — 개성 있는 대화 모델
Sesame AI는 2025년 초 공개적으로 등장한 새로운 진영이다. 창업자 Brendan Iribe는 Oculus VR의 공동창업자, CEO를 지냈다. 그 배경 때문에 "음성과 디바이스가 합쳐진 미래"라는 비전이 있다.
핵심 제품은 CSM(Conversational Speech Model). 2025년 2월 데모로 공개됐을 때 인터넷이 진짜로 흔들렸다 — 가장 자연스럽고, 가장 개성 있고, 가장 사람처럼 느껴지는 음성이라는 반응. 농담을 던지고, 잠깐 머뭇거리고, 갑자기 톤을 바꾸는 인간적 디테일이 살아 있다.
CSM의 기술 기반.
- end-to-end multimodal LLM 위에서 음성 합성. 기존 TTS와 달리 LLM이 직접 음성 토큰을 생성한다.
- 개성 기반 학습. 두 캐릭터("Maya"와 "Miles")로 시작했고, 각각의 발화 스타일을 학습 데이터로 사용했다.
- 2026년 5월 기준 베타. 오픈 API는 아직 제한적, 데모와 일부 파트너 통합 위주.
Sesame의 함의는 큰데 — 음성 카테고리에서 "기술적으로 정확함"을 넘어 "개성과 표현"이 다음 경쟁축이 된다는 신호다.
2.5 그 외 TTS
- Azure Speech. Microsoft의 엔터프라이즈 TTS. 보이스 카탈로그가 가장 넓고(140+ 언어, 600+ 보이스), 안정성이 검증돼 있다. 다만 최신 자연스러움은 ElevenLabs/Cartesia 대비 한 박자 뒤.
- Google Cloud TTS. Vertex AI와 통합. Chirp 3 HD 보이스로 품질이 크게 좋아졌다.
- AWS Polly. Amazon의 클래식 TTS. Generative 보이스 옵션 추가. 가격과 SLA가 매력적.
- Play.ht. 컨슈머 사이드, 팟캐스트/유튜브 크리에이터 시장에 강하다.
- Resemble AI. 보이스 클로닝 전문, B2B.
- Coqui XTTS. 오픈소스 TTS, Coqui는 2024년에 폐업했으나 모델은 GitHub에 살아 있다.
2.6 비교 — TTS 리더
| 도구 | 첫-바이트 지연 | 자연스러움 | 보이스 다양성 | 한국어 | 가격대 | 주 사용처 |
|---|---|---|---|---|---|---|
| ElevenLabs v3 | 약 200~400ms | 매우 높음 | 매우 넓음 | 양호 | 중상 | 콘텐츠, B2B 에이전트 |
| Cartesia Sonic-2 | 약 75ms | 높음 | 넓음 | 보통 | 중 | 저지연 에이전트 |
| OpenAI Realtime | 약 300~500ms (E2E) | 높음 | 제한적 | 양호 | 높음 | 멀티모달 에이전트 |
| Sesame CSM | 미공개 | 매우 높음(개성) | 캐릭터 한정 | 미평가 | 베타 | 차세대 대화 |
| Azure Speech | 약 200~300ms | 보통~높음 | 매우 넓음 | 양호 | 중 | 엔터프라이즈 |
| Google TTS Chirp 3 | 약 200~400ms | 높음 | 넓음 | 양호 | 중 | GCP 통합 |
| AWS Polly Generative | 약 300~500ms | 보통~높음 | 넓음 | 보통 | 저~중 | AWS 통합 |
3장 · STT 리더 — Deepgram · AssemblyAI · Whisper
3.1 Deepgram Nova-3
Deepgram은 2015년 창업, STT 전문 회사로 가장 오래된 진영 중 하나다. 2024년 6월 Series C(100M), 2026년 1월 추가 라운드.
핵심 모델은 Nova-3(2025년 6월 GA). 이전 Nova-2 대비 정확도, 지연, 가격 모두 개선됐다.
- WER(Word Error Rate). 영어 7.7%(이전 Nova-2: 8.4%), 다국어 평균 12.3%(이전: 15.1%). 2026년 표준 벤치(CommonVoice, Earnings-22)에서 측정.
- 지연. 스트리밍 모드 첫-단어 약 250ms, 배치 모드 1시간 오디오를 30초에 처리.
- 다국어. 30+ 언어, 한국어 포함. Code-switching(한 발화 안에 두 언어 섞임)도 처리.
- 다이어라이제이션. 화자 분리 정확도가 Nova-2 대비 명확히 좋아졌다.
- Smart Format. 숫자, 통화, 이메일, 전화번호를 자동 포맷.
가격(2026년 5월).
- Pre-recorded: 0.26/시간)
- Streaming: $0.0058/분
- Enhanced(향상된 모델): 추가 비용
Deepgram의 강점은 저지연 스트리밍 + 가격 + B2B 안정성의 균형이다. Vapi, Retell, Bland 같은 보이스 에이전트 플랫폼이 STT 기본으로 채택한다.
3.2 AssemblyAI Universal-2
AssemblyAI는 2017년 창업, Y Combinator 출신. Deepgram의 가장 직접적 경쟁자다.
핵심 모델은 Universal-2(2025년 후반 GA). Universal-1보다 정확도가 명확히 좋아졌고, "포맷팅과 가독성"에서 강점이 있다.
- WER. 영어 6.6%, 다국어 평균 11.8%. 일부 벤치에서는 Deepgram Nova-3보다 약간 더 정확하다.
- 타임스탬프. 단어 단위 타임스탬프와 화자 분리가 매우 정확하다.
- 언어 감지 + Code-switching. 자동.
- Speaker Diarization. 가장 정확한 진영 중 하나.
- 추가 기능. Sentiment Analysis, Entity Detection, Topic Detection, Summarization, PII Redaction이 한 API에서 함께 처리된다.
가격(2026년 5월).
- Best 모델: $0.37/시간(배치)
- Universal-2: $0.27/시간
- Streaming: $0.47/시간
AssemblyAI의 강점은 포스트프로세싱 통합(요약, 감정, 엔티티)이다. 콜센터 분석, 미팅 노트 같은 사용처에 강하다.
3.3 Whisper · WhisperX — 오픈소스 베이스라인
OpenAI Whisper는 2022년 9월에 오픈소스로 공개된 멀티언어 STT 모델이다. MIT 라이선스. 자체 호스팅으로 비용을 줄이거나 데이터를 외부에 안 보내려는 진영에서 여전히 표준이다.
Whisper Large V3 Turbo(2024년 10월) — V3 대비 약 8배 빠르고 품질은 비슷. 오픈소스 STT의 강력한 베이스라인.
WhisperX(2023~2025년) — Whisper 위에 forced alignment, voice activity detection, speaker diarization을 얹은 오픈소스 프로젝트. 정확한 단어 타임스탬프가 필요한 사용처에 사실상 표준.
Faster-Whisper — CTranslate2 기반 최적화, GPU에서 Whisper 대비 4배 빠르다.
성능(영어 LibriSpeech test-clean).
- Whisper Large V3 Turbo: WER 약 3.1%
- Faster-Whisper Large V3: WER 약 3.4%
- WhisperX(타임스탬프 정확도): 매우 높음
오픈소스 Whisper의 한계는 (a) 실시간 스트리밍이 본격적으로는 안 됨(워크어라운드로 청크 단위 처리), (b) 화자 분리가 별도 모델 필요, (c) 실시간 API 같은 운영 부담은 직접 짊어져야 함.
3.4 비교 — STT
| 모델 | WER(영어) | WER(다국어) | 지연(스트리밍) | 가격($/시간) | 라이선스 | 한국어 |
|---|---|---|---|---|---|---|
| Deepgram Nova-3 | 7.7% | 12.3% | 약 250ms | 0.26 | 상업 SaaS | 양호 |
| AssemblyAI Universal-2 | 6.6% | 11.8% | 약 400ms | 0.27 | 상업 SaaS | 양호 |
| Whisper Large V3 Turbo | 3.1% | 7~12%(언어별 편차) | 미지원(청크 워크어라운드) | $0(자가 호스팅) | MIT | 양호 |
| WhisperX | 3.1%(Whisper 베이스) | 같음 | 미지원 | $0 | BSD-4 | 양호 |
| Faster-Whisper | 3.4% | 같음 | 미지원 | $0 | MIT | 양호 |
| Azure Speech STT | 약 8% | 약 13% | 약 300ms | 1.0 | 엔터프라이즈 | 양호 |
| Google STT Chirp 3 | 약 7% | 약 12% | 약 300ms | 약 0.4 | 엔터프라이즈 | 양호 |
주의: WER 수치는 벤치마크와 도메인에 매우 민감하다. 노이즈가 많은 콜센터 오디오에서는 Whisper의 WER이 SaaS 진영보다 크게 떨어질 수도, 반대일 수도 있다. 자기 도메인 데이터로 직접 측정해야 한다.
4장 · 보이스 에이전트 플랫폼 — Vapi · Retell · Bland · Hume
4.1 Vapi — 플랫폼 레이어의 대표
Vapi는 2023년 창업, 2024년 11월 64M Series B($600M 밸류에이션). 보이스 에이전트 카테고리에서 가장 빠르게 성장한 회사 중 하나다.
Vapi의 포지셔닝은 "STT/LLM/TTS의 오케스트레이션 레이어". 직접 모델을 만들지 않고, 시장의 최고 모델들(Deepgram, OpenAI, ElevenLabs, Cartesia 등)을 조합해 보이스 에이전트를 만들 수 있게 한다.
핵심 기능.
- 모듈식 스택. STT(Deepgram/AssemblyAI), LLM(OpenAI/Anthropic/Google), TTS(ElevenLabs/Cartesia/PlayHT)를 자유롭게 조합.
- 턴 디텍션. 사용자가 말을 멈췄는지를 의미 기반(semantic VAD)으로 판단.
- 끼어들기 처리. 사용자가 모델 발화 중에 말 시작하면 모델 즉시 stop.
- 함수 호출. 대화 중 외부 API 호출(예: 예약 시스템, CRM 조회).
- 전화 통합. Twilio/Vonage/Telnyx로 실제 전화번호 연결.
- 녹음 + 분석. 모든 통화 녹음, 대시보드에서 검색·필터·분석.
가격(2026년 5월).
- 무료 티어: 월 10분
- Pay-as-you-go: 0.20/분(스택 선택에 따라)
- Enterprise: 별도 협의
Vapi의 강점은 **"빌드 빠름 + 모델 락인 없음"**이다. 한 주말에 보이스 에이전트 MVP를 만들 수 있고, 모델을 바꾸고 싶으면 설정 한 줄 변경.
4.2 Retell — Vapi의 가장 가까운 경쟁자
Retell도 2023년 창업, B2B 보이스 에이전트 플랫폼. Vapi와 거의 같은 포지셔닝이지만, "엔터프라이즈 통화 안정성"에 더 집중한다.
- 고품질 통화 인프라. Twilio 통합이 더 깊고, 통화 안정성 SLA가 강하다.
- Agent Studio. 노코드/로우코드 빌더가 더 완성도 있다.
- 분석. 통화 결과 자동 분류, 통화별 분석.
가격 구조는 Vapi와 비슷(0.18/분).
4.3 Bland — 전화 콜 자동화 특화
Bland AI는 "전화로 사람과 대화하는 AI"라는 특정 사용처에 집중한다. 일반 보이스 에이전트보다 인바운드/아웃바운드 콜센터 자동화에 특화돼 있다.
- 대규모 동시 통화. 수천 통화 동시 처리.
- 워크플로우 빌더. 분기 로직, 변수 추출, CRM 연동.
- 음성 클로닝. 자기 회사 영업 톤에 맞춘 보이스를 클론.
- 컴플라이언스. TCPA(미국 통신 광고 규제) 대응 도구.
타깃 시장: 영업 콜백, 약속 잡기, 고객 서베이, 채권 추심 같은 영역.
4.4 Hume EVI — 감정 인식 음성
Hume AI는 다른 진영이다. "음성에 감정이 실린다"는 관점에서 출발했다. EVI(Empathic Voice Interface) 모델은 사용자의 음성 톤에서 감정을 인식하고, 답변의 음성에 감정을 실는 데 특화돼 있다.
- EVI 4(2026년 초). 톤 분석 정확도, 응답 감정 정밀도 모두 개선.
- 사용처. 정신 건강 챗봇, 코칭, 케어 콜.
- 한계. 감정 분류가 실제 사용자 경험과 일치하는지의 검증은 아직 진행 중.
4.5 비교 — 보이스 에이전트 플랫폼
| 플랫폼 | 포지셔닝 | 주 사용처 | 모델 선택 | 가격($/분) | 차별점 |
|---|---|---|---|---|---|
| Vapi | 오케스트레이션 레이어 | 모든 보이스 에이전트 | 매우 넓음(모든 메이저) | 0.05~0.20 | 빠른 빌드, 락인 없음 |
| Retell | 엔터프라이즈 통화 | 콜센터, B2B 영업 | 넓음 | 0.07~0.18 | 통화 안정성, Studio |
| Bland | 전화 자동화 특화 | 영업, 약속, 서베이 | 자체 + 일부 | 0.10~0.15 | 대규모 동시 통화 |
| ElevenLabs Conversational AI | 자체 통합 스택 | 콘텐츠/B2B 에이전트 | ElevenLabs 위주 | $0.30/세션 등 | 자사 보이스 통합 |
| OpenAI Realtime | API 직접 | 빌드 직접 | GPT-Realtime 고정 | 토큰 기반 | 가장 짧은 E2E 지연 |
| Hume EVI | 감정 인식 특화 | 헬스케어, 케어 | EVI 모델 | 별도 | 톤 분석 |
5장 · 보이스 에이전트 스택 — 한 통화는 어떻게 흘러가나
5.1 전통적 3-단계 파이프라인
대부분의 보이스 에이전트는 세 모델을 순차로 묶는다.
사용자 발화 오디오
│
▼
[STT] Speech-to-Text
(예: Deepgram Nova-3 streaming)
│
▼ 텍스트 토큰
[LLM] Large Language Model
(예: GPT-5, Claude Opus 4.7, Gemini 2.5)
│
▼ 응답 텍스트
[TTS] Text-to-Speech
(예: Cartesia Sonic-2 streaming)
│
▼
모델 응답 오디오
각 단계가 독립적이라는 장점이 있다 — 모델 하나만 바꿔도 다른 단계는 그대로. STT를 Whisper로, LLM을 Claude로, TTS를 ElevenLabs로 자유롭게 조합 가능. Vapi/Retell이 이 조합을 지원하는 게 핵심.
단점은 누적 지연이다. 각 단계가 100ms씩만 걸려도 합쳐서 300ms, 거기에 네트워크 RTT까지 더하면 400~500ms가 쉽게 나온다.
5.2 End-to-End 멀티모달 모델
OpenAI Realtime과 일부 차세대 모델(Sesame CSM, GPT-4o의 voice 모드)은 다르다. 하나의 모델이 음성 입력을 받아 음성 출력을 직접 만든다.
사용자 발화 오디오
│
▼
[E2E Multimodal LLM]
- 음성 토큰 입력
- 텍스트/음성 토큰 출력
- WebRTC로 직접 스트리밍
│
▼
모델 응답 오디오
장점 — 잠재적으로 더 짧은 지연(중간 단계가 없음), 감정/억양이 더 자연스러움(STT가 톤 정보를 버리지 않음). 단점 — 모델 선택권 없음, 가격이 비싸짐, fine-tune이 어려움.
5.3 부수 컴포넌트들
진짜 작동하는 보이스 에이전트는 STT/LLM/TTS만으로는 안 된다. 다음 컴포넌트들이 추가된다.
VAD(Voice Activity Detection). 사용자가 말하고 있는지 침묵인지 판단. Silero VAD, WebRTC VAD가 오픈소스 표준. 더 진보된 형태가 semantic VAD — "사용자가 말을 끝냈는지"를 의미 기반으로 판단(질문이 끝났는지, 사용자가 잠시 생각 중인지).
Turn Detection. "지금이 모델이 답할 차례인가?"를 결정. 단순 VAD(침묵 300ms 감지)에서 시작해, 더 정교한 모델로 발전 중. OpenAI Realtime은 서버사이드 semantic VAD를 옵션으로 제공.
Endpointing. 발화의 끝을 정확히 찾기. "음... 그러니까..."처럼 머뭇거리는 사이의 침묵을 발화 종료로 잘못 인식하면 안 된다.
Interruption Handling. 사용자가 모델 발화 중에 말을 시작하면, (a) 모델이 현재 TTS를 즉시 중단하고, (b) 새 사용자 발화를 다시 처리하고, (c) 컨텍스트에 "사용자가 끼어들었다"를 반영.
Conversation State Management. 이전 발화들의 컨텍스트, 사용자가 한 약속, 모델이 한 약속, 변수(예: 사용자 이름, 주문 번호)를 관리. LLM의 컨텍스트 윈도우와 외부 메모리의 결합.
Tool Use / Function Calling. 대화 중 외부 API 호출. "예약을 12시 30분으로 바꿔주세요"라고 하면 모델이 updateAppointment(id, newTime) 같은 함수를 호출.
모니터링과 분석. 통화 녹음, 변환, 감정 분석, 결과 분류, 대시보드. 운영의 핵심.
5.4 스택 다이어그램 — 진짜 시스템
┌─────────────────────────┐
[전화 ─── PSTN ─── Twilio]────────▶│ Voice Agent Platform │
│ (Vapi / Retell / etc) │
└────────────┬─────────────┘
│
┌──────────────────────────────────┼──────────────────────────────────┐
│ │ │
▼ ▼ ▼
┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ STT │ │ LLM │ │ TTS │
│ Deepgram Nova-3 │──텍스트 토큰─▶│ Claude / GPT │──응답 텍스트─▶│ Cartesia Sonic-2 │
│ (streaming WSS) │ │ (streaming SSE) │ │ (streaming WSS) │
└────────▲─────────┘ └────────▲─────────┘ └────────┬─────────┘
│ │ │
│ 오디오 청크 │ 컨텍스트 │ 오디오 청크
│ │ │
┌────────┴─────────────────────────────────┴─────────────────────────────────┴────────┐
│ Conversation Orchestrator │
│ - VAD (Silero / 서버 사이드 semantic VAD) │
│ - Turn Detection │
│ - Endpointing │
│ - Interruption Handling │
│ - State Management (이전 발화 컨텍스트 + 변수) │
│ - Tool Use Router (예약 시스템 / CRM / DB) │
└────────────────────────────┬──────────────────────────────────────────────────────────┘
│
┌───────────────┼───────────────┐
│ │ │
▼ ▼ ▼
┌─────────────┐ ┌─────────────┐ ┌──────────────┐
│ Recording │ │ Analytics │ │ Compliance │
│ Storage │ │ Dashboard │ │ PII Redact │
└─────────────┘ └─────────────┘ └──────────────┘
이 그림이 보여주는 것 — 모델은 셋이지만 시스템 컴포넌트는 훨씬 많다. 그래서 Vapi/Retell이 가치 있는 거다. 처음부터 다 직접 만들면 6개월 걸린다.
6장 · 지연(latency)이라는 절대 기준 — sub-300ms 첫-바이트
6.1 왜 300ms인가
사람과 사람의 자연스러운 대화에서 응답 사이 간격은 평균 200300ms다. 이걸 넘으면 "어색한 침묵"으로 느껴지고, 700800ms를 넘으면 "이 사람이 내 말을 못 들었나"라고 생각한다.
보이스 에이전트가 자연스럽게 느껴지려면 사용자 발화 끝 → 모델 답변 첫 오디오 바이트(time-to-first-byte, TTFB) 가 300ms 안에 돌아와야 한다. 350~500ms 정도면 "약간 어색하지만 받아들일 만함", 500ms 넘어가면 "이상하다"는 평가가 시작된다.
6.2 지연 예산(latency budget)
TTFB 300ms를 맞추려면 각 단계의 지연 예산을 다음처럼 잡아야 한다.
| 단계 | 예산 | 메모 |
|---|---|---|
| 네트워크 RTT(왕복) | 50~100ms | 사용자 위치에 따라 다름 |
| Endpointing(발화 끝 감지) | 30~80ms | semantic VAD가 가장 빠름 |
| STT 최종 트랜스크립트 | 50~150ms | streaming, partial 결과는 더 빨리 |
| LLM 첫 토큰(TTFT) | 100~300ms | 모델/프롬프트 크기에 매우 의존 |
| TTS 첫 오디오 청크 | 50~200ms | Cartesia 75ms가 시장 최저 |
| 총합 | 약 300~800ms | 모든 단계 최저값 합치면 300ms, 평균이면 500ms+ |
핵심 함의 — 각 단계를 최저로 깎아도 300ms는 빠듯하다. 그래서 (a) E2E 모델로 단계 자체를 줄이거나, (b) 각 단계를 극도로 최적화하거나, (c) 사용자의 발화 끝 전부터 응답을 미리 시작(speculative response)하는 트릭이 필요하다.
6.3 최적화 트릭
1. Speculative response. 사용자가 말이 끝나기 전부터 LLM이 답변을 만들기 시작. 사용자가 말이 끝나면 그 시점까지의 답변을 그대로 출력하거나 빠르게 정정. 위험: 사용자가 말을 더 추가했을 때 답이 어색해질 수 있음.
2. Streaming everything. STT는 partial transcript를 보내고, LLM은 SSE/streaming으로 토큰을 받고, TTS는 텍스트 청크가 들어오는 대로 오디오 청크를 만든다. 어느 한 단계라도 batch면 전체가 batch가 된다.
3. 짧은 프롬프트. LLM의 TTFT는 프롬프트 길이에 거의 선형으로 비례. 시스템 프롬프트를 짧게 유지하고, 컨텍스트는 캐싱을 활용.
4. 캐시 + 워머 풀. 보이스 에이전트 인스턴스를 미리 띄워두고 대기. 첫 통화의 콜드 스타트 회피.
5. 지리적 근접성. 모델 추론 서버가 사용자 지역에 가까이 있어야 RTT가 낮다. AWS/GCP 다중 리전 배포가 필수.
6. End-to-end 모델 채택. OpenAI Realtime처럼 단계를 합쳐 중간 변환 지연을 제거.
6.4 측정과 SLA
지연은 평균이 아니라 분포로 봐야 한다. p50(중앙값) 250ms여도 p99이 2초면 1%의 통화가 어색해진다. 보이스 에이전트는 통화당 수십수백 턴이라서, p99의 어색함이 통화당 15번씩 등장한다.
운영 SLA로 흔히 쓰이는 기준.
- p50 TTFB < 300ms
- p95 TTFB < 600ms
- p99 TTFB < 1000ms
- 끼어들기 응답성 < 200ms
이 지표들은 통화 단위가 아니라 턴 단위로 측정해야 의미 있다.
7장 · 사용처 — AI 음성이 실제로 통하는 곳
7.1 콜센터 1차 응대
가장 빠르게 자리잡은 사용처. 이유는 단순하다 — 대량의 반복 통화, 정해진 워크플로우, 일반 상담원의 첫 30초가 거의 같은 질문이다.
전형적 워크플로우.
- 인바운드. 고객이 전화 → AI 에이전트가 받음 → "어떤 일로 전화 주셨나요?" → 의도 분류(주문 조회/배송/환불/기타) → 해당 영역의 컨텍스트 로딩 → 답변 또는 인간 상담원으로 핸드오프.
- 아웃바운드. AI 에이전트가 전화 → "안녕하세요, OO 의류 배송 안내 차 연락드렸습니다" → 간단한 안내 또는 약속 잡기.
성과 지표(현장 사례).
- 자체 해결률 30~60%(질문 종류와 산업에 따라)
- 평균 통화 시간 30~50% 단축
- 인간 상담원 대비 비용 70~90% 감소
- 고객 만족도(CSAT): 대부분 비슷하거나 약간 낮음(미세 감정 처리는 아직 인간이 우위)
도구: Vapi/Retell + Deepgram + Claude/GPT + ElevenLabs/Cartesia.
7.2 약속 잡기(appointment scheduling)
치과, 미용실, 작은 클리닉 같은 곳의 약속 잡기. 전형적으로 "어느 날 어느 시간이 비어 있나요?"를 묻고, 일정 시스템 조회 → 사용자에게 옵션 제시 → 확정 → SMS 확인.
이 영역은 함수 호출(tool use) 의 가장 좋은 사용처다. 모델이 getAvailableSlots(date), bookSlot(slotId, customerInfo)를 호출한다.
7.3 팟캐스트 · 오디오북 내레이션
긴 형태의 콘텐츠 생성. ElevenLabs가 가장 강하다.
워크플로우.
- 원고 작성
- 보이스 선택 또는 자기 목소리 클론
- ElevenLabs API로 전체 원고 합성
- 후처리(음악 추가, 효과음, 마스터링)
비용: 1시간 오디오북이 ElevenLabs Pro 200~$500/시간) 대비 압도적 비용 절감.
품질: 미세 감정 표현(예: 화자가 슬픈 장면)에서는 아직 인간이 우위이지만, 2025년 후반부터는 청자가 거의 구별 못 하는 수준이다.
7.4 접근성(accessibility)
시각장애인을 위한 화면 낭독, 청각장애인을 위한 실시간 자막. 이 분야의 AI 음성은 오래된 사용처이지만 품질 향상으로 사용성이 크게 좋아졌다.
- VoiceOver(macOS/iOS), TalkBack(Android)이 점점 ElevenLabs/Cartesia 수준 보이스로 교체되는 중.
- 실시간 자막: Live Caption(Pixel 폰), Otter.ai, 같은 영역에서 Whisper/Deepgram이 핵심.
7.5 보이스 클론 — 본인 인증·기억
본인의 목소리를 보존하거나, 가족의 목소리(예: 돌아가신 가족)를 재현하는 사용처. 이건 기술적으로는 30초 샘플이면 가능하지만, 윤리적·법적 회색지대가 가장 두꺼운 영역이다.
- 본인이 살아 있고 본인이 동의한 경우 → 명확히 OK
- 본인이 사망한 경우 → 가족의 동의가 있어도 법적 모호함(deceased persons rights)
- 본인이 살아 있지만 동의 안 한 경우 → 명백한 위법(딥페이크 영역)
ElevenLabs는 "Voice Verification"이라는 검증 절차를 의무화한다 — 클론하려는 목소리의 사람이 직접 ElevenLabs로 검증 문구를 녹음해야 한다.
7.6 작동하지 않는 영역
솔직하게.
- 고급 콜센터 컴플레인 처리. 분노한 고객의 감정을 누그러뜨리는 일은 아직 인간이 우위.
- 법률·의료 자문. 정확성과 책임 부담 때문에 AI 음성 단독은 위험.
- 창의적 협업(작가의 보이스 디렉터처럼). 미세 디렉팅이 필요한 영역.
- 저자원 언어. 영어/스페인어/중국어는 좋지만, 학습 데이터가 적은 언어(예: 베트남어, 스와힐리어)는 품질이 명확히 떨어진다.
- 실시간 통역. 의미 있지만 아직 지연과 정확도가 부족.
8장 · 빌드 vs 바이 — 정직한 의사결정 프레임
8.1 세 가지 길
보이스 에이전트를 만든다고 할 때 선택지는 셋이다.
Path A: 완전 SaaS. ElevenLabs Conversational AI, Air AI, 또는 Vapi/Retell의 노코드 빌더만 써서 만든다. 빌드 시간: 며칠. 비용: 분당 0.30. 통제력: 약함.
Path B: 플랫폼 + 커스텀. Vapi나 Retell을 베이스로 깔고, 함수 호출과 워크플로우를 직접 짠다. 빌드 시간: 1~4주. 비용: 분당 0.20 + 개발 인건비. 통제력: 중상.
Path C: 풀 빌드. STT/LLM/TTS를 직접 조합하고 VAD/엔드포인팅/스테이트 매니지먼트를 직접 짠다. 빌드 시간: 36개월. 비용: API 비용 + 풀타임 엔지니어 23명. 통제력: 매우 강함.
8.2 결정 트리
시작
│
├─ 통화 볼륨 < 월 1,000분?
│ └─ 예 → Path A 또는 Path B. 절대 Path C가 정당화 안 됨.
│
├─ 산업 특화 컴플라이언스가 필요한가? (HIPAA, PCI, SOC2)
│ ├─ 예 → Path B(Vapi의 엔터프라이즈 티어 + 컴플라이언스 옵션) 또는
│ │ Path C(완전 자체 배포)
│ └─ 아니오 ↓
│
├─ 통화 볼륨 > 월 100,000분?
│ └─ 예 → 비용 분석 필요. SaaS 단가 X 볼륨 vs 자체 인프라.
│ 대부분 Path B의 엔터프라이즈 계약이 최적.
│
├─ 모델 선택권이 중요한가? (예: 특정 LLM 고정 필요)
│ ├─ 예 → Path B(Vapi의 모델 모듈성)
│ └─ 아니오 → Path A(빠른 시작)
│
├─ 미세 UX 컨트롤이 절대적인가? (반응 톤, 끼어들기 정책 등)
│ ├─ 예 → Path C 검토 가능
│ └─ 아니오 → Path B
8.3 비용 비교
월 통화량별 대략의 비용 비교(스택 평균값).
| 월 통화 | Path A($0.20/분) | Path B($0.10/분) | Path C(자체) |
|---|---|---|---|
| 1,000분 | $200 | $100 | 인건비만 수천 |
| 10,000분 | $2,000 | $1,000 | 인건비 + 인프라 $300 |
| 100,000분 | $20,000 | $10,000 | 인건비 + 인프라 $2,000 |
| 1,000,000분 | $200,000 | $100,000 | 인건비 + 인프라 $20,000 |
이 표가 보여주는 함의 — 월 100만 분(연 12백만 분) 이상부터 Path C의 자체 빌드가 SaaS 대비 가격에서 의미가 생긴다. 그 미만에서는 SaaS의 운영 부담 절감이 가격 차이를 거의 항상 압도한다.
8.4 산업별 패턴
- B2B SaaS의 보이스 기능. Path A 또는 Path B. 빠른 출시가 핵심.
- 콜센터 대체. Path B의 엔터프라이즈 계약. 통화 안정성과 컴플라이언스가 핵심.
- 본인 보이스 IP가 자산인 회사(예: 광고, 미디어). Path C. 보이스 클로닝 모델을 자체 호스팅하고 데이터를 외부에 안 보냄.
- 컨슈머 앱의 보이스 기능. Path A 또는 Path B. OpenAI Realtime이나 Vapi.
- 헬스케어/금융 컴플라이언스 영역. Path B의 컴플라이언스 옵션 또는 Path C.
에필로그 — 체크리스트, 안티패턴, 다음 글 예고
AI 음성은 2024년 5월의 GPT-4o 데모에서 "와, 자연스럽다"의 충격으로 시작해, 2026년 5월의 "sub-300ms 첫-바이트로 보이스 에이전트가 진짜 돈다"의 성숙으로 갔다. 음악·이미지·비디오와 같은 패턴이지만, 음성은 양방향이고 지연이 절대적이라는 두 가지 추가 제약이 카테고리를 더 흥미롭게 만들었다.
2026년 5월 현재의 결론은 단순하다. TTS 품질만 보면 어느 메이저 모델을 써도 충분히 좋다. 진짜 차별점은 (a) 첫-바이트 지연, (b) 보이스 에이전트 스택 전체의 안정성, (c) 컴플라이언스와 동의 처리, (d) 가격 - 볼륨 균형이다. 그래서 모델 단독이 아니라 스택 전체를 보는 시야가 필요하다.
도구 선택 체크리스트
- TTS만 필요한가, 보이스 에이전트가 필요한가? — TTS만이면 ElevenLabs/Cartesia, 에이전트면 Vapi/Retell 또는 OpenAI Realtime.
- 첫-바이트 지연이 절대적인가? — Cartesia Sonic-2 또는 OpenAI Realtime + 캐싱 + 워머 풀.
- 모델 선택권이 필요한가? — Vapi가 가장 자유. ElevenLabs Conversational AI는 자사 보이스 우선.
- 언어가 영어/일본어/한국어 외인가? — 도구별 언어 지원과 자연스러움 직접 평가 필수.
- 통화 볼륨은 월 얼마인가? — 100만 분 미만은 SaaS 거의 항상 이김.
- 컴플라이언스가 필요한가? — HIPAA/PCI/SOC2면 엔터프라이즈 계약 또는 자체 호스팅.
- 보이스 클로닝이 필요한가? — ElevenLabs Voice Cloning 또는 Resemble AI, 단 동의 검증 의무.
- STT 정확도가 절대적인가? — 도메인 데이터로 Deepgram vs AssemblyAI vs Whisper 직접 비교.
- 함수 호출(tool use)이 필요한가? — Vapi, OpenAI Realtime, ElevenLabs Conversational AI 모두 지원.
- 분석/녹음/대시보드가 필요한가? — Vapi/Retell이 거의 표준 제공. 직접 빌드는 큰 부담.
안티패턴
| 안티패턴 | 왜 나쁜가 | 대신 |
|---|---|---|
| 모델 품질만 보고 도구 선택 | 스택 전체의 지연이 결정 요인 | 첫-바이트 지연 + 안정성도 평가 |
| 첫 도구로 모델 락인 | 모델은 6개월마다 더 좋아짐 | Vapi처럼 모델 모듈성 있는 플랫폼 |
| 빌드 시 batch API로 시작 | streaming 안 되면 보이스 에이전트가 안 됨 | 처음부터 streaming 베이스 |
| 단순 침묵 VAD에 의존 | "음..." 사이의 침묵을 발화 끝으로 오인 | semantic VAD 또는 endpointing |
| 끼어들기 처리 안 함 | 사용자가 모델 발화 중 말 시작하면 어색 | TTS 즉시 stop + 컨텍스트 업데이트 |
| 모든 토큰을 풀 컨텍스트로 | LLM TTFT가 폭증, 지연 무너짐 | 시스템 프롬프트 짧게, 캐싱 활용 |
| 보이스 클로닝 동의 안 확인 | 법적 위험, 평판 위험 | 검증 워크플로우 의무화 |
| 한 곳에 모든 데이터 보냄 | PII 노출 위험 | 자체 호스팅 옵션 또는 PII redact |
| 평균 지연만 보고 SLA 통과 판단 | p99의 어색함이 통화당 여러 번 등장 | p50/p95/p99 모두 측정 |
| 풀빌드를 너무 빨리 결정 | 운영 부담이 보통 빌드 비용보다 큼 | 월 100만 분 넘기 전에는 SaaS |
다음 글 예고
생성형 미디어 4부작은 여기서 닫힌다 — 음악, 이미지, 비디오, 음성. 다음 글은 이 4개를 함께 묶는 생성형 미디어 워크플로우다. 텍스트 한 줄에서 음악 + 이미지 + 영상 + 보이스가 같이 만들어지는 통합 파이프라인. Runway의 Gen-4, Veo 3, Sora 3가 자체적으로 보이스를 만드는 방향과, 별도 파이프라인을 조립하는 방향 둘을 비교한다. AI 콘텐츠 생성의 새 표준이 될 통합 흐름과, 각 단계의 모델 선택을 어떻게 매트릭스로 묶는지 — 이번 4부작의 결산편이 될 것이다.
참고 / References
- ElevenLabs 공식
- ElevenLabs Conversational AI
- ElevenLabs Voice Design v2
- ElevenLabs Voice Cloning
- ElevenLabs Series C 발표 — TechCrunch
- Cartesia 공식
- Cartesia Sonic-2 발표
- Cartesia Series A 발표
- OpenAI Realtime API 공식
- OpenAI Realtime API 발표 — TechCrunch
- GPT-Realtime GA 발표 — OpenAI
- Scarlett Johansson Sky 음성 논쟁 — NPR
- Sesame AI 공식
- Sesame CSM 발표 — VentureBeat
- Deepgram 공식
- Deepgram Nova-3 발표
- Deepgram Series D 발표
- AssemblyAI 공식
- AssemblyAI Universal-2 발표
- OpenAI Whisper GitHub
- Whisper Large V3 Turbo 발표
- WhisperX GitHub
- Faster-Whisper GitHub
- Vapi 공식
- Vapi Series B 발표 — TechCrunch
- Retell AI 공식
- Bland AI 공식
- Hume AI 공식
- Hume EVI 4 발표
- Microsoft VALL-E 발표
- Meta Voicebox 발표
- Mamba 아키텍처 논문
- Silero VAD GitHub
- WebRTC for Voice AI — Cartesia 가이드
- Voice Agent Latency Best Practices — Vapi 문서
- Twilio Voice AI 통합
- Azure Speech Service
- Google Cloud TTS Chirp 3
- AWS Polly Generative Voices
AI Voice 2026 — ElevenLabs, OpenAI Realtime, Cartesia, Vapi, Sesame, Deepgram, and the State of the Voice Agent Stack
Prologue — The Final Piece of the Generative-Media Quartet
Over the past several weeks we've gone through generative media one category at a time. Music (Suno, Udio, Lyria, ElevenMusic). Images (FLUX, Imagen, Midjourney, Ideogram, Recraft, Firefly). Video (Sora, Veo, Runway, Pika, Kling, Luma, Hailuo). The pattern was the same every time — the stunning 2024 demos, the rough 2025 betas, the mature 2026 tools, and the hard problems that still won't go away.
Today is the last piece — voice. And voice differs from the other three on two decisive points.
First, voice is bidirectional. Music is fire-and-forget, an image is fire-and-forget, a video is fire-and-forget. But voice means listening to a person speak (STT), figuring out what to say back (LLM), and returning it as natural speech (TTS). Those three stages get bundled together as the unit of conversation. So the voice category is not a TTS-model bake-off — it's the whole voice-agent stack.
Second, latency is absolute in voice. With music you wait 30 seconds; with an image, 10 seconds; with a video, a minute or more. But in human-to-human conversation, silence longer than 800 milliseconds starts to feel awkward, and beyond 1.5 seconds the other person assumes you've stopped. So a voice agent has to return its first audio byte within roughly 300 milliseconds of the user finishing their turn. That's a dimension nobody had to worry about in music, images, or video.
Those two differences make the 2026 voice category interesting. Model quality alone isn't enough. You also have to design the transport layer (typically WebRTC), turn detection, interruption handling, endpointing, cache warming, and warm pools — the entire system layer in lockstep with the models.
The 2026 lineup, as of May.
- ElevenLabs has cemented its position as the category leader in consumer TTS and B2B voice cloning, and is now climbing up the stack with Conversational AI as a voice-agent product.
- OpenAI Realtime API delivers genuine voice-in voice-out over WebRTC on top of GPT-Realtime, and reshaped the category by doing so.
- Cartesia's Sonic-2 holds the title of the fastest TTS at 75ms time-to-first-byte (vendor figure, May 2026).
- Vapi owns the orchestration layer for voice agents that lets you mix and match STT/LLM/TTS, and raised a $64M Series B last June.
- Sesame's CSM (Conversational Speech Model) opened a new axis — "human-like personality."
- On the STT side, Deepgram Nova-3 and AssemblyAI Universal-2 are the two-way leaders, with Whisper Large V3 Turbo and WhisperX as the open-source baselines.
- Hume EVI 4 focuses on emotional recognition and generation, Bland specializes in phone-call automation, and Retell is another B2B voice-agent platform in the same neighborhood as Vapi.
This piece sorts that landscape. Who fits which job, how a voice-agent stack actually composes, how you hit the sub-300ms first-byte target, where the build/buy line sits, and what voice-cloning consent looks like in practice — without the breathless "AI is replacing call centers" or "AI voice is dangerous" framing on either side.
The one-liner: 2026 AI voice isn't a story of "TTS got better." It's the story of "the whole stack can now run end-to-end under 300ms." Understand that, and tool selection gets easy.
1. How the Category Was Born — What Happened in 2023~2024
1.1 Three Lineages of Speech Synthesis
AI voice synthesis is actually a 30-year-old field. Early on it was concatenative TTS (gluing recorded fragments), then parametric TTS (predicting acoustic parameters with statistical models), and from 2017 onward, neural TTS (WaveNet, Tacotron). The direct ancestors of what we use today are two threads from 2020 onward.
Thread 1: multi-speaker neural TTS. Take text and a speaker embedding, synthesize in any target voice. ElevenLabs started in this lineage when it was founded in November 2022.
Thread 2: autoregressive codec models. Apply text-LLM ideas to audio directly. Neural audio codecs (EnCodec, SoundStream) compress audio into tokens; a transformer then learns the sequence. Microsoft's VALL-E (January 2023), Meta's Voicebox (June 2023), and OpenAI's Whisper (STT, September 2022) all live in this lineage.
By late 2023 and early 2024 the two threads started fusing. ElevenLabs went hybrid autoregressive plus diffusion. Microsoft shipped VALL-E 2. OpenAI dropped audio tokens directly inside a multimodal LLM (GPT-4o).
1.2 The Inflection Point — The May GPT-4o Demo
In May 2024, OpenAI unveiled GPT-4o with a voice-in voice-out demo. The user spoke, the model heard, the same model answered with speech. Interruptions worked naturally, emotion came through, the thing even sang. The entire category got redrawn that day.
But shipping took longer than the demo suggested — July, then the October Realtime API (beta), then the August 2025 GA of the GPT-Realtime model. That interval gave Anthropic, Google, and Cartesia time to ship their own answers.
1.3 The Voice-Cloning Bombshell — Sky and Scarlett Johansson
On May 14, 2024, OpenAI launched "Sky" as one of the GPT-4o voices. Actress Scarlett Johansson had previously declined OpenAI's offer to use her voice and went public when Sky landed sounding uncannily like her. OpenAI pulled Sky immediately.
The signal to the whole industry was loud and clear. Voice-cloning consent isn't a checkbox in a ToS — it's the legal and ethical foundation of the whole product. Every major voice model since has required some kind of verification that you actually have the right to clone the voice you're cloning.
1.4 Why Did Things Suddenly Get Good
The same three variables as in every other generative-media category.
- Data. Licensed multi-speaker datasets (LibriTTS, GigaSpeech, Common Voice) got richer, and the major labs license tens of thousands of hours of speech data on top.
- Compute. H100/H200 clusters made it feasible to train multi-billion-parameter audio models in reasonable wallclock time.
- Architecture. Neural audio codec plus transformer plus multi-speaker embedding plus diffusion decoder is now the standard recipe.
What really mattered in 2024~2025 was that low-latency streaming became table stakes. Previously you sent the full text and got back 30 seconds of audio in one batch. Now you stream text tokens in and audio chunks out. That single change is what made voice agents real.
2. TTS Leaders — ElevenLabs, Cartesia, OpenAI, Sesame
2.1 ElevenLabs — The Category Leader
As of May 2026, the text-to-speech product with the most users is ElevenLabs. Founded November 2022, Series B in January 2024 (180M at $3.3B), and through 2026 has been expanding into a multimodal voice company.
The product lines.
- TTS API. Multilingual v2 is the baseline, Turbo v2.5 is the low-latency tier, Flash v2.5 is the faster baseline. The v3 family rolled out in beta in May 2026.
- Voice Design v2. Design a new voice from a text prompt ("warm, mid-30s female narrator, slight British accent"). v2 update landed January 2026.
- Voice Cloning. Instant (30-second sample, fast clone) and Professional (30+ minute sample, high-quality clone).
- Conversational AI. Beta in November 2024, GA in January 2025. STT/LLM/TTS bundled into a voice-agent builder. The product line that took ElevenLabs up the stack.
- ElevenMusic. Music side (covered in the previous post).
- ElevenStudio. Dubbing and translation, smoothly relocating a video's voice into another language.
Quality? Thirty-two languages including English, Japanese, Korean, Spanish, French, German. Korean voice quality got visibly better through 2025 — but fine emotional control in Korean (sarcastic tones, restrained sadness) is still weaker than in English.
Pricing (May 2026).
- Free: 10,000 credits/month
- Starter: $5/month, 30,000 credits
- Creator: $22/month, 100,000 credits, commercial use
- Pro: $99/month, 500,000 credits
- Scale: $330/month and up
- Enterprise: custom
2.2 Cartesia — The Low-Latency Champion
Cartesia was founded in February 2024. Co-founders Karan Goel and Albert Gu did state-space-model research at Stanford and co-authored Mamba. 64M Series A in March 2025 (at $300M), and a follow-on Series B in January 2026.
The flagship is the Sonic family — Sonic-1 (2024) and Sonic-2 (September 2025). Sonic-2's time-to-first-byte is 75ms (vendor figure, May 2026), the lowest on the market. This is the model that made the sub-300ms first-byte target for voice agents realistic for the first time.
Quality is competitive with ElevenLabs in subtle ways. On plain English sentences they're roughly equal. On expressive voices (dramatic narration), ElevenLabs edges ahead. On low-latency voice-agent scenarios, Cartesia is decisively ahead.
Pricing (May 2026).
- Free: 50,000 chars/month
- Creator: $5/month, 100,000 chars/month
- Pro: $49/month, 1,000,000 chars/month
- Scale: $299/month
- Enterprise: custom
2.3 OpenAI Realtime — The Move That Reshaped the Category
OpenAI's Realtime API launched in beta in October 2024 and stabilized in August 2025 alongside the GPT-Realtime model's GA. By adopting WebRTC as a standard transport, it changed what "voice agent" meant.
Key properties.
- Voice-in voice-out. Not a three-stage STT/LLM/TTS pipeline — a single multimodal model handling all three. Lower theoretical latency.
- WebRTC. One line of browser code to connect. UDP-based, so it's much more tolerant of packet loss than WebSocket.
- Function calling (tool use). The model can invoke external functions mid-conversation. A baseline requirement for voice agents.
- VAD (Voice Activity Detection). The model itself decides whether the user has finished speaking. Server-side semantic VAD is the default.
- Interruption. If the user starts speaking while the model is speaking, the model stops immediately.
Pricing (May 2026, GPT-Realtime).
- Audio input: $40 per 1M tokens
- Audio output: $80 per 1M tokens
- Cached input: $2.5 per 1M tokens
The catch with OpenAI Realtime is that you have almost no model choice — you're locked to GPT-Realtime. If you want to run Claude or Gemini, you fall back to the traditional STT plus text-LLM plus TTS pipeline.
2.4 Sesame — A Conversational Model With Personality
Sesame AI is a newer faction that surfaced publicly in early 2025. Founder Brendan Iribe was a co-founder and CEO of Oculus VR. That background gives them a "voice and device fused together" vision that feels very specific.
The product is CSM (Conversational Speech Model). When the demo went public in February 2025, the internet genuinely shook — most natural, most personality-laden, most human-feeling voice anyone had tried. The model lands a joke, hesitates briefly, switches tone abruptly — the small human details are there.
The technology under CSM.
- Speech generated by an end-to-end multimodal LLM. Unlike conventional TTS, the LLM emits audio tokens directly.
- Personality-based training. Started with two characters ("Maya" and "Miles"), each with its own speech style baked into training data.
- Beta as of May 2026. Open API access is still limited; mostly demos and selective partner integrations.
The implication is big — voice is now competing on "personality and expressiveness," not just "technical fidelity."
2.5 The Rest
- Azure Speech. Microsoft's enterprise TTS. Widest voice catalog (140+ languages, 600+ voices) and battle-tested reliability. Naturalness is half a step behind ElevenLabs/Cartesia.
- Google Cloud TTS. Vertex AI integration. Chirp 3 HD voices closed the quality gap meaningfully.
- AWS Polly. Amazon's classic TTS, now with Generative voice options. Pricing and SLA are attractive.
- Play.ht. Consumer side, strong with podcasters and YouTubers.
- Resemble AI. Voice-cloning specialist, B2B.
- Coqui XTTS. Open-source TTS. The company itself shut down in 2024, but the weights live on GitHub.
2.6 TTS Comparison
| Tool | Time-to-First-Byte | Naturalness | Voice Variety | Korean | Price Tier | Primary Use |
|---|---|---|---|---|---|---|
| ElevenLabs v3 | about 200~400ms | very high | very wide | good | mid-high | content, B2B agents |
| Cartesia Sonic-2 | about 75ms | high | wide | fair | mid | low-latency agents |
| OpenAI Realtime | about 300~500ms E2E | high | limited | good | high | multimodal agents |
| Sesame CSM | not disclosed | very high (personality) | character-bound | unrated | beta | next-gen conversation |
| Azure Speech | about 200~300ms | fair to high | very wide | good | mid | enterprise |
| Google TTS Chirp 3 | about 200~400ms | high | wide | good | mid | GCP-integrated |
| AWS Polly Generative | about 300~500ms | fair to high | wide | fair | low to mid | AWS-integrated |
3. STT Leaders — Deepgram, AssemblyAI, Whisper
3.1 Deepgram Nova-3
Deepgram, founded 2015, is one of the oldest pure-play STT shops. Series C in June 2024 (100M), additional round in January 2026.
The current flagship is Nova-3 (GA June 2025). Versus Nova-2 it gained ground on accuracy, latency, and price simultaneously.
- WER (Word Error Rate). English 7.7% (Nova-2: 8.4%), multilingual average 12.3% (Nova-2: 15.1%). Measured on 2026 standard benchmarks (CommonVoice, Earnings-22).
- Latency. Streaming first-word about 250ms; batch processes a one-hour file in roughly 30 seconds.
- Multilingual. 30+ languages including Korean, with code-switching handling (two languages in one utterance).
- Diarization. Speaker separation noticeably better than Nova-2.
- Smart Format. Auto-formats numbers, currency, emails, phone numbers.
Pricing (May 2026).
- Pre-recorded: 0.26/hour)
- Streaming: $0.0058/min
- Enhanced (higher-tier models): additional cost
Deepgram's strength is the low-latency streaming + price + B2B reliability triangle. Vapi, Retell, Bland and similar platforms default to Deepgram for STT.
3.2 AssemblyAI Universal-2
AssemblyAI was founded in 2017, a Y Combinator alum. Deepgram's most direct competitor.
The flagship is Universal-2 (GA in late 2025). Visibly more accurate than Universal-1, and notably strong on "formatting and readability."
- WER. English 6.6%, multilingual average 11.8%. Slightly more accurate than Deepgram Nova-3 on some benchmarks.
- Timestamps. Word-level timestamps and speaker diarization are extremely precise.
- Language detection plus code-switching. Automatic.
- Speaker diarization. One of the most accurate in the market.
- Extras. Sentiment analysis, entity detection, topic detection, summarization, PII redaction all in the same API.
Pricing (May 2026).
- Best model: $0.37/hour (batch)
- Universal-2: $0.27/hour
- Streaming: $0.47/hour
AssemblyAI's edge is post-processing integration (summaries, sentiment, entities). Call-center analytics and meeting notes are the sweet spots.
3.3 Whisper and WhisperX — The Open-Source Baselines
OpenAI Whisper landed as open source in September 2022 — multilingual STT, MIT licensed. It's still the standard for "self-host to save money" or "don't send data out."
Whisper Large V3 Turbo (October 2024) — roughly 8x faster than V3 at similar quality. The strong open-source baseline.
WhisperX (2023~2025) — adds forced alignment, voice activity detection, and speaker diarization on top of Whisper. The de facto standard when you need precise word-level timestamps.
Faster-Whisper — CTranslate2-backed optimization. About 4x faster than vanilla Whisper on GPU.
Performance (English LibriSpeech test-clean).
- Whisper Large V3 Turbo: WER about 3.1%
- Faster-Whisper Large V3: WER about 3.4%
- WhisperX (timestamp accuracy): very high
Open-source Whisper's limits are (a) no true real-time streaming (chunked workarounds only), (b) speaker diarization requires a separate model, and (c) you carry the operational burden yourself.
3.4 STT Comparison
| Model | WER (English) | WER (multilingual) | Latency (streaming) | Price ($/hour) | License | Korean |
|---|---|---|---|---|---|---|
| Deepgram Nova-3 | 7.7% | 12.3% | about 250ms | 0.26 | commercial SaaS | good |
| AssemblyAI Universal-2 | 6.6% | 11.8% | about 400ms | 0.27 | commercial SaaS | good |
| Whisper Large V3 Turbo | 3.1% | 7~12% (varies) | not supported (chunked workaround) | $0 self-host | MIT | good |
| WhisperX | 3.1% (Whisper base) | same | not supported | $0 | BSD-4 | good |
| Faster-Whisper | 3.4% | same | not supported | $0 | MIT | good |
| Azure Speech STT | about 8% | about 13% | about 300ms | 1.0 | enterprise | good |
| Google STT Chirp 3 | about 7% | about 12% | about 300ms | about 0.4 | enterprise | good |
Caveat: WER numbers are extremely sensitive to benchmark and domain. On noisy call-center audio, Whisper might WER far worse than the SaaS leaders — or far better. Measure on your own domain data.
4. Voice-Agent Platforms — Vapi, Retell, Bland, Hume
4.1 Vapi — The Platform Layer
Vapi was founded in 2023. 64M Series B in June 2025 (at $600M). One of the fastest-growing companies in the voice-agent category.
Vapi's positioning is "the orchestration layer for STT/LLM/TTS." They don't build the models — they let you compose voice agents from the best of each (Deepgram, OpenAI, ElevenLabs, Cartesia, etc.).
Key features.
- Modular stack. STT (Deepgram/AssemblyAI), LLM (OpenAI/Anthropic/Google), TTS (ElevenLabs/Cartesia/PlayHT), all swappable.
- Turn detection. Semantic-VAD-based decision about whether the user has finished speaking.
- Interruption handling. When the user starts talking mid-response, the model stops immediately.
- Function calling. Outbound API calls during a conversation (booking systems, CRM lookups).
- Phone integration. Twilio/Vonage/Telnyx for actual PSTN numbers.
- Recording plus analytics. All calls recorded; dashboard with search, filtering, analysis.
Pricing (May 2026).
- Free tier: 10 minutes/month
- Pay-as-you-go: 0.20/min depending on stack choice
- Enterprise: custom
Vapi's selling point is "fast to build plus no model lock-in." You can spin up an MVP in a weekend and change models with a config flag.
4.2 Retell — Vapi's Closest Rival
Also founded 2023, also a B2B voice-agent platform. Very similar positioning to Vapi, but more emphasis on enterprise call reliability.
- High-quality call infrastructure. Deeper Twilio integration, stronger call-stability SLAs.
- Agent Studio. A more polished no-code/low-code builder.
- Analytics. Auto-classification of call outcomes, per-call analysis.
Pricing is in the same neighborhood as Vapi (0.18/min).
4.3 Bland — Phone-Call Automation Specialist
Bland AI focuses on a specific use case — "an AI that talks to people on the phone." More specialized for inbound and outbound call-center automation than general voice agents.
- High concurrency. Thousands of simultaneous calls.
- Workflow builder. Branching logic, variable extraction, CRM integration.
- Voice cloning. Clone a voice that matches the sales tone of the company.
- Compliance. TCPA (U.S. telemarketing regulation) tooling.
Target markets: sales callbacks, appointment setting, customer surveys, collections.
4.4 Hume EVI — Emotional Voice
Hume AI sits in a different camp. They start from "voice carries emotion" as a thesis. EVI (Empathic Voice Interface) is specifically designed to recognize the emotional tone in a user's voice and to put emotion into the response.
- EVI 4 (early 2026). Improved tone-classification accuracy and response-emotion precision.
- Use cases. Mental health bots, coaching, care calls.
- Limits. Whether the model's emotion classification matches lived user experience is still being validated in the wild.
4.5 Voice-Agent Platform Comparison
| Platform | Positioning | Primary Use | Model Choice | Price ($/min) | Differentiator |
|---|---|---|---|---|---|
| Vapi | orchestration layer | any voice agent | very wide (every major) | 0.05~0.20 | fast build, no lock-in |
| Retell | enterprise calls | call center, B2B sales | wide | 0.07~0.18 | call stability, Studio |
| Bland | phone automation | sales, scheduling, surveys | own plus some | 0.10~0.15 | high concurrency |
| ElevenLabs Conversational AI | integrated stack | content/B2B agents | ElevenLabs-first | session-based | bundled voices |
| OpenAI Realtime | direct API | bring-your-own build | GPT-Realtime locked | token-based | shortest E2E latency |
| Hume EVI | emotion-aware | healthcare, care | EVI models | custom | tone analysis |
5. The Voice-Agent Stack — How One Call Actually Flows
5.1 The Traditional Three-Stage Pipeline
Most voice agents chain three models.
user speech audio
│
▼
[STT] Speech-to-Text
(e.g., Deepgram Nova-3 streaming)
│
▼ text tokens
[LLM] Large Language Model
(e.g., GPT-5, Claude Opus 4.7, Gemini 2.5)
│
▼ response text
[TTS] Text-to-Speech
(e.g., Cartesia Sonic-2 streaming)
│
▼
model response audio
The big win of independent stages is interchangeability — swap any model without touching the others. Whisper for STT, Claude for LLM, ElevenLabs for TTS, in any combination. Vapi/Retell exist to manage that combinatorial space.
The big downside is cumulative latency. Even 100ms per stage adds up to 300ms before network RTT, and 400~500ms total is easy to hit.
5.2 End-to-End Multimodal Models
OpenAI Realtime and some next-gen models (Sesame CSM, GPT-4o's voice mode) work differently. A single model takes speech in and emits speech directly.
user speech audio
│
▼
[E2E Multimodal LLM]
- speech tokens in
- text/speech tokens out
- streamed over WebRTC
│
▼
model response audio
Pros — potentially shorter latency (no intermediate conversions), more natural emotion and intonation (STT doesn't throw away tone). Cons — no model choice, higher pricing, harder to fine-tune.
5.3 The Supporting Components
A working voice agent isn't STT/LLM/TTS in isolation. These extras are mandatory.
VAD (Voice Activity Detection). Is the user speaking or silent right now? Silero VAD and WebRTC VAD are the open-source standards. A more sophisticated form is semantic VAD — "has the user finished speaking?" decided semantically (did the question end, is the user still thinking out loud).
Turn detection. Is it the model's turn to speak now? Starts at simple VAD (silence for 300ms) and evolves into more nuanced models. OpenAI Realtime offers server-side semantic VAD as an option.
Endpointing. Find the precise end of an utterance. Pauses in the middle of "uh... so..." must not be mistaken for the end of the turn.
Interruption handling. When the user starts speaking mid-response, (a) stop the current TTS immediately, (b) reprocess the new user utterance, and (c) reflect "the user interrupted" in conversation state.
Conversation state management. Past turns, user-made promises, model-made promises, variables (customer name, order number) — all tracked. The LLM's context window plus external memory.
Tool use / function calling. Outbound API calls during the conversation. "Move my appointment to 12:30" should trigger updateAppointment(id, newTime).
Monitoring and analytics. Call recording, transcription, sentiment analysis, outcome categorization, dashboards. The operational backbone.
5.4 The Real System Diagram
┌─────────────────────────┐
[phone ─── PSTN ─── Twilio]───────▶│ Voice Agent Platform │
│ (Vapi / Retell / etc) │
└────────────┬─────────────┘
│
┌──────────────────────────────────┼──────────────────────────────────┐
│ │ │
▼ ▼ ▼
┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ STT │ │ LLM │ │ TTS │
│ Deepgram Nova-3 │──text tokens─▶│ Claude / GPT │─response text▶│ Cartesia Sonic-2 │
│ (streaming WSS) │ │ (streaming SSE) │ │ (streaming WSS) │
└────────▲─────────┘ └────────▲─────────┘ └────────┬─────────┘
│ │ │
│ audio chunks │ context │ audio chunks
│ │ │
┌────────┴─────────────────────────────────┴─────────────────────────────────┴────────┐
│ Conversation Orchestrator │
│ - VAD (Silero / server-side semantic VAD) │
│ - Turn detection │
│ - Endpointing │
│ - Interruption handling │
│ - State management (past turns plus variables) │
│ - Tool-use router (booking system / CRM / DB) │
└────────────────────────────┬──────────────────────────────────────────────────────────┘
│
┌───────────────┼───────────────┐
│ │ │
▼ ▼ ▼
┌─────────────┐ ┌─────────────┐ ┌──────────────┐
│ Recording │ │ Analytics │ │ Compliance │
│ Storage │ │ Dashboard │ │ PII Redact │
└─────────────┘ └─────────────┘ └──────────────┘
What this shows — three models, but many more system components. That's why Vapi and Retell create value. Building all of this from scratch is a six-month project.
6. Latency as the Absolute Metric — The Sub-300ms Target
6.1 Why 300ms
In natural human conversation, the gap between turns averages 200300 milliseconds. Beyond that it starts to feel like awkward silence; beyond 700800ms the listener wonders if you heard them.
For a voice agent to feel natural, time-to-first-byte (TTFB) — user finishes speaking to model's first audio byte — has to be under 300ms. 350~500ms is "a little awkward but acceptable," and beyond 500ms people start describing the experience as weird.
6.2 The Latency Budget
To hit TTFB 300ms, you have to budget each stage like this.
| Stage | Budget | Notes |
|---|---|---|
| Network RTT (round trip) | 50~100ms | depends on user location |
| Endpointing (end-of-utterance detection) | 30~80ms | semantic VAD is fastest |
| STT final transcript | 50~150ms | streaming partials arrive earlier |
| LLM time-to-first-token | 100~300ms | strongly dependent on model and prompt size |
| TTS first audio chunk | 50~200ms | Cartesia's 75ms is the market floor |
| Total | about 300~800ms | floor adds to 300ms, average is 500ms+ |
The takeaway — even at the floor of every stage, 300ms is tight. So you have to (a) collapse stages with an E2E model, (b) crush each stage to its floor, or (c) start responding speculatively before the user finishes.
6.3 Optimization Tricks
1. Speculative response. The LLM starts drafting before the user finishes. When the user does finish, you either emit what's drafted or quickly correct it. Risk: if the user adds more, the draft becomes awkward.
2. Stream everything. STT emits partial transcripts; LLM streams tokens; TTS makes audio chunks as text chunks arrive. Batch in any one stage means batch end-to-end.
3. Short prompts. LLM TTFT scales almost linearly with prompt length. Keep system prompts tight and rely on prompt caching for context.
4. Caches and warm pools. Pre-spin voice-agent instances and keep them warm. Avoid the cold start on the first call.
5. Geographic proximity. Inference servers must be close to the user. Multi-region deployment is non-negotiable.
6. End-to-end models. OpenAI Realtime collapses stages and eliminates intermediate transformation delays.
6.4 Measurement and SLAs
Latency is a distribution, not an average. p50 of 250ms with p99 of 2 seconds means 1% of turns feel awkward. Calls have dozens to hundreds of turns, so p99 awkwardness shows up multiple times per call.
Common operational SLAs.
- p50 TTFB < 300ms
- p95 TTFB < 600ms
- p99 TTFB < 1000ms
- Interruption responsiveness < 200ms
These metrics need to be measured per turn, not per call, to be meaningful.
7. Use Cases — Where AI Voice Actually Works
7.1 First-Line Call-Center Triage
The use case that landed fastest. The reason is simple — high-volume repetitive calls, defined workflows, and the first 30 seconds of almost every call asks the same questions.
A typical workflow.
- Inbound. Customer calls → AI agent answers → "What can I help you with?" → intent classification (order status / shipping / refund / other) → context load → resolution or handoff to a human.
- Outbound. AI agent calls → "Hi, this is XYZ Apparel calling about your shipment" → simple update or appointment setting.
Field results.
- Self-resolution rate 30~60% (varies by industry and question type)
- 30~50% reduction in average call duration
- 70~90% cost reduction versus human agents
- CSAT: usually flat or slightly down (fine emotional handling still favors humans)
Stack: Vapi/Retell + Deepgram + Claude/GPT + ElevenLabs/Cartesia.
7.2 Appointment Scheduling
Dental offices, salons, small clinics. The typical workflow is "what day/time works for you?" → check the scheduling system → present options → confirm → SMS confirmation.
This is the best use case for tool use — the model calls getAvailableSlots(date), then bookSlot(slotId, customerInfo).
7.3 Podcasts and Audiobook Narration
Long-form content generation. ElevenLabs is strongest here.
The workflow.
- Write the script
- Pick a voice or clone your own
- Synthesize the whole script via the ElevenLabs API
- Post-process (music, SFX, mastering)
Cost: a one-hour audiobook fits comfortably in one month's ElevenLabs Pro 200~$500/hour), the savings are dramatic.
Quality: humans still win on fine emotional moments (a grieving scene), but by late 2025 most listeners couldn't tell the difference in mainstream content.
7.4 Accessibility
Screen readers for blind users, real-time captions for deaf users. AI voice has been here for a long time, but quality has improved usability dramatically.
- VoiceOver (macOS/iOS) and TalkBack (Android) are gradually adopting ElevenLabs/Cartesia-grade voices.
- Live Caption (Pixel phones), Otter.ai, and similar live-captioning products lean heavily on Whisper/Deepgram.
7.5 Voice Cloning — Authentication and Memory
Preserving your own voice, or recreating a family member's voice (a deceased relative, for instance). Technically a 30-second sample is enough — but this is also the area with the thickest ethical and legal gray zone.
- The person is alive and consenting → clearly OK
- The person is deceased, with family consent → legally ambiguous (depends on jurisdiction's rights of the deceased)
- The person is alive but didn't consent → obviously unlawful (the deepfake zone)
ElevenLabs requires "Voice Verification" — the person whose voice is being cloned must record a verification phrase directly with ElevenLabs.
7.6 Where It Doesn't Work
Honestly.
- Complex call-center complaint handling. Calming down an angry customer still favors humans.
- Legal or medical advice. Accuracy and liability rule out unsupervised AI voice.
- Creative collaboration (like a voice director with an actor). Fine direction is still very human.
- Low-resource languages. English, Spanish, Chinese are great. Languages with thin training data (Vietnamese, Swahili) lag noticeably.
- Real-time interpretation. Useful but still behind on both latency and accuracy.
8. Build vs. Buy — An Honest Decision Frame
8.1 Three Paths
When you set out to build a voice agent, you have three paths.
Path A: Pure SaaS. Use ElevenLabs Conversational AI, Air AI, or just the no-code builders inside Vapi/Retell. Build time: days. Cost: 0.30/min. Control: low.
Path B: Platform plus custom. Vapi or Retell as a base; you write function calls and workflow logic. Build time: 1~4 weeks. Cost: 0.20/min plus engineering time. Control: medium-high.
Path C: Full build. Compose STT/LLM/TTS yourself and write VAD, endpointing, and state management from scratch. Build time: 36 months. Cost: API bills plus 23 full-time engineers. Control: very high.
8.2 Decision Tree
start
│
├─ Call volume below 1,000 min/month?
│ └─ yes → Path A or Path B. Path C is never justified here.
│
├─ Industry-specific compliance needed? (HIPAA, PCI, SOC2)
│ ├─ yes → Path B (Vapi enterprise tier plus compliance add-ons) or
│ │ Path C (full self-host)
│ └─ no ↓
│
├─ Call volume above 100,000 min/month?
│ └─ yes → Run the cost math. SaaS unit cost times volume vs. self-host.
│ Usually a Path B enterprise contract is optimal.
│
├─ Does model choice matter? (e.g., a specific LLM is required)
│ ├─ yes → Path B (Vapi's modular models)
│ └─ no → Path A (fastest start)
│
├─ Is fine UX control absolutely necessary? (response tone, interruption policy)
│ ├─ yes → Path C is worth considering
│ └─ no → Path B
8.3 Cost Comparison
Rough monthly cost by volume (average stack pricing).
| Monthly minutes | Path A ($0.20/min) | Path B ($0.10/min) | Path C (self-host) |
|---|---|---|---|
| 1,000 | $200 | $100 | thousands in salary alone |
| 10,000 | $2,000 | $1,000 | salary plus about $300 infra |
| 100,000 | $20,000 | $10,000 | salary plus about $2,000 infra |
| 1,000,000 | $200,000 | $100,000 | salary plus about $20,000 infra |
The implication — Path C only starts to make pricing sense above about 1M minutes/month (12M minutes/year). Below that, the operational burden of SaaS savings almost always wins.
8.4 Industry Patterns
- A voice feature in a B2B SaaS. Path A or Path B. Speed-to-launch dominates.
- Call-center replacement. Path B enterprise contracts. Call reliability and compliance dominate.
- Companies where the voice IP is itself an asset (advertising, media). Path C. Self-host the cloning model, keep data internal.
- Voice features in consumer apps. Path A or Path B. OpenAI Realtime or Vapi.
- Healthcare or finance compliance contexts. Path B compliance tier or Path C.
Epilogue — Checklist, Anti-Patterns, What's Next
AI voice went from the "wow, that's natural" GPT-4o demo shock of May 2024 to the "sub-300ms TTFB voice agents actually run" maturity of May 2026. Same pattern as music, images, and video — but the additional constraints of bidirectionality and absolute latency made the category richer.
The May 2026 takeaway is simple. For TTS quality alone, any major model is good enough. The real differentiators are (a) first-byte latency, (b) overall stack stability, (c) compliance and consent, and (d) the price-versus-volume balance. You need to see the stack, not just the model.
Tool-Selection Checklist
- TTS only, or a voice agent? — TTS only → ElevenLabs/Cartesia. Agent → Vapi/Retell or OpenAI Realtime.
- Is first-byte latency absolute? — Cartesia Sonic-2, or OpenAI Realtime with caching and a warm pool.
- Do you need model choice? — Vapi is the most flexible. ElevenLabs Conversational AI favors its own voices.
- Language other than English/Japanese/Korean? — Validate per-tool language quality on your domain.
- What's the monthly call volume? — Under 1M minutes, SaaS almost always wins.
- Compliance required? — HIPAA/PCI/SOC2 means enterprise contracts or self-hosting.
- Voice cloning needed? — ElevenLabs Voice Cloning or Resemble AI, with mandatory consent verification.
- STT accuracy critical? — Compare Deepgram vs. AssemblyAI vs. Whisper on your domain data.
- Tool use required? — Vapi, OpenAI Realtime, and ElevenLabs Conversational AI all support it.
- Analytics/recording/dashboards required? — Vapi/Retell give you these for free. DIY is heavy.
Anti-Patterns
| Anti-pattern | Why it's bad | Instead |
|---|---|---|
| Choosing the tool from model quality alone | The whole-stack latency decides | Evaluate first-byte latency and reliability too |
| First-tool lock-in on the model | Models get 6 months better routinely | A platform with modular models (Vapi) |
| Building on batch APIs first | No streaming means no voice agent | Streaming from day one |
| Naive silence-only VAD | Confuses mid-utterance pauses for the end of turn | Semantic VAD or proper endpointing |
| No interruption handling | Awkward when user talks over the model | Immediate TTS stop plus state update |
| Full context every turn | LLM TTFT balloons, latency collapses | Short system prompts, prompt caching |
| Skipping consent verification | Legal and reputational risk | Mandatory consent flow |
| Sending everything to one place | PII exposure risk | Self-host option or PII redaction |
| Average-only latency SLA | p99 awkwardness shows up multiple times per call | Measure p50/p95/p99 |
| Going Path C too early | Operational burden usually exceeds build cost | Stay on SaaS below 1M minutes/month |
What's Next
The generative-media quartet closes here — music, images, video, voice. The next post pulls them together into a unified generative-media workflow. One prompt that produces music plus images plus video plus voice in one pipeline. The choice between Runway Gen-4, Veo 3, and Sora 3 producing voice themselves versus assembling a separate pipeline. The new standard for AI content creation, and how to turn each stage's model choice into a single matrix — this will be the synthesis post for the quartet.
References
- ElevenLabs
- ElevenLabs Conversational AI
- ElevenLabs Voice Design v2
- ElevenLabs Voice Cloning
- ElevenLabs Series C — TechCrunch
- Cartesia
- Cartesia Sonic-2 announcement
- Cartesia Series A announcement
- OpenAI Realtime API docs
- OpenAI Realtime API launch — TechCrunch
- GPT-Realtime GA — OpenAI
- Scarlett Johansson Sky controversy — NPR
- Sesame AI
- Sesame CSM launch — VentureBeat
- Deepgram
- Deepgram Nova-3 launch
- Deepgram Series D — TechCrunch
- AssemblyAI
- AssemblyAI Universal-2 launch
- OpenAI Whisper GitHub
- Whisper Large V3 Turbo discussion
- WhisperX GitHub
- Faster-Whisper GitHub
- Vapi
- Vapi Series B — TechCrunch
- Retell AI
- Bland AI
- Hume AI
- Hume EVI 4
- Microsoft VALL-E
- Meta Voicebox
- Mamba paper
- Silero VAD GitHub
- WebRTC for Voice AI — Cartesia guide
- Voice Agent Latency Best Practices — Vapi docs
- Twilio Voice AI integration
- Azure Speech Service
- Google Cloud TTS Chirp 3
- AWS Polly Generative Voices