- Published on
AI 음성 2026 — ElevenLabs · OpenAI Realtime · Cartesia · Vapi · Sesame · Deepgram, 보이스 에이전트 스택의 현재
- Authors

- Name
- Youngju Kim
- @fjvbn20031
프롤로그 — 생성형 미디어 4부작의 마지막 한 조각
지난 몇 주에 걸쳐 우리는 생성형 미디어를 한 카테고리씩 정리해 왔다. 음악(Suno, Udio, Lyria, ElevenMusic), 이미지(FLUX, Imagen, Midjourney, Ideogram, Recraft, Firefly), 비디오(Sora, Veo, Runway, Pika, Kling, Luma, Hailuo). 패턴이 똑같았다 — 2024년의 충격적인 데모, 2025년의 거친 베타, 2026년의 성숙한 도구들, 그리고 여전히 풀리지 않은 어려운 영역들.
오늘이 마지막 한 조각이다 — 음성(voice). 그런데 음성은 다른 셋과 결정적으로 다른 점이 두 개 있다.
첫째, 음성은 양방향이다. 음악은 만들면 끝, 이미지도 만들면 끝, 비디오도 만들면 끝. 그러나 음성은 사람이 말을 걸면 들어서 이해하고(STT), 무엇을 답할지 생각하고(LLM), 자연스러운 보이스로 돌려준다(TTS). 이 세 단계의 파이프라인이 대화의 단위로 묶인다. 그래서 음성 카테고리는 단순한 TTS 모델 비교가 아니라 보이스 에이전트 스택 전체를 봐야 한다.
둘째, 음성에는 지연(latency)이 절대적이다. 음악은 30초 기다리고, 이미지는 10초 기다리고, 비디오는 1분도 기다린다. 그러나 사람과 사람이 대화할 때 침묵이 800ms를 넘으면 어색해지고, 1.5초를 넘으면 누가 말을 멈춘 줄 안다. 그래서 보이스 에이전트는 사용자 발화 끝 → 답변 첫 오디오 바이트까지 300ms 안에 응답해야 자연스럽다. 음악·이미지·비디오에서는 신경 쓸 일이 없던 차원이다.
이 두 가지 차이가 2026년의 음성 카테고리를 흥미롭게 만든다. 모델 품질만으로는 안 된다. WebRTC 같은 전송층, 턴 디텍션(turn detection), 끼어들기 처리(interruption handling), endpointing, 그리고 캐시 워밍과 워머 풀까지 — 시스템 레이어 전체를 같이 설계해야 한다.
2026년 5월 현재의 풍경.
- ElevenLabs가 컨슈머 TTS와 B2B 보이스 클로닝의 카테고리 리더 자리를 굳혔고, Conversational AI라는 보이스 에이전트 제품으로 위로 올라가고 있다.
- OpenAI Realtime API가 GPT-Realtime 모델 위에서 진짜 음성-인-음성-아웃을 WebRTC로 제공하고, 카테고리 자체를 바꿨다.
- Cartesia의 Sonic-2가 75ms 첫-바이트로 가장 빠른 TTS의 자리에 있다(2026년 5월 기준).
- Vapi가 STT/LLM/TTS를 조합하는 보이스 에이전트 플랫폼 레이어를 차지하고, 작년 6월에 $64M Series B를 받았다.
- Sesame의 CSM(Conversational Speech Model)이 "사람 같은 개성"이라는 새로운 축을 열었다.
- STT 쪽은 Deepgram Nova-3과 AssemblyAI Universal-2가 양강 구도, Whisper Large V3 Turbo와 WhisperX가 오픈소스 베이스라인.
- Hume EVI 4는 감정 인식·생성, Bland는 전화 콜 자동화, Retell도 B2B 보이스 에이전트 시장에서 경쟁한다.
이 글은 그 풍경을 정리한다. 누가 어떤 일에 맞는지, 보이스 에이전트 스택은 어떻게 구성되는지, sub-300ms 첫-바이트 목표를 어떻게 달성하는지, 빌드와 바이의 경계는 어디인지, 그리고 보이스 클로닝의 동의(consent) 현실까지 — AI가 콜센터를 대체한다거나 AI 음성이 위험하다거나 하는 양극단의 이야기는 빼고.
핵심 한 줄: 2026년의 AI 음성은 "TTS가 좋아졌다"가 아니라 "전체 스택이 sub-300ms로 돌아가는 게 가능해졌다"는 이야기다. 그 차이를 알면 도구 선택이 쉬워진다.
1장 · 카테고리의 탄생 — 2023~2024년 사이에 무슨 일이 있었나
1.1 음성 합성의 세 갈래
AI 음성 합성은 사실 30년 된 분야다. 초기에는 concatenative TTS(조각 음성을 이어 붙임), 그 다음은 parametric TTS(음향 파라미터를 통계 모델로 예측), 2017년부터 neural TTS(WaveNet, Tacotron). 지금 우리가 쓰는 도구의 직접 조상은 2020년 이후의 두 흐름이다.
갈래 1: 멀티스피커 뉴럴 TTS. 텍스트와 화자 임베딩을 함께 입력해 어떤 목소리로든 합성하는 모델. ElevenLabs가 이 계열에서 출발했다(2022년 11월 창업).
갈래 2: 자기회귀 코덱 모델. 텍스트 LLM의 아이디어를 오디오에 그대로 적용한다. EnCodec, SoundStream 같은 뉴럴 오디오 코덱으로 오디오를 토큰으로 압축한 뒤, 트랜스포머가 그 시퀀스를 학습한다. Microsoft VALL-E(2023년 1월), Meta Voicebox(2023년 6월), 그리고 OpenAI의 Whisper(STT, 2022년 9월)가 같은 계열의 발견이다.
2023년 말~2024년 초에 두 갈래가 섞이기 시작한다. ElevenLabs는 자기회귀+디퓨전 하이브리드로, Microsoft는 VALL-E 2로, OpenAI는 멀티모달 LLM(GPT-4o) 안에 음성 토큰을 직접 넣는 방향으로 갔다.
1.2 결정적 순간 — GPT-4o의 5월 데모
2024년 5월, OpenAI는 GPT-4o를 공개하면서 음성-인-음성-아웃 데모를 보였다. 사용자가 말하면 모델이 듣고 같은 모델이 답을 음성으로 돌려준다. 끼어들기가 자연스럽고, 감정이 실리고, 노래도 부른다. 카테고리 전체가 그 순간 다시 그려졌다.
그러나 데모 공개 후 음성 기능 출시는 늦었다 — 처음엔 7월, 그 다음 10월 Realtime API(베타), 2025년 8월에 GPT-Realtime 모델의 GA(정식 출시). 그 사이에 Anthropic, Google, Cartesia 같은 다른 진영이 자기 답을 만들 시간을 벌었다.
1.3 보이스 클로닝의 폭탄 — Heart Voice 논쟁
2024년 5월 14일, OpenAI는 "Sky"라는 GPT-4o 음성을 발표했다. 배우 Scarlett Johansson은 이전에 OpenAI의 음성 제안을 거절했었는데, Sky가 자기 목소리와 너무 비슷하다고 공개적으로 항의했다. OpenAI는 Sky 음성을 즉시 내렸다.
이 사건은 산업 전체에 신호를 보냈다. 보이스 클로닝의 동의(consent)는 단순한 약관 체크박스가 아니라 법적·윤리적 기반 자체라는 것이다. 이후 모든 메이저 음성 모델은 "이 목소리를 클론할 권한이 있는지"를 검증하는 절차를 의무화했다.
1.4 왜 갑자기 좋아졌나
다른 생성형 미디어와 같은 세 변수다.
- 데이터. 라이선싱된 멀티스피커 음성 데이터셋(LibriTTS, GigaSpeech, Common Voice)이 풍부해졌고, 메이저 회사들은 자체적으로 수만 시간 단위의 음성을 라이선싱해 학습한다.
- 컴퓨트. H100/H200 클러스터로 멀티빌리언 파라미터 음성 모델 학습이 합리적 시간 안에 끝난다.
- 아키텍처. 뉴럴 오디오 코덱 + 트랜스포머 + 멀티스피커 임베딩 + 디퓨전 디코더의 조합이 자리잡았다.
특히 2024~2025년에 저지연 스트리밍이 표준이 됐다는 게 컸다. 이전에는 "텍스트 전체를 받아서 30초짜리 오디오를 만든 뒤 한 번에 반환"이었다면, 지금은 "텍스트 토큰이 들어오는 대로 오디오 청크를 스트리밍"이다. 이게 보이스 에이전트의 실현을 가능하게 만들었다.
2장 · TTS 리더 — ElevenLabs · Cartesia · OpenAI · Sesame
2.1 ElevenLabs — 카테고리 리더
2026년 5월 시점에서 가장 많이 쓰이는 텍스트-투-스피치는 ElevenLabs다. 2022년 11월 창업, 2024년 1월 Andreessen Horowitz 리드로 시리즈 B(180M, $3.3B 밸류에이션), 그리고 2026년에는 멀티모달 음성 회사로 확장 중이다.
핵심 제품 라인.
- TTS API. Multilingual v2가 베이스, Turbo v2.5가 저지연용, Flash v2.5가 더 빠른 베이스라인. v3 모델군이 2026년 5월에 베타로 풀렸다.
- Voice Design v2. 텍스트 프롬프트로 새 목소리를 디자인한다("warm, mid-30s female narrator, slight British accent"). 2026년 1월에 v2로 업그레이드.
- Voice Cloning. Instant(30초 샘플, 빠른 클론)와 Professional(30분 이상 샘플, 고품질 클론).
- Conversational AI. 2024년 11월 베타 출시, 2025년 1월 GA. STT/LLM/TTS를 묶은 보이스 에이전트 빌더. ElevenLabs가 위로 한 단계 올라간 제품 라인이다.
- ElevenMusic. 음악 생성 사이드(이전 글에서 다룸).
- ElevenStudio. 더빙/번역. 영상의 음성을 다른 언어로 자연스럽게 더빙.
품질? 영어, 일본어, 한국어, 스페인어, 프랑스어, 독일어를 포함한 32개 언어를 지원하고, 한국어 보이스의 자연스러움은 2025년부터 명확히 좋아졌다. 다만 한국어 보이스의 미세 감정 컨트롤(예: 비꼬는 톤, 미묘한 슬픔)은 영어보다 약하다.
가격(2026년 5월).
- Free: 월 10,000 크레딧
- Starter: $5/월, 30,000 크레딧
- Creator: $22/월, 100,000 크레딧, 상업 사용
- Pro: $99/월, 500,000 크레딧
- Scale: $330/월 이상
- Enterprise: 별도
2.2 Cartesia — 저지연 챔피언
Cartesia는 2024년 2월 창업했다. 창업자 Karan Goel, Karan Goel와 Albert Gu는 Stanford에서 state-space model 연구를 했고, Mamba 아키텍처의 공동 저자다. 2024년 5월 64M Series A($300M 밸류에이션), 2026년 1월 추가 Series B 라운드.
핵심 제품은 Sonic 시리즈 — Sonic-1(2024년), Sonic-2(2025년 9월). Sonic-2의 첫-바이트 지연은 75ms(2026년 5월 자체 발표)로, 현재 시장에서 가장 빠른 TTS다. 이게 보이스 에이전트의 sub-300ms 첫-바이트 목표를 처음으로 현실화한 모델이다.
품질은 ElevenLabs 대비 미묘한 차이가 있다. 영어 단순 문장은 거의 동등하고, 표현력이 풍부한 보이스(드라마틱한 내레이션 등)는 ElevenLabs가 약간 위, 그러나 저지연 보이스 에이전트 시나리오에서는 Cartesia가 압도적이다.
가격(2026년 5월).
- Free: 월 50,000 자
- Creator: $5/월, 100,000 자/월
- Pro: $49/월, 1,000,000 자/월
- Scale: $299/월
- Enterprise: 별도
2.3 OpenAI Realtime — 카테고리를 바꾼 한 수
OpenAI Realtime API는 2024년 10월 베타로 시작했고, 2025년 8월에 GPT-Realtime 모델의 GA(정식 출시)와 함께 안정화됐다. WebRTC를 표준 전송층으로 지원하면서 카테고리 자체를 바꿨다.
핵심 특징.
- 음성-인-음성-아웃. STT/LLM/TTS의 3단계 파이프라인이 아니라, 멀티모달 모델 안에서 한 번에 처리. 이론적으로 지연이 더 짧다.
- WebRTC. 브라우저에서 한 줄 코드로 연결. UDP 기반이라 WebSocket 대비 네트워크 손실에 강하다.
- 함수 호출(tool use). 대화 중 모델이 함수를 호출해 외부 시스템에 접근. 보이스 에이전트의 필수 기능.
- VAD(Voice Activity Detection). 사용자가 말을 멈췄는지를 모델이 직접 판단. server-side semantic VAD가 기본.
- 끼어들기. 사용자가 모델 발화 중에 말을 시작하면 모델이 즉시 멈춤.
가격(2026년 5월, GPT-Realtime 기준).
- 오디오 입력: $40/100만 토큰
- 오디오 출력: $80/100만 토큰
- 캐시된 입력: $2.5/100만 토큰
OpenAI Realtime의 한계는 모델 선택권이 거의 없다는 점이다. GPT-Realtime이라는 단일 모델로 고정된다. 다른 LLM(Claude, Gemini)을 쓰려면 STT/TTS를 별도로 구성하고 텍스트 API를 호출하는 전통적 파이프라인으로 가야 한다.
2.4 Sesame — 개성 있는 대화 모델
Sesame AI는 2025년 초 공개적으로 등장한 새로운 진영이다. 창업자 Brendan Iribe는 Oculus VR의 공동창업자, CEO를 지냈다. 그 배경 때문에 "음성과 디바이스가 합쳐진 미래"라는 비전이 있다.
핵심 제품은 CSM(Conversational Speech Model). 2025년 2월 데모로 공개됐을 때 인터넷이 진짜로 흔들렸다 — 가장 자연스럽고, 가장 개성 있고, 가장 사람처럼 느껴지는 음성이라는 반응. 농담을 던지고, 잠깐 머뭇거리고, 갑자기 톤을 바꾸는 인간적 디테일이 살아 있다.
CSM의 기술 기반.
- end-to-end multimodal LLM 위에서 음성 합성. 기존 TTS와 달리 LLM이 직접 음성 토큰을 생성한다.
- 개성 기반 학습. 두 캐릭터("Maya"와 "Miles")로 시작했고, 각각의 발화 스타일을 학습 데이터로 사용했다.
- 2026년 5월 기준 베타. 오픈 API는 아직 제한적, 데모와 일부 파트너 통합 위주.
Sesame의 함의는 큰데 — 음성 카테고리에서 "기술적으로 정확함"을 넘어 "개성과 표현"이 다음 경쟁축이 된다는 신호다.
2.5 그 외 TTS
- Azure Speech. Microsoft의 엔터프라이즈 TTS. 보이스 카탈로그가 가장 넓고(140+ 언어, 600+ 보이스), 안정성이 검증돼 있다. 다만 최신 자연스러움은 ElevenLabs/Cartesia 대비 한 박자 뒤.
- Google Cloud TTS. Vertex AI와 통합. Chirp 3 HD 보이스로 품질이 크게 좋아졌다.
- AWS Polly. Amazon의 클래식 TTS. Generative 보이스 옵션 추가. 가격과 SLA가 매력적.
- Play.ht. 컨슈머 사이드, 팟캐스트/유튜브 크리에이터 시장에 강하다.
- Resemble AI. 보이스 클로닝 전문, B2B.
- Coqui XTTS. 오픈소스 TTS, Coqui는 2024년에 폐업했으나 모델은 GitHub에 살아 있다.
2.6 비교 — TTS 리더
| 도구 | 첫-바이트 지연 | 자연스러움 | 보이스 다양성 | 한국어 | 가격대 | 주 사용처 |
|---|---|---|---|---|---|---|
| ElevenLabs v3 | 약 200~400ms | 매우 높음 | 매우 넓음 | 양호 | 중상 | 콘텐츠, B2B 에이전트 |
| Cartesia Sonic-2 | 약 75ms | 높음 | 넓음 | 보통 | 중 | 저지연 에이전트 |
| OpenAI Realtime | 약 300~500ms (E2E) | 높음 | 제한적 | 양호 | 높음 | 멀티모달 에이전트 |
| Sesame CSM | 미공개 | 매우 높음(개성) | 캐릭터 한정 | 미평가 | 베타 | 차세대 대화 |
| Azure Speech | 약 200~300ms | 보통~높음 | 매우 넓음 | 양호 | 중 | 엔터프라이즈 |
| Google TTS Chirp 3 | 약 200~400ms | 높음 | 넓음 | 양호 | 중 | GCP 통합 |
| AWS Polly Generative | 약 300~500ms | 보통~높음 | 넓음 | 보통 | 저~중 | AWS 통합 |
3장 · STT 리더 — Deepgram · AssemblyAI · Whisper
3.1 Deepgram Nova-3
Deepgram은 2015년 창업, STT 전문 회사로 가장 오래된 진영 중 하나다. 2024년 6월 Series C(100M), 2026년 1월 추가 라운드.
핵심 모델은 Nova-3(2025년 6월 GA). 이전 Nova-2 대비 정확도, 지연, 가격 모두 개선됐다.
- WER(Word Error Rate). 영어 7.7%(이전 Nova-2: 8.4%), 다국어 평균 12.3%(이전: 15.1%). 2026년 표준 벤치(CommonVoice, Earnings-22)에서 측정.
- 지연. 스트리밍 모드 첫-단어 약 250ms, 배치 모드 1시간 오디오를 30초에 처리.
- 다국어. 30+ 언어, 한국어 포함. Code-switching(한 발화 안에 두 언어 섞임)도 처리.
- 다이어라이제이션. 화자 분리 정확도가 Nova-2 대비 명확히 좋아졌다.
- Smart Format. 숫자, 통화, 이메일, 전화번호를 자동 포맷.
가격(2026년 5월).
- Pre-recorded: 0.26/시간)
- Streaming: $0.0058/분
- Enhanced(향상된 모델): 추가 비용
Deepgram의 강점은 저지연 스트리밍 + 가격 + B2B 안정성의 균형이다. Vapi, Retell, Bland 같은 보이스 에이전트 플랫폼이 STT 기본으로 채택한다.
3.2 AssemblyAI Universal-2
AssemblyAI는 2017년 창업, Y Combinator 출신. Deepgram의 가장 직접적 경쟁자다.
핵심 모델은 Universal-2(2025년 후반 GA). Universal-1보다 정확도가 명확히 좋아졌고, "포맷팅과 가독성"에서 강점이 있다.
- WER. 영어 6.6%, 다국어 평균 11.8%. 일부 벤치에서는 Deepgram Nova-3보다 약간 더 정확하다.
- 타임스탬프. 단어 단위 타임스탬프와 화자 분리가 매우 정확하다.
- 언어 감지 + Code-switching. 자동.
- Speaker Diarization. 가장 정확한 진영 중 하나.
- 추가 기능. Sentiment Analysis, Entity Detection, Topic Detection, Summarization, PII Redaction이 한 API에서 함께 처리된다.
가격(2026년 5월).
- Best 모델: $0.37/시간(배치)
- Universal-2: $0.27/시간
- Streaming: $0.47/시간
AssemblyAI의 강점은 포스트프로세싱 통합(요약, 감정, 엔티티)이다. 콜센터 분석, 미팅 노트 같은 사용처에 강하다.
3.3 Whisper · WhisperX — 오픈소스 베이스라인
OpenAI Whisper는 2022년 9월에 오픈소스로 공개된 멀티언어 STT 모델이다. MIT 라이선스. 자체 호스팅으로 비용을 줄이거나 데이터를 외부에 안 보내려는 진영에서 여전히 표준이다.
Whisper Large V3 Turbo(2024년 10월) — V3 대비 약 8배 빠르고 품질은 비슷. 오픈소스 STT의 강력한 베이스라인.
WhisperX(2023~2025년) — Whisper 위에 forced alignment, voice activity detection, speaker diarization을 얹은 오픈소스 프로젝트. 정확한 단어 타임스탬프가 필요한 사용처에 사실상 표준.
Faster-Whisper — CTranslate2 기반 최적화, GPU에서 Whisper 대비 4배 빠르다.
성능(영어 LibriSpeech test-clean).
- Whisper Large V3 Turbo: WER 약 3.1%
- Faster-Whisper Large V3: WER 약 3.4%
- WhisperX(타임스탬프 정확도): 매우 높음
오픈소스 Whisper의 한계는 (a) 실시간 스트리밍이 본격적으로는 안 됨(워크어라운드로 청크 단위 처리), (b) 화자 분리가 별도 모델 필요, (c) 실시간 API 같은 운영 부담은 직접 짊어져야 함.
3.4 비교 — STT
| 모델 | WER(영어) | WER(다국어) | 지연(스트리밍) | 가격($/시간) | 라이선스 | 한국어 |
|---|---|---|---|---|---|---|
| Deepgram Nova-3 | 7.7% | 12.3% | 약 250ms | 0.26 | 상업 SaaS | 양호 |
| AssemblyAI Universal-2 | 6.6% | 11.8% | 약 400ms | 0.27 | 상업 SaaS | 양호 |
| Whisper Large V3 Turbo | 3.1% | 7~12%(언어별 편차) | 미지원(청크 워크어라운드) | $0(자가 호스팅) | MIT | 양호 |
| WhisperX | 3.1%(Whisper 베이스) | 같음 | 미지원 | $0 | BSD-4 | 양호 |
| Faster-Whisper | 3.4% | 같음 | 미지원 | $0 | MIT | 양호 |
| Azure Speech STT | 약 8% | 약 13% | 약 300ms | 1.0 | 엔터프라이즈 | 양호 |
| Google STT Chirp 3 | 약 7% | 약 12% | 약 300ms | 약 0.4 | 엔터프라이즈 | 양호 |
주의: WER 수치는 벤치마크와 도메인에 매우 민감하다. 노이즈가 많은 콜센터 오디오에서는 Whisper의 WER이 SaaS 진영보다 크게 떨어질 수도, 반대일 수도 있다. 자기 도메인 데이터로 직접 측정해야 한다.
4장 · 보이스 에이전트 플랫폼 — Vapi · Retell · Bland · Hume
4.1 Vapi — 플랫폼 레이어의 대표
Vapi는 2023년 창업, 2024년 11월 64M Series B($600M 밸류에이션). 보이스 에이전트 카테고리에서 가장 빠르게 성장한 회사 중 하나다.
Vapi의 포지셔닝은 "STT/LLM/TTS의 오케스트레이션 레이어". 직접 모델을 만들지 않고, 시장의 최고 모델들(Deepgram, OpenAI, ElevenLabs, Cartesia 등)을 조합해 보이스 에이전트를 만들 수 있게 한다.
핵심 기능.
- 모듈식 스택. STT(Deepgram/AssemblyAI), LLM(OpenAI/Anthropic/Google), TTS(ElevenLabs/Cartesia/PlayHT)를 자유롭게 조합.
- 턴 디텍션. 사용자가 말을 멈췄는지를 의미 기반(semantic VAD)으로 판단.
- 끼어들기 처리. 사용자가 모델 발화 중에 말 시작하면 모델 즉시 stop.
- 함수 호출. 대화 중 외부 API 호출(예: 예약 시스템, CRM 조회).
- 전화 통합. Twilio/Vonage/Telnyx로 실제 전화번호 연결.
- 녹음 + 분석. 모든 통화 녹음, 대시보드에서 검색·필터·분석.
가격(2026년 5월).
- 무료 티어: 월 10분
- Pay-as-you-go: 0.20/분(스택 선택에 따라)
- Enterprise: 별도 협의
Vapi의 강점은 **"빌드 빠름 + 모델 락인 없음"**이다. 한 주말에 보이스 에이전트 MVP를 만들 수 있고, 모델을 바꾸고 싶으면 설정 한 줄 변경.
4.2 Retell — Vapi의 가장 가까운 경쟁자
Retell도 2023년 창업, B2B 보이스 에이전트 플랫폼. Vapi와 거의 같은 포지셔닝이지만, "엔터프라이즈 통화 안정성"에 더 집중한다.
- 고품질 통화 인프라. Twilio 통합이 더 깊고, 통화 안정성 SLA가 강하다.
- Agent Studio. 노코드/로우코드 빌더가 더 완성도 있다.
- 분석. 통화 결과 자동 분류, 통화별 분석.
가격 구조는 Vapi와 비슷(0.18/분).
4.3 Bland — 전화 콜 자동화 특화
Bland AI는 "전화로 사람과 대화하는 AI"라는 특정 사용처에 집중한다. 일반 보이스 에이전트보다 인바운드/아웃바운드 콜센터 자동화에 특화돼 있다.
- 대규모 동시 통화. 수천 통화 동시 처리.
- 워크플로우 빌더. 분기 로직, 변수 추출, CRM 연동.
- 음성 클로닝. 자기 회사 영업 톤에 맞춘 보이스를 클론.
- 컴플라이언스. TCPA(미국 통신 광고 규제) 대응 도구.
타깃 시장: 영업 콜백, 약속 잡기, 고객 서베이, 채권 추심 같은 영역.
4.4 Hume EVI — 감정 인식 음성
Hume AI는 다른 진영이다. "음성에 감정이 실린다"는 관점에서 출발했다. EVI(Empathic Voice Interface) 모델은 사용자의 음성 톤에서 감정을 인식하고, 답변의 음성에 감정을 실는 데 특화돼 있다.
- EVI 4(2026년 초). 톤 분석 정확도, 응답 감정 정밀도 모두 개선.
- 사용처. 정신 건강 챗봇, 코칭, 케어 콜.
- 한계. 감정 분류가 실제 사용자 경험과 일치하는지의 검증은 아직 진행 중.
4.5 비교 — 보이스 에이전트 플랫폼
| 플랫폼 | 포지셔닝 | 주 사용처 | 모델 선택 | 가격($/분) | 차별점 |
|---|---|---|---|---|---|
| Vapi | 오케스트레이션 레이어 | 모든 보이스 에이전트 | 매우 넓음(모든 메이저) | 0.05~0.20 | 빠른 빌드, 락인 없음 |
| Retell | 엔터프라이즈 통화 | 콜센터, B2B 영업 | 넓음 | 0.07~0.18 | 통화 안정성, Studio |
| Bland | 전화 자동화 특화 | 영업, 약속, 서베이 | 자체 + 일부 | 0.10~0.15 | 대규모 동시 통화 |
| ElevenLabs Conversational AI | 자체 통합 스택 | 콘텐츠/B2B 에이전트 | ElevenLabs 위주 | $0.30/세션 등 | 자사 보이스 통합 |
| OpenAI Realtime | API 직접 | 빌드 직접 | GPT-Realtime 고정 | 토큰 기반 | 가장 짧은 E2E 지연 |
| Hume EVI | 감정 인식 특화 | 헬스케어, 케어 | EVI 모델 | 별도 | 톤 분석 |
5장 · 보이스 에이전트 스택 — 한 통화는 어떻게 흘러가나
5.1 전통적 3-단계 파이프라인
대부분의 보이스 에이전트는 세 모델을 순차로 묶는다.
사용자 발화 오디오
│
▼
[STT] Speech-to-Text
(예: Deepgram Nova-3 streaming)
│
▼ 텍스트 토큰
[LLM] Large Language Model
(예: GPT-5, Claude Opus 4.7, Gemini 2.5)
│
▼ 응답 텍스트
[TTS] Text-to-Speech
(예: Cartesia Sonic-2 streaming)
│
▼
모델 응답 오디오
각 단계가 독립적이라는 장점이 있다 — 모델 하나만 바꿔도 다른 단계는 그대로. STT를 Whisper로, LLM을 Claude로, TTS를 ElevenLabs로 자유롭게 조합 가능. Vapi/Retell이 이 조합을 지원하는 게 핵심.
단점은 누적 지연이다. 각 단계가 100ms씩만 걸려도 합쳐서 300ms, 거기에 네트워크 RTT까지 더하면 400~500ms가 쉽게 나온다.
5.2 End-to-End 멀티모달 모델
OpenAI Realtime과 일부 차세대 모델(Sesame CSM, GPT-4o의 voice 모드)은 다르다. 하나의 모델이 음성 입력을 받아 음성 출력을 직접 만든다.
사용자 발화 오디오
│
▼
[E2E Multimodal LLM]
- 음성 토큰 입력
- 텍스트/음성 토큰 출력
- WebRTC로 직접 스트리밍
│
▼
모델 응답 오디오
장점 — 잠재적으로 더 짧은 지연(중간 단계가 없음), 감정/억양이 더 자연스러움(STT가 톤 정보를 버리지 않음). 단점 — 모델 선택권 없음, 가격이 비싸짐, fine-tune이 어려움.
5.3 부수 컴포넌트들
진짜 작동하는 보이스 에이전트는 STT/LLM/TTS만으로는 안 된다. 다음 컴포넌트들이 추가된다.
VAD(Voice Activity Detection). 사용자가 말하고 있는지 침묵인지 판단. Silero VAD, WebRTC VAD가 오픈소스 표준. 더 진보된 형태가 semantic VAD — "사용자가 말을 끝냈는지"를 의미 기반으로 판단(질문이 끝났는지, 사용자가 잠시 생각 중인지).
Turn Detection. "지금이 모델이 답할 차례인가?"를 결정. 단순 VAD(침묵 300ms 감지)에서 시작해, 더 정교한 모델로 발전 중. OpenAI Realtime은 서버사이드 semantic VAD를 옵션으로 제공.
Endpointing. 발화의 끝을 정확히 찾기. "음... 그러니까..."처럼 머뭇거리는 사이의 침묵을 발화 종료로 잘못 인식하면 안 된다.
Interruption Handling. 사용자가 모델 발화 중에 말을 시작하면, (a) 모델이 현재 TTS를 즉시 중단하고, (b) 새 사용자 발화를 다시 처리하고, (c) 컨텍스트에 "사용자가 끼어들었다"를 반영.
Conversation State Management. 이전 발화들의 컨텍스트, 사용자가 한 약속, 모델이 한 약속, 변수(예: 사용자 이름, 주문 번호)를 관리. LLM의 컨텍스트 윈도우와 외부 메모리의 결합.
Tool Use / Function Calling. 대화 중 외부 API 호출. "예약을 12시 30분으로 바꿔주세요"라고 하면 모델이 updateAppointment(id, newTime) 같은 함수를 호출.
모니터링과 분석. 통화 녹음, 변환, 감정 분석, 결과 분류, 대시보드. 운영의 핵심.
5.4 스택 다이어그램 — 진짜 시스템
┌─────────────────────────┐
[전화 ─── PSTN ─── Twilio]────────▶│ Voice Agent Platform │
│ (Vapi / Retell / etc) │
└────────────┬─────────────┘
│
┌──────────────────────────────────┼──────────────────────────────────┐
│ │ │
▼ ▼ ▼
┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ STT │ │ LLM │ │ TTS │
│ Deepgram Nova-3 │──텍스트 토큰─▶│ Claude / GPT │──응답 텍스트─▶│ Cartesia Sonic-2 │
│ (streaming WSS) │ │ (streaming SSE) │ │ (streaming WSS) │
└────────▲─────────┘ └────────▲─────────┘ └────────┬─────────┘
│ │ │
│ 오디오 청크 │ 컨텍스트 │ 오디오 청크
│ │ │
┌────────┴─────────────────────────────────┴─────────────────────────────────┴────────┐
│ Conversation Orchestrator │
│ - VAD (Silero / 서버 사이드 semantic VAD) │
│ - Turn Detection │
│ - Endpointing │
│ - Interruption Handling │
│ - State Management (이전 발화 컨텍스트 + 변수) │
│ - Tool Use Router (예약 시스템 / CRM / DB) │
└────────────────────────────┬──────────────────────────────────────────────────────────┘
│
┌───────────────┼───────────────┐
│ │ │
▼ ▼ ▼
┌─────────────┐ ┌─────────────┐ ┌──────────────┐
│ Recording │ │ Analytics │ │ Compliance │
│ Storage │ │ Dashboard │ │ PII Redact │
└─────────────┘ └─────────────┘ └──────────────┘
이 그림이 보여주는 것 — 모델은 셋이지만 시스템 컴포넌트는 훨씬 많다. 그래서 Vapi/Retell이 가치 있는 거다. 처음부터 다 직접 만들면 6개월 걸린다.
6장 · 지연(latency)이라는 절대 기준 — sub-300ms 첫-바이트
6.1 왜 300ms인가
사람과 사람의 자연스러운 대화에서 응답 사이 간격은 평균 200300ms다. 이걸 넘으면 "어색한 침묵"으로 느껴지고, 700800ms를 넘으면 "이 사람이 내 말을 못 들었나"라고 생각한다.
보이스 에이전트가 자연스럽게 느껴지려면 사용자 발화 끝 → 모델 답변 첫 오디오 바이트(time-to-first-byte, TTFB) 가 300ms 안에 돌아와야 한다. 350~500ms 정도면 "약간 어색하지만 받아들일 만함", 500ms 넘어가면 "이상하다"는 평가가 시작된다.
6.2 지연 예산(latency budget)
TTFB 300ms를 맞추려면 각 단계의 지연 예산을 다음처럼 잡아야 한다.
| 단계 | 예산 | 메모 |
|---|---|---|
| 네트워크 RTT(왕복) | 50~100ms | 사용자 위치에 따라 다름 |
| Endpointing(발화 끝 감지) | 30~80ms | semantic VAD가 가장 빠름 |
| STT 최종 트랜스크립트 | 50~150ms | streaming, partial 결과는 더 빨리 |
| LLM 첫 토큰(TTFT) | 100~300ms | 모델/프롬프트 크기에 매우 의존 |
| TTS 첫 오디오 청크 | 50~200ms | Cartesia 75ms가 시장 최저 |
| 총합 | 약 300~800ms | 모든 단계 최저값 합치면 300ms, 평균이면 500ms+ |
핵심 함의 — 각 단계를 최저로 깎아도 300ms는 빠듯하다. 그래서 (a) E2E 모델로 단계 자체를 줄이거나, (b) 각 단계를 극도로 최적화하거나, (c) 사용자의 발화 끝 전부터 응답을 미리 시작(speculative response)하는 트릭이 필요하다.
6.3 최적화 트릭
1. Speculative response. 사용자가 말이 끝나기 전부터 LLM이 답변을 만들기 시작. 사용자가 말이 끝나면 그 시점까지의 답변을 그대로 출력하거나 빠르게 정정. 위험: 사용자가 말을 더 추가했을 때 답이 어색해질 수 있음.
2. Streaming everything. STT는 partial transcript를 보내고, LLM은 SSE/streaming으로 토큰을 받고, TTS는 텍스트 청크가 들어오는 대로 오디오 청크를 만든다. 어느 한 단계라도 batch면 전체가 batch가 된다.
3. 짧은 프롬프트. LLM의 TTFT는 프롬프트 길이에 거의 선형으로 비례. 시스템 프롬프트를 짧게 유지하고, 컨텍스트는 캐싱을 활용.
4. 캐시 + 워머 풀. 보이스 에이전트 인스턴스를 미리 띄워두고 대기. 첫 통화의 콜드 스타트 회피.
5. 지리적 근접성. 모델 추론 서버가 사용자 지역에 가까이 있어야 RTT가 낮다. AWS/GCP 다중 리전 배포가 필수.
6. End-to-end 모델 채택. OpenAI Realtime처럼 단계를 합쳐 중간 변환 지연을 제거.
6.4 측정과 SLA
지연은 평균이 아니라 분포로 봐야 한다. p50(중앙값) 250ms여도 p99이 2초면 1%의 통화가 어색해진다. 보이스 에이전트는 통화당 수십수백 턴이라서, p99의 어색함이 통화당 15번씩 등장한다.
운영 SLA로 흔히 쓰이는 기준.
- p50 TTFB < 300ms
- p95 TTFB < 600ms
- p99 TTFB < 1000ms
- 끼어들기 응답성 < 200ms
이 지표들은 통화 단위가 아니라 턴 단위로 측정해야 의미 있다.
7장 · 사용처 — AI 음성이 실제로 통하는 곳
7.1 콜센터 1차 응대
가장 빠르게 자리잡은 사용처. 이유는 단순하다 — 대량의 반복 통화, 정해진 워크플로우, 일반 상담원의 첫 30초가 거의 같은 질문이다.
전형적 워크플로우.
- 인바운드. 고객이 전화 → AI 에이전트가 받음 → "어떤 일로 전화 주셨나요?" → 의도 분류(주문 조회/배송/환불/기타) → 해당 영역의 컨텍스트 로딩 → 답변 또는 인간 상담원으로 핸드오프.
- 아웃바운드. AI 에이전트가 전화 → "안녕하세요, OO 의류 배송 안내 차 연락드렸습니다" → 간단한 안내 또는 약속 잡기.
성과 지표(현장 사례).
- 자체 해결률 30~60%(질문 종류와 산업에 따라)
- 평균 통화 시간 30~50% 단축
- 인간 상담원 대비 비용 70~90% 감소
- 고객 만족도(CSAT): 대부분 비슷하거나 약간 낮음(미세 감정 처리는 아직 인간이 우위)
도구: Vapi/Retell + Deepgram + Claude/GPT + ElevenLabs/Cartesia.
7.2 약속 잡기(appointment scheduling)
치과, 미용실, 작은 클리닉 같은 곳의 약속 잡기. 전형적으로 "어느 날 어느 시간이 비어 있나요?"를 묻고, 일정 시스템 조회 → 사용자에게 옵션 제시 → 확정 → SMS 확인.
이 영역은 함수 호출(tool use) 의 가장 좋은 사용처다. 모델이 getAvailableSlots(date), bookSlot(slotId, customerInfo)를 호출한다.
7.3 팟캐스트 · 오디오북 내레이션
긴 형태의 콘텐츠 생성. ElevenLabs가 가장 강하다.
워크플로우.
- 원고 작성
- 보이스 선택 또는 자기 목소리 클론
- ElevenLabs API로 전체 원고 합성
- 후처리(음악 추가, 효과음, 마스터링)
비용: 1시간 오디오북이 ElevenLabs Pro 200~$500/시간) 대비 압도적 비용 절감.
품질: 미세 감정 표현(예: 화자가 슬픈 장면)에서는 아직 인간이 우위이지만, 2025년 후반부터는 청자가 거의 구별 못 하는 수준이다.
7.4 접근성(accessibility)
시각장애인을 위한 화면 낭독, 청각장애인을 위한 실시간 자막. 이 분야의 AI 음성은 오래된 사용처이지만 품질 향상으로 사용성이 크게 좋아졌다.
- VoiceOver(macOS/iOS), TalkBack(Android)이 점점 ElevenLabs/Cartesia 수준 보이스로 교체되는 중.
- 실시간 자막: Live Caption(Pixel 폰), Otter.ai, 같은 영역에서 Whisper/Deepgram이 핵심.
7.5 보이스 클론 — 본인 인증·기억
본인의 목소리를 보존하거나, 가족의 목소리(예: 돌아가신 가족)를 재현하는 사용처. 이건 기술적으로는 30초 샘플이면 가능하지만, 윤리적·법적 회색지대가 가장 두꺼운 영역이다.
- 본인이 살아 있고 본인이 동의한 경우 → 명확히 OK
- 본인이 사망한 경우 → 가족의 동의가 있어도 법적 모호함(deceased persons rights)
- 본인이 살아 있지만 동의 안 한 경우 → 명백한 위법(딥페이크 영역)
ElevenLabs는 "Voice Verification"이라는 검증 절차를 의무화한다 — 클론하려는 목소리의 사람이 직접 ElevenLabs로 검증 문구를 녹음해야 한다.
7.6 작동하지 않는 영역
솔직하게.
- 고급 콜센터 컴플레인 처리. 분노한 고객의 감정을 누그러뜨리는 일은 아직 인간이 우위.
- 법률·의료 자문. 정확성과 책임 부담 때문에 AI 음성 단독은 위험.
- 창의적 협업(작가의 보이스 디렉터처럼). 미세 디렉팅이 필요한 영역.
- 저자원 언어. 영어/스페인어/중국어는 좋지만, 학습 데이터가 적은 언어(예: 베트남어, 스와힐리어)는 품질이 명확히 떨어진다.
- 실시간 통역. 의미 있지만 아직 지연과 정확도가 부족.
8장 · 빌드 vs 바이 — 정직한 의사결정 프레임
8.1 세 가지 길
보이스 에이전트를 만든다고 할 때 선택지는 셋이다.
Path A: 완전 SaaS. ElevenLabs Conversational AI, Air AI, 또는 Vapi/Retell의 노코드 빌더만 써서 만든다. 빌드 시간: 며칠. 비용: 분당 0.30. 통제력: 약함.
Path B: 플랫폼 + 커스텀. Vapi나 Retell을 베이스로 깔고, 함수 호출과 워크플로우를 직접 짠다. 빌드 시간: 1~4주. 비용: 분당 0.20 + 개발 인건비. 통제력: 중상.
Path C: 풀 빌드. STT/LLM/TTS를 직접 조합하고 VAD/엔드포인팅/스테이트 매니지먼트를 직접 짠다. 빌드 시간: 36개월. 비용: API 비용 + 풀타임 엔지니어 23명. 통제력: 매우 강함.
8.2 결정 트리
시작
│
├─ 통화 볼륨 < 월 1,000분?
│ └─ 예 → Path A 또는 Path B. 절대 Path C가 정당화 안 됨.
│
├─ 산업 특화 컴플라이언스가 필요한가? (HIPAA, PCI, SOC2)
│ ├─ 예 → Path B(Vapi의 엔터프라이즈 티어 + 컴플라이언스 옵션) 또는
│ │ Path C(완전 자체 배포)
│ └─ 아니오 ↓
│
├─ 통화 볼륨 > 월 100,000분?
│ └─ 예 → 비용 분석 필요. SaaS 단가 X 볼륨 vs 자체 인프라.
│ 대부분 Path B의 엔터프라이즈 계약이 최적.
│
├─ 모델 선택권이 중요한가? (예: 특정 LLM 고정 필요)
│ ├─ 예 → Path B(Vapi의 모델 모듈성)
│ └─ 아니오 → Path A(빠른 시작)
│
├─ 미세 UX 컨트롤이 절대적인가? (반응 톤, 끼어들기 정책 등)
│ ├─ 예 → Path C 검토 가능
│ └─ 아니오 → Path B
8.3 비용 비교
월 통화량별 대략의 비용 비교(스택 평균값).
| 월 통화 | Path A($0.20/분) | Path B($0.10/분) | Path C(자체) |
|---|---|---|---|
| 1,000분 | $200 | $100 | 인건비만 수천 |
| 10,000분 | $2,000 | $1,000 | 인건비 + 인프라 $300 |
| 100,000분 | $20,000 | $10,000 | 인건비 + 인프라 $2,000 |
| 1,000,000분 | $200,000 | $100,000 | 인건비 + 인프라 $20,000 |
이 표가 보여주는 함의 — 월 100만 분(연 12백만 분) 이상부터 Path C의 자체 빌드가 SaaS 대비 가격에서 의미가 생긴다. 그 미만에서는 SaaS의 운영 부담 절감이 가격 차이를 거의 항상 압도한다.
8.4 산업별 패턴
- B2B SaaS의 보이스 기능. Path A 또는 Path B. 빠른 출시가 핵심.
- 콜센터 대체. Path B의 엔터프라이즈 계약. 통화 안정성과 컴플라이언스가 핵심.
- 본인 보이스 IP가 자산인 회사(예: 광고, 미디어). Path C. 보이스 클로닝 모델을 자체 호스팅하고 데이터를 외부에 안 보냄.
- 컨슈머 앱의 보이스 기능. Path A 또는 Path B. OpenAI Realtime이나 Vapi.
- 헬스케어/금융 컴플라이언스 영역. Path B의 컴플라이언스 옵션 또는 Path C.
에필로그 — 체크리스트, 안티패턴, 다음 글 예고
AI 음성은 2024년 5월의 GPT-4o 데모에서 "와, 자연스럽다"의 충격으로 시작해, 2026년 5월의 "sub-300ms 첫-바이트로 보이스 에이전트가 진짜 돈다"의 성숙으로 갔다. 음악·이미지·비디오와 같은 패턴이지만, 음성은 양방향이고 지연이 절대적이라는 두 가지 추가 제약이 카테고리를 더 흥미롭게 만들었다.
2026년 5월 현재의 결론은 단순하다. TTS 품질만 보면 어느 메이저 모델을 써도 충분히 좋다. 진짜 차별점은 (a) 첫-바이트 지연, (b) 보이스 에이전트 스택 전체의 안정성, (c) 컴플라이언스와 동의 처리, (d) 가격 - 볼륨 균형이다. 그래서 모델 단독이 아니라 스택 전체를 보는 시야가 필요하다.
도구 선택 체크리스트
- TTS만 필요한가, 보이스 에이전트가 필요한가? — TTS만이면 ElevenLabs/Cartesia, 에이전트면 Vapi/Retell 또는 OpenAI Realtime.
- 첫-바이트 지연이 절대적인가? — Cartesia Sonic-2 또는 OpenAI Realtime + 캐싱 + 워머 풀.
- 모델 선택권이 필요한가? — Vapi가 가장 자유. ElevenLabs Conversational AI는 자사 보이스 우선.
- 언어가 영어/일본어/한국어 외인가? — 도구별 언어 지원과 자연스러움 직접 평가 필수.
- 통화 볼륨은 월 얼마인가? — 100만 분 미만은 SaaS 거의 항상 이김.
- 컴플라이언스가 필요한가? — HIPAA/PCI/SOC2면 엔터프라이즈 계약 또는 자체 호스팅.
- 보이스 클로닝이 필요한가? — ElevenLabs Voice Cloning 또는 Resemble AI, 단 동의 검증 의무.
- STT 정확도가 절대적인가? — 도메인 데이터로 Deepgram vs AssemblyAI vs Whisper 직접 비교.
- 함수 호출(tool use)이 필요한가? — Vapi, OpenAI Realtime, ElevenLabs Conversational AI 모두 지원.
- 분석/녹음/대시보드가 필요한가? — Vapi/Retell이 거의 표준 제공. 직접 빌드는 큰 부담.
안티패턴
| 안티패턴 | 왜 나쁜가 | 대신 |
|---|---|---|
| 모델 품질만 보고 도구 선택 | 스택 전체의 지연이 결정 요인 | 첫-바이트 지연 + 안정성도 평가 |
| 첫 도구로 모델 락인 | 모델은 6개월마다 더 좋아짐 | Vapi처럼 모델 모듈성 있는 플랫폼 |
| 빌드 시 batch API로 시작 | streaming 안 되면 보이스 에이전트가 안 됨 | 처음부터 streaming 베이스 |
| 단순 침묵 VAD에 의존 | "음..." 사이의 침묵을 발화 끝으로 오인 | semantic VAD 또는 endpointing |
| 끼어들기 처리 안 함 | 사용자가 모델 발화 중 말 시작하면 어색 | TTS 즉시 stop + 컨텍스트 업데이트 |
| 모든 토큰을 풀 컨텍스트로 | LLM TTFT가 폭증, 지연 무너짐 | 시스템 프롬프트 짧게, 캐싱 활용 |
| 보이스 클로닝 동의 안 확인 | 법적 위험, 평판 위험 | 검증 워크플로우 의무화 |
| 한 곳에 모든 데이터 보냄 | PII 노출 위험 | 자체 호스팅 옵션 또는 PII redact |
| 평균 지연만 보고 SLA 통과 판단 | p99의 어색함이 통화당 여러 번 등장 | p50/p95/p99 모두 측정 |
| 풀빌드를 너무 빨리 결정 | 운영 부담이 보통 빌드 비용보다 큼 | 월 100만 분 넘기 전에는 SaaS |
다음 글 예고
생성형 미디어 4부작은 여기서 닫힌다 — 음악, 이미지, 비디오, 음성. 다음 글은 이 4개를 함께 묶는 생성형 미디어 워크플로우다. 텍스트 한 줄에서 음악 + 이미지 + 영상 + 보이스가 같이 만들어지는 통합 파이프라인. Runway의 Gen-4, Veo 3, Sora 3가 자체적으로 보이스를 만드는 방향과, 별도 파이프라인을 조립하는 방향 둘을 비교한다. AI 콘텐츠 생성의 새 표준이 될 통합 흐름과, 각 단계의 모델 선택을 어떻게 매트릭스로 묶는지 — 이번 4부작의 결산편이 될 것이다.
참고 / References
- ElevenLabs 공식
- ElevenLabs Conversational AI
- ElevenLabs Voice Design v2
- ElevenLabs Voice Cloning
- ElevenLabs Series C 발표 — TechCrunch
- Cartesia 공식
- Cartesia Sonic-2 발표
- Cartesia Series A 발표
- OpenAI Realtime API 공식
- OpenAI Realtime API 발표 — TechCrunch
- GPT-Realtime GA 발표 — OpenAI
- Scarlett Johansson Sky 음성 논쟁 — NPR
- Sesame AI 공식
- Sesame CSM 발표 — VentureBeat
- Deepgram 공식
- Deepgram Nova-3 발표
- Deepgram Series D 발표
- AssemblyAI 공식
- AssemblyAI Universal-2 발표
- OpenAI Whisper GitHub
- Whisper Large V3 Turbo 발표
- WhisperX GitHub
- Faster-Whisper GitHub
- Vapi 공식
- Vapi Series B 발표 — TechCrunch
- Retell AI 공식
- Bland AI 공식
- Hume AI 공식
- Hume EVI 4 발표
- Microsoft VALL-E 발표
- Meta Voicebox 발표
- Mamba 아키텍처 논문
- Silero VAD GitHub
- WebRTC for Voice AI — Cartesia 가이드
- Voice Agent Latency Best Practices — Vapi 문서
- Twilio Voice AI 통합
- Azure Speech Service
- Google Cloud TTS Chirp 3
- AWS Polly Generative Voices