필사 모드: 음성 AI 2026 — ElevenLabs / Cartesia / Sesame / Whisper Turbo / Deepgram / Parakeet 심층 가이드
한국어> **Voice AI 2026 시리즈** — 2024년 10월 Whisper Turbo가 8배 빨라진 뒤로 음성 AI 시장은 텍스트 LLM만큼 빠르게 움직이고 있다. 이 글은 TTS·STT·실시간 에이전트의 2026년 5월 시점 지형도다.
Prologue — 왜 지금 다시 음성인가
2022~2023년의 LLM 붐은 텍스트 중심이었다. ChatGPT 웹 채팅, GitHub Copilot, RAG 챗봇 — 전부 키보드 입력. 음성은 "음, 언젠가 될 것 같은데"의 영역이었다.
2026년엔 다음 세 사건으로 그림이 바뀌었다.
1. **Whisper Large v3 Turbo (2024.10)** — OpenAI가 v3 대비 8배 빠른 turbo 변형을 오픈소스로 공개. 한 대의 A100에서 실시간 STT가 가능해짐.
2. **Cartesia Sonic 2 (2024)** — Mamba state-space model 논문 저자(Albert Gu, Tri Dao)들이 창업한 회사. 90ms 미만 TTS, GPT-4 수준 LLM과 함께 써도 사람이 "AI랑 통화 중"이라고 못 느낌.
3. **Sesame (2025.3)** — Oculus 공동 창업자 Brendan Iribe가 들고 나온 "voice presence" 시연. 30초 데모만 들으면 누구든 "이건 다르다"고 느낌.
여기에 ElevenLabs V3, Deepgram Nova-3, AssemblyAI Universal-2, NVIDIA Parakeet 1.1, OpenAI Realtime API, Vapi/Retell 같은 음성 에이전트 플랫폼이 합쳐졌다. 2026년 5월 현재 "AI 콜센터"는 PoC가 아니라 양산 단계다.
이 글은 14개 장에 걸쳐 그 지형도를 정리한다.
1장 · 2026년 음성 AI 지도 — TTS / STT / 음성 에이전트 3축
1.1 세 축의 분업
음성 AI 시스템은 거의 항상 세 컴포넌트로 쪼개진다.
| 단계 | 역할 | 대표 모델/서비스 |
| --- | --- | --- |
| STT (Speech-to-Text) | 사람의 음성 → 텍스트 | Whisper Turbo, Deepgram Nova-3, AssemblyAI Universal-2, Parakeet |
| LLM | 텍스트 입력 → 텍스트 응답 | GPT-4o, Claude 3.5, Gemini 2 |
| TTS (Text-to-Speech) | 텍스트 → 음성 | ElevenLabs, Cartesia Sonic 2, Sesame, OpenAI TTS, VOICEVOX |
여기에 "전부 한 모델로 처리" 하는 통합형이 추가된다. OpenAI Realtime API, Google Live API, ElevenLabs Conversational v2 같은 것들. 통합형은 더 자연스럽지만 가격·제약·디버깅 난이도가 다르다.
1.2 평가 축
2026년 시점 음성 AI는 다음 4축으로 평가한다.
- **지연(latency)** — 사람 말이 끝나고 AI가 입을 떼기까지. 200ms 미만이 자연스러움 한계
- **품질(quality)** — 자연스러움, 감정 표현, 다국어 정확도
- **가격(cost)** — 분당 또는 1M 글자당 가격
- **제어(control)** — 음성 클로닝, 감정 태그, SSML, 발화 속도 등
이 4축을 동시에 다 충족하는 모델은 없다. 그래서 "어떤 워크로드인가"에 따라 답이 바뀐다. 콜센터냐, 게임 캐릭터 더빙이냐, 오디오북이냐에 따라 우선순위가 다 다르다.
1.3 오픈소스 vs 상용
| 축 | 오픈소스 | 상용 |
| --- | --- | --- |
| TTS 품질 | F5-TTS, XTTS-v2, ChatTTS — 좋아졌지만 상용엔 못 미침 | ElevenLabs, Cartesia, Sesame — 압도적 |
| STT 정확도 | Whisper, Parakeet — 상용과 거의 동급 | Deepgram, AssemblyAI — 약간 우위, 도메인 튜닝 |
| 지연 | 자체 호스팅으로 100ms 가능 | 200~500ms (네트워크) |
| 가격 | GPU 비용만 | 분당 $0.01~$0.30 |
오픈소스는 STT에서 상용을 거의 따라잡았고, TTS에선 아직 격차가 있다. 이게 2026년 시점의 큰 그림이다.
2장 · Whisper Large v3 Turbo (2024.10) — 8배 빠른 multilingual STT
2.1 v3 → v3 turbo의 변화
2022년 9월 OpenAI가 Whisper를 오픈소스로 공개했을 때, 그건 음성 AI에서 가장 큰 사건 중 하나였다. 99개 언어, multilingual, 무료, 그리고 STT 정확도가 상용 수준.
2024년 10월에 공개된 v3 turbo는 v3 large의 decoder 레이어를 32 → 4로 줄이고, 압축한 변형이다. 결과:
- **속도**: v3 대비 약 8배 빠름
- **모델 크기**: 1.5B → 809M
- **정확도**: 영어/한국어/일본어 같은 메이저 언어는 v3 대비 1~2% 손실 정도 (실용적으론 거의 동일)
- **언어 커버리지**: 99개 → 일부 줄어듦 (희소 언어 일부 제외)
model = whisper.load_model("turbo") # large-v3-turbo
result = model.transcribe("interview.mp3", language="ko")
print(result["text"])
2.2 왜 8배가 의미 있나
이전 v3 large는 한 시간짜리 오디오를 transcribe하는 데 A100에서 약 3분 걸렸다. 실시간성과는 거리가 멀었다 (스트리밍은 별도 처리).
turbo로 같은 오디오를 22초에 끝낸다. 결과적으로:
- **실시간 자막**: 200~400ms 청크로 잘라서 처리해도 따라갈 수 있음
- **배치 처리 비용 감소**: 클라우드 GPU 시간을 1/8로
- **에지 디바이스**: M2 MacBook Air에서도 실시간 가능
2.3 한계
- **화자 분리(diarization)**: Whisper는 누가 말했는지 모름. WhisperX 같은 외부 도구가 필요.
- **실시간 스트리밍**: 30초 청크 기반이라 진짜 스트리밍은 아님. faster-whisper나 whisper-streaming으로 우회.
- **도메인 적응**: 의료/법률/금융 용어는 파인튜닝 필요. Deepgram/AssemblyAI는 도메인 커스텀 모델 제공.
2.4 비교 — faster-whisper / WhisperX / Distil-Whisper
| 도구 | 핵심 | 사용처 |
| --- | --- | --- |
| OpenAI 공식 Whisper | 원본 PyTorch 구현 | 학습/평가 |
| faster-whisper | CTranslate2 기반 4배 추가 가속 | 프로덕션 배치 |
| WhisperX | + diarization + word-level timestamp | 미디어 자막 |
| Distil-Whisper | 더 작은 distilled 변형 | 모바일/엣지 |
실무에선 보통 faster-whisper 또는 WhisperX를 쓴다. OpenAI 공식 구현은 학습/평가용.
3장 · Deepgram Nova-3 / AssemblyAI Universal-2 — 상용 STT 경쟁
3.1 Deepgram Nova-3 — 저지연의 강자
Deepgram의 강점은 latency다. Nova-3는 다음 특성을 가진다.
- **첫 단어 지연 100ms 미만** — 사용자가 말하기 시작하면 거의 즉시 partial transcript 시작
- **end-to-end 자체 학습** — 외부 ASR이 아닌 자체 트랜스포머
- **도메인 커스텀** — 의료, 콜센터, 미디어 등 도메인별 모델 제공
- **가격** — 분당 약 $0.0043 (배치) ~ $0.0145 (스트리밍)
from deepgram import DeepgramClient, PrerecordedOptions
deepgram = DeepgramClient(api_key="...")
options = PrerecordedOptions(model="nova-3", smart_format=True, diarize=True)
response = deepgram.listen.prerecorded.v("1").transcribe_file(
{"buffer": audio_buffer}, options
)
콜센터 봇, 라이브 자막같이 "100ms 차이가 사용자 경험을 좌우하는" 시나리오에선 사실상 1순위.
3.2 AssemblyAI Universal-2 — 풀세트의 강자
AssemblyAI는 "transcript + 후처리" 풀세트로 승부한다. Universal-2의 특징:
- **단어 정확도** — 영어 WER 5% 이하 (Whisper v3 large와 동등 또는 약간 우위)
- **Auto-chapters, summarization, PII redaction, sentiment** — 모두 한 API에서
- **언어 감지** — 자동으로 99개 언어 감지
- **가격** — 분당 약 $0.0065 (Best 모델), 후처리 옵션별 가산
특히 미디어/팟캐스트 같이 "transcript 받고 끝이 아니라 챕터/요약/감정도 필요한" 경우에 강하다.
3.3 Speechmatics — 액센트 강자
Speechmatics는 영국 회사로, 다양한 영어 액센트(인도, 호주, 카리브, 스코틀랜드 등)에서 강하다. 글로벌 콜센터처럼 액센트 다양성이 클 때 우위.
3.4 NVIDIA Riva — 자체 호스팅 강자
NVIDIA Riva는 자체 호스팅 음성 SDK. 데이터가 외부로 못 나가는 정부/금융/의료에서 쓰인다. Parakeet 모델을 Riva에서 서빙하는 게 일반적인 패턴.
3.5 AWS Transcribe / Azure Speech / Google STT
하이퍼스케일러 3사도 STT를 가진다. 정확도는 Deepgram/AssemblyAI 대비 약간 떨어지지만, 같은 클라우드 안에서 다른 서비스와 통합하기 쉽다는 장점.
3.6 비교 표
| 서비스 | 영어 WER | 한국어 WER | 지연 | 분당 가격 (USD) | 강점 |
| --- | --- | --- | --- | --- | --- |
| Whisper v3 turbo (셀프) | ~5% | ~8% | ~1~3s | GPU만 | 무료, multilingual |
| Deepgram Nova-3 | ~4% | ~9% | `<100ms` | 0.004~0.015 | 저지연 |
| AssemblyAI Universal-2 | ~4% | ~10% | ~300ms | 0.0065+ | 후처리 |
| Parakeet 1.1 (셀프) | ~5% | N/A | ~200ms | GPU만 | 오픈소스 SOTA |
| Speechmatics | ~5% | ~9% | ~200ms | 0.007+ | 액센트 |
| AWS Transcribe | ~7% | ~12% | ~500ms | 0.024 | AWS 통합 |
수치는 공개 벤치마크 기준의 대략치다. 도메인/오디오 품질에 따라 크게 달라진다.
4장 · NVIDIA Parakeet 1.1 — 오픈소스의 SOTA
4.1 Parakeet은 무엇인가
NVIDIA가 NeMo 프레임워크로 학습한 오픈소스 STT 모델군. 2024년 말 Parakeet 1.1이 공개되면서 "오픈소스 STT가 상용을 따라잡았다"는 평가를 받았다.
- **모델 크기**: 110M~1.1B 파라미터 변형
- **아키텍처**: FastConformer + CTC/Transducer 하이브리드
- **속도**: 동일 GPU에서 Whisper turbo 대비 2배 이상 빠름
- **정확도**: HuggingFace OpenASR 리더보드 영어 부문 상위
4.2 왜 빠른가
Whisper는 Transformer encoder + decoder를 쓴다. 오디오 30초 청크에서 토큰을 autoregressive로 생성. Parakeet은 FastConformer encoder + CTC (또는 RNN-T) decoder를 쓴다. CTC는 자기회귀가 아니라 시퀀스 정렬이라 훨씬 빠르다.
대신 multilingual 커버리지는 Whisper만 못하다. Parakeet 1.1 영어 모델은 영어 전문이고, 다국어 변형(Canary)이 따로 있다.
4.3 NeMo로 셀프 호스팅
asr_model = nemo_asr.models.ASRModel.from_pretrained(
"nvidia/parakeet-tdt-1.1b"
)
transcripts = asr_model.transcribe(["audio.wav"])
print(transcripts[0])
GPU 한 대로 분당 수백 시간 오디오를 처리할 수 있다. 라이센스도 CC-BY-4.0이라 상용에서 자유롭다.
4.4 다국어 변형 — Canary
NVIDIA가 Parakeet과 별도로 공개한 multilingual ASR. 영어/스페인어/독일어/프랑스어 등 일부 언어 지원. 한국어/일본어는 아직 제한적이라 Whisper가 우위.
5장 · ElevenLabs — TTS의 표준
5.1 왜 ElevenLabs가 1위인가
2023년 등장 이후 ElevenLabs는 TTS의 사실상 표준이 됐다. 이유:
1. **자연스러움** — "AI 음성"이라기보단 "이 사람의 목소리"라고 느낄 수 있는 첫 모델
2. **다국어** — 같은 목소리로 30개 언어, 액센트 보존
3. **클로닝** — 1분 샘플로 보컬 클론, "Professional Voice Clone"은 30분+ 샘플
4. **API/UX 둘 다 좋음** — 개발자가 5분 만에 통합 가능, 비개발자도 웹에서 바로 씀
5.2 모델 라인업
- **Multilingual v2 (2023)** — 클래식 모델. 품질 좋고 안정적. 지연 ~400ms
- **Flash v2.5 (2024)** — 저지연 모델, 75ms 미만. 품질은 v2보다 약간 낮음
- **V3 alpha (2025)** — 감정 태그, dialogue 지원, audio tags ([whispers], [laughs])
- **Conversational v2 (2025)** — TTS + STT + LLM 통합 음성 에이전트
5.3 V3의 감정 태그
V3에선 텍스트에 인라인 태그로 감정을 지정할 수 있다.
[excited] Welcome back!
[whispers] I have a secret.
[laughs] That's hilarious.
[sighs] Okay, let's start over.
이게 의외로 큰 변화다. 이전엔 SSML로 prosody를 미세 조정해야 했는데, V3는 자연어 태그로 감정을 표현할 수 있다.
5.4 가격
- **Starter**: 월 5달러에 30K 글자
- **Creator**: 월 22달러에 100K 글자 + voice cloning
- **Pro/Scale/Business**: 사용량 기반
- **API rate**: 영어 약 $0.18/1K 글자 (Flash), $0.30/1K 글자 (V2)
다른 모델 대비 비싸지만 품질 차이가 워크플로 차이를 만들기 때문에 게임·영상·오디오북 시장에선 사실상 default.
5.5 한계
- 한국어 자연스러움은 영어만 못함 (그래도 다른 글로벌 TTS보단 나음)
- 일본어는 발음/억양에 가끔 어색함
- 가격이 다른 옵션 대비 2~5배
6장 · Cartesia (Mamba 저자들) — Sonic 2 + 초저지연
6.1 누가 만들었나
Cartesia는 2023년 Albert Gu, Tri Dao 등 **Mamba state-space model 논문 저자들이 창업한 회사**다. Mamba는 Transformer 대안으로 주목받은 아키텍처로, 시퀀스가 길어져도 메모리/연산이 선형으로 증가한다. 음성에 잘 맞는다.
6.2 Sonic / Sonic 2 — 90ms TTS
Cartesia의 첫 모델 Sonic은 90ms 미만 TTS로 화제가 됐다. Sonic 2 (2024년 말)에선:
- **첫 바이트 지연 75ms 미만** — ElevenLabs Flash 대비 절반
- **품질** — ElevenLabs Multilingual v2와 비교 가능한 자연스러움
- **다국어** — 영어/스페인어/프랑스어/독일어/일본어/중국어/한국어 등
- **voice cloning** — 3초 샘플로 instant clone
from cartesia import Cartesia
client = Cartesia(api_key="...")
audio = client.tts.sse(
model_id="sonic-2",
transcript="안녕하세요, 반갑습니다.",
voice={"mode": "id", "id": "your_voice_id"},
output_format={"container": "raw", "encoding": "pcm_f32le", "sample_rate": 44100},
)
6.3 왜 빠른가
Mamba 기반 state-space model은 Transformer의 attention과 다르게 토큰 간 의존을 O(n) 시간으로 처리한다. TTS처럼 시퀀스가 긴 워크로드에서 큰 이득.
또한 Cartesia는 inference에서 streaming을 1순위로 설계했다. 첫 청크가 입력되자마자 첫 바이트가 나가도록 파이프라인이 만들어져 있다.
6.4 어디에 쓰나
- 실시간 음성 에이전트 (Vapi/Retell의 기본 TTS 옵션 중 하나)
- 게임 NPC — 동적 대사
- 라이브 통역
ElevenLabs가 "품질 최고"라면 Cartesia는 "지연·품질 균형 최고"다.
7장 · Sesame (Iribe, 2025.3) — "voice presence"
7.1 Brendan Iribe와 Sesame
Brendan Iribe는 Oculus VR 공동 창업자다. 페이스북에 매각 후 Anduril 등을 거쳐 2024년 Sesame를 창업, 2025년 3월에 첫 시연을 공개했다.
Sesame의 컨셉은 "voice presence" — 단순히 자연스러운 음성이 아니라, **상대가 거기 있다고 느끼는** 음성. 호흡, 머뭇거림, "음...", 백채널 ("응", "어어"), 끼어들기 등을 자연스럽게.
7.2 시연이 충격적이었던 이유
2025년 3월 공개된 30초 데모는 SNS에서 폭발적으로 공유됐다. 이유:
- 대답이 시작되기 전 0.3초 정도 "잠시 생각하는" 호흡
- 사용자 말 도중에 "아 그래?" 같은 백채널 삽입
- 말끝의 fading이 자연스러움 — AI 음성이 가진 특유의 "딱 끝남"이 사라짐
- 감정 표현이 텍스트 의미와 같이 움직임
ElevenLabs/Cartesia가 "자연스러운 음성"을 만들었다면, Sesame는 "사람이 거기 있는 느낌"을 만들었다는 평가.
7.3 기술적으로 무엇이 다른가
Sesame는 백서를 부분 공개했다. 핵심:
- **단일 backbone에서 텍스트·음성·prosody를 같이 모델링** — 별도 TTS가 아니라 음성 LLM
- **interruption 처리** — 사용자가 끼어들면 음성을 자연스럽게 멈추고 받아쳐줌
- **non-verbal sounds** — 한숨, 웃음, 헛기침이 학습 데이터에 포함
7.4 한계와 의문
- 2026년 5월 현재 GA가 아니라 일부 베타. 가격/SLA 미공개
- 영어 위주, 한국어/일본어는 미지원
- Sesame가 진짜 "voice presence"를 양산 가능한 비용에 만들 수 있는지는 아직 미증명
그래도 이 방향(음성을 단순한 TTS가 아니라 presence로 다루는 것)은 ElevenLabs/Cartesia가 곧 따라잡는다고 봐야 한다.
8장 · ChatTTS / F5-TTS / XTTS-v2 — 오픈소스 TTS
8.1 ChatTTS — 중국팀의 자연스러운 영어 TTS
ChatTTS는 중국 팀이 2024년에 공개한 오픈소스 TTS. 특징:
- 영어 자연스러움이 ElevenLabs Multilingual v2 수준에 근접 (오픈소스 중 톱)
- 대화체에 특화 — 같은 텍스트도 "대화처럼" 읽음
- HuggingFace에 무료 가중치
- 한국어/일본어는 약함
8.2 F5-TTS — 한국 HuggingFace 핫이슈
F5-TTS는 2024년 말 공개된 오픈소스 TTS로, HuggingFace 트렌딩 1위에 오른 모델이다. 한국 개발자 커뮤니티에서도 화제. 특징:
- **Flow matching** 기반 (diffusion 변형) — 학습이 더 안정적
- voice cloning — 15초 샘플로 zero-shot clone
- 다국어 — 영어/중국어 중심, 다른 언어는 파인튜닝 필요
- 라이센스 — 비상용 (상용 제한 있음, 체크 필수)
8.3 XTTS-v2 (Coqui) — 클로닝의 클래식
Coqui는 2023~2024년에 활발했던 오픈소스 TTS 회사. 회사 자체는 문 닫았지만 XTTS-v2 가중치는 HuggingFace에 남아있다.
- 17개 언어
- 6초 샘플로 voice clone
- 자연스러움은 ElevenLabs보단 못하지만 무료
- 한국어/일본어 지원
from TTS.api import TTS
tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
tts.tts_to_file(
text="안녕하세요.",
speaker_wav="reference.wav",
language="ko",
file_path="output.wav",
)
8.4 Tortoise TTS — 느리지만 품질
Tortoise는 2022년에 나온 비교적 오래된 오픈소스 TTS. 추론이 매우 느리지만(분 단위) 품질이 좋아서 한때 "오픈소스 TTS의 표준"이었다. 지금은 ChatTTS/F5-TTS에 자리를 내줬다.
8.5 오픈소스 TTS 선택 가이드
| 모델 | 영어 품질 | 다국어 | 추론 속도 | 라이센스 |
| --- | --- | --- | --- | --- |
| ChatTTS | 매우 좋음 | 약함 | 빠름 | 비상용 우려 |
| F5-TTS | 좋음 | 영어/중국어 | 보통 | 비상용 |
| XTTS-v2 | 좋음 | 17개 언어 | 보통 | CPL (조건부 상용) |
| Tortoise | 매우 좋음 | 영어 | 매우 느림 | Apache 2.0 |
상용에 쓰려면 라이센스 확인이 필수다. F5-TTS는 비상용 제한이 명시돼 있어서 상용 제품엔 못 쓴다.
9장 · Realtime API — OpenAI / Google / ElevenLabs Conversational
9.1 무엇이 "Realtime"인가
전통적 음성 파이프라인은 STT → LLM → TTS 3단으로 직렬이다. 각 단계마다 지연·왜곡·기다림이 누적된다. Realtime API는 이걸 한 모델에서 음성 입력 → 음성 출력으로 묶는다.
장점:
- 지연이 짧음 (200~500ms vs 1~2s)
- 끼어들기 처리 자연스러움
- 비언어 정보(웃음, 한숨, 톤)가 전달됨
단점:
- 가격이 비쌈 (입력 분당 $0.06 + 출력 분당 $0.24 수준)
- 디버깅 어려움 (텍스트 단계가 없으니 로그가 음성)
- 함수 호출/외부 도구 통합이 좀 더 까다로움
9.2 OpenAI Realtime API (gpt-4o-realtime)
2024년 말 공개. WebSocket 기반.
const ws = new WebSocket("wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview")
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: { voice: "alloy", instructions: "친절한 한국어 비서로 답해 줘." }
}))
})
ws.on("message", (data) => {
const event = JSON.parse(data)
if (event.type === "response.audio.delta") {
// base64 PCM 청크
}
})
GPT-4o 음성 모델이 입력 음성을 듣고, 직접 출력 음성을 만든다. 한국어/일본어도 지원.
9.3 Google Live API (Gemini 2)
Gemini 2의 Live API. WebSocket으로 비슷한 인터페이스. Google 생태계(검색, Maps, Calendar) 통합이 강점.
9.4 ElevenLabs Conversational v2
ElevenLabs도 TTS만 하던 위치에서 음성 에이전트 플랫폼으로 확장. STT는 자체 + Deepgram 옵션, LLM은 OpenAI/Anthropic/Google 선택 가능, TTS는 ElevenLabs 보이스. 즉 "골라 끼우기" 가능한 통합 플랫폼.
9.5 언제 Realtime을 쓰고 언제 분리해야 하나
**Realtime 권장**:
- 단순 대화 봇, FAQ 응답
- 사람과 가까운 자연스러움이 KPI인 시나리오 (피팅, 코칭)
- 끼어들기/백채널이 중요한 시나리오
**분리 권장**:
- 복잡한 워크플로 (도구 호출 여러 단계, 컨텍스트 분기)
- 음성 별도 TTS 모델로 브랜드 보이스 유지
- 로깅/감사가 엄격한 도메인 (금융, 의료)
10장 · 음성 에이전트 — Vapi / Retell / Bland / Synthflow
10.1 음성 에이전트 플랫폼이란
콜센터 봇을 만들려면 직접 STT/LLM/TTS를 묶고, 전화망(SIP/Twilio)을 연결하고, 끼어들기·턴테이킹·콜 라우팅을 구현해야 한다. 그걸 다 해주는 플랫폼이 2024~2025년에 폭발적으로 늘었다.
10.2 Vapi
샌프란시스코 발 스타트업. YC 출신. 특징:
- TTS/STT/LLM을 골라 끼움 (ElevenLabs/Cartesia/Deepgram/AssemblyAI 등)
- Twilio/Vonage 등 PSTN 통합
- Webhook으로 외부 API 호출 (예약, CRM 업데이트)
- 가격 — 분당 약 $0.05~$0.15 + 사용한 모델 비용
10.3 Retell AI
Vapi와 가장 직접적인 경쟁자. UI가 좀 더 매끄럽고, 라이브 콜 트랜스크립트가 보기 쉽다. 가격대는 비슷.
10.4 Bland AI
세일즈 콜에 특화. 대량 아웃바운드 콜 (예: 부동산 리드 콜드콜)에 강점. 콜당 단가가 저렴.
10.5 Synthflow
EU 발 노코드 음성 에이전트 빌더. GUI로 흐름을 그릴 수 있어서 개발자가 아닌 운영팀이 쓸 수 있다.
10.6 비교 표
| 플랫폼 | 강점 | 단점 | 분당 가격 (USD) |
| --- | --- | --- | --- |
| Vapi | 유연성, API 좋음 | UI는 평범 | 0.05~0.15 + 모델 |
| Retell AI | UI 깔끔, 트랜스크립트 보기 좋음 | 가격 비슷 | 0.07~0.15 + 모델 |
| Bland AI | 아웃바운드 콜 대량 처리 | 인바운드/복잡 봇은 약함 | 0.09 콜당 약 |
| Synthflow | 노코드, EU 데이터 | API 유연성 약함 | 0.13~ + 모델 |
10.7 직접 만들기 vs 플랫폼
분당 1만 콜 이하라면 플랫폼이 거의 항상 싸다. 1만 콜 이상이거나, 데이터가 외부로 못 나가는 도메인이면 직접 LiveKit + Deepgram + Cartesia 같은 조합으로 빌드.
11장 · 한국 — 네이버 클로바, 카카오 KOTTS, SK 누구
11.1 네이버 클로바 Voice / Clova Studio
네이버는 클로바 Voice (TTS), 클로바 Speech (STT), HyperCLOVA X (LLM)를 모두 갖춘 음성 풀스택. 한국어 자연스러움은 ElevenLabs보다 우위. 가격은 분당 또는 글자당 과금.
11.2 카카오 KOTTS
카카오엔터프라이즈의 한국어 TTS. 콜센터, 안내 시스템 등 B2B 중심. 카카오톡 챗봇 빌더와 통합.
11.3 SK 누구 / NUGU
SK텔레콤의 음성 비서 플랫폼. 누구 스피커, T맵 음성, 누구 캔디 등 컨슈머 시장에서 강하다.
11.4 코웨이 Sonatts / 그 외
코웨이 등 일부 기업에서 자체 한국어 TTS를 개발. 일반 시장 노출은 제한적.
11.5 한국어 STT — 클로바 vs Deepgram vs Whisper
| 모델 | 한국어 WER | 강점 | 약점 |
| --- | --- | --- | --- |
| 네이버 클로바 Speech | 약 5~7% | 한국어 도메인 튜닝, 한국어 고유명사 | 글로벌 통합 약함 |
| Deepgram (한국어) | 약 9% | 저지연, 글로벌 | 도메인 튜닝 약함 |
| Whisper v3 turbo | 약 8% | 무료, multilingual | diarization 별도 |
| Parakeet | 미지원 (영어 위주) | - | - |
한국 기업이 한국 사용자만 대상으로 한다면 클로바가 1순위. 글로벌 + 한국어면 Whisper turbo 또는 Deepgram.
11.6 한국어 음성 에이전트 사례
- 은행/카드 콜센터 IVR — KB, 신한, 카카오뱅크 등 부분 도입
- 배달 앱 음성 주문 — 일부 시범
- 게임 NPC — 엔씨소프트의 사례
한국어 음성 에이전트는 글로벌 대비 2~3년 늦지만 빠르게 따라잡는 중.
12장 · 일본 — VOICEVOX (오픈소스), Coeiroink, GPT-SoVITS, Bert-VITS2
12.1 VOICEVOX — 일본 오픈소스 TTS의 표준
VOICEVOX는 일본에서 압도적인 인지도를 가진 오픈소스 TTS다. 특징:
- **무료, 일정 조건 하 상용 가능** — 캐릭터별 이용약관 확인 필수
- **수십 종의 캐릭터 보이스** — 시키, 메토안, 즌다몬 등이 인터넷 밈
- **GPU 없이 로컬 실행 가능** — CPU에서도 실시간
- 일본 유튜브/니코니코 영상의 절반은 VOICEVOX
12.2 Coeiroink
VOICEVOX와 비슷한 일본 오픈소스 TTS. 좀 더 자유로운 라이센스로 캐릭터를 쓸 수 있어 선호하는 사람들이 있다.
12.3 GPT-SoVITS
일본·중국 커뮤니티에서 인기 있는 zero-shot voice cloning TTS. 1분 미만 샘플로 클론 가능. 일본 보이스 컨텐츠 제작자들에게 사실상 표준.
12.4 Bert-VITS2
또 다른 인기 오픈소스. BERT 기반 텍스트 인코더 + VITS 디코더. 일본어/중국어 강점.
12.5 일본어 상용 TTS
- ElevenLabs Multilingual v2 — 일본어 가능, 자연스러움 평균 이상
- Azure Neural TTS — 일본어 보이스 풍부
- Google WaveNet — 일본어 안정적
- AWS Polly — 일본어 보이스 다수
상용은 글로벌 3사가 강하지만, 일본 컨텐츠 시장(VTuber, 동영상, 게임)에선 VOICEVOX/GPT-SoVITS가 압도적.
12.6 일본어 STT
| 모델 | 일본어 WER | 비고 |
| --- | --- | --- |
| Whisper v3 turbo | 약 8% | 가장 많이 쓰임 |
| AssemblyAI | 약 9% | 후처리 강점 |
| Google STT | 약 7% | 일본어 도메인 튜닝 좋음 |
| Azure Speech | 약 7% | 일본어 보이스 풍부 |
| Deepgram | 약 11% | 일본어 약점 |
일본어는 Deepgram이 의외로 약하고, Google/Azure가 우위인 경우가 많다.
13장 · 누가 무엇을 골라야 하나 — 콜센터 / 게임 캐릭터 / 오디오북 / 통역
13.1 콜센터 인바운드 봇
**목표**: 빠른 응답 + 자연스러운 한국어/영어 + 끼어들기 처리 + 도구 호출
추천:
- STT: Deepgram Nova-3 (영어) 또는 네이버 클로바 (한국어)
- LLM: GPT-4o 또는 Claude 3.5
- TTS: Cartesia Sonic 2 (영어) 또는 클로바 Voice (한국어)
- 플랫폼: Vapi 또는 Retell AI
대안: OpenAI Realtime API 단독 (간단한 봇이면 충분, 가격은 더 비쌈)
13.2 게임 NPC 더빙
**목표**: 캐릭터 보이스 일관성 + 감정 표현 + 다국어
추천:
- TTS: ElevenLabs Professional Voice Clone + V3 감정 태그
- 또는: Cartesia voice cloning (저지연이 중요한 동적 대사용)
- 오픈소스 옵션: GPT-SoVITS (캐릭터 보이스 클론)
13.3 오디오북 / 팟캐스트
**목표**: 자연스러운 긴 호흡, 감정 표현, 정확한 발음
추천:
- ElevenLabs Multilingual v2 + Voice Lab
- 한국어 단편이면: 네이버 클로바
- 다중 화자면: ElevenLabs Projects 모드
13.4 라이브 통역
**목표**: 초저지연 STT + 즉시 번역 + 자연스러운 TTS
추천:
- STT: Deepgram Nova-3 또는 AssemblyAI
- 번역: GPT-4o 또는 Claude
- TTS: Cartesia Sonic 2 (저지연이 핵심)
- 또는: OpenAI Realtime API (가장 단순, 가장 부드러움)
13.5 동영상 자막 / 콘텐츠 후처리
**목표**: 정확도 + 화자 분리 + 챕터/요약
추천:
- AssemblyAI Universal-2 (가장 풀세트)
- 또는: WhisperX (오픈소스로 다 처리하고 싶을 때)
13.6 비용 민감 + 비공개 데이터
**목표**: 데이터가 외부로 못 나감, GPU만으로 운영
추천:
- STT: Parakeet 1.1 또는 Whisper v3 turbo (NeMo or faster-whisper)
- TTS: XTTS-v2 또는 F5-TTS (라이센스 주의)
- LLM: Llama 3 70B 또는 Qwen 2.5
- 인프라: NVIDIA Riva 또는 직접 vLLM/Triton
13.7 한 줄 요약 매트릭스
| 시나리오 | STT | TTS | 비고 |
| --- | --- | --- | --- |
| 한국어 콜센터 | 클로바 Speech | 클로바 Voice | 도메인 튜닝 |
| 영어 콜센터 | Deepgram | Cartesia Sonic 2 | 저지연 |
| 게임 NPC | (필요 없음) | ElevenLabs V3 | 감정 태그 |
| 오디오북 | (필요 없음) | ElevenLabs v2 | 긴 호흡 |
| 라이브 통역 | Deepgram | Cartesia | 또는 OpenAI Realtime |
| 미디어 자막 | AssemblyAI | (필요 없음) | 챕터/요약 |
| 사내 비공개 | Parakeet | XTTS-v2 | NVIDIA Riva |
| 일본 컨텐츠 | Whisper | VOICEVOX | 캐릭터 보이스 |
14장 · 마무리 — 2026년 음성 AI의 큰 그림
세 가지 큰 흐름.
**첫째, STT는 거의 다 풀렸다.** Whisper turbo, Deepgram Nova-3, Parakeet 1.1로 영어 WER 5% 이하가 일반화됐다. 남은 건 도메인 적응(의료/법률 용어), 다국어 정확도(특히 저자원 언어), 화자 분리·감정 메타데이터 같은 보조 정보.
**둘째, TTS는 "자연스러운 음성"에서 "voice presence"로 이동 중이다.** ElevenLabs/Cartesia가 자연스러움을 거의 완성했고, Sesame가 "사람이 거기 있는 느낌"이라는 새 벤치마크를 던졌다. 2026년 후반~2027년에 ElevenLabs/Cartesia가 비슷한 영역으로 따라온다.
**셋째, 통합형(Realtime API)이 분리형 파이프라인을 잠식한다.** 단순 봇은 OpenAI Realtime API 하나로 충분하다. 분리형이 살아남는 영역은 (a) 브랜드 보이스가 중요한 곳, (b) 복잡한 도구 호출이 필요한 곳, (c) 음성 데이터를 별도 감사해야 하는 도메인.
음성 AI는 더 이상 "재밌는 데모"가 아니다. 2026년엔 콜센터, 자동차 인포테인먼트, 게임, 교육, 헬스케어 같은 양산 워크로드에 들어가 있다. 다음 1~2년의 관전 포인트는 (1) Sesame이 진짜로 양산 가능한지, (2) 오픈소스 TTS가 ElevenLabs 격차를 좁히는지, (3) Whisper turbo가 한 번 더 점프하는지다.
참고 / References
- OpenAI Whisper v3 turbo 공개 — https://github.com/openai/whisper/discussions/2363
- OpenAI Whisper paper — https://arxiv.org/abs/2212.04356
- Deepgram Nova-3 — https://deepgram.com/learn/introducing-nova-3
- AssemblyAI Universal-2 — https://www.assemblyai.com/blog/universal-2
- NVIDIA Parakeet — https://huggingface.co/nvidia/parakeet-tdt-1.1b
- NVIDIA NeMo — https://github.com/NVIDIA/NeMo
- HuggingFace OpenASR Leaderboard — https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
- ElevenLabs API docs — https://elevenlabs.io/docs
- Cartesia — https://cartesia.ai
- Mamba 논문 (Albert Gu, Tri Dao) — https://arxiv.org/abs/2312.00752
- Sesame (Brendan Iribe) — https://www.sesame.com
- ChatTTS GitHub — https://github.com/2noise/ChatTTS
- F5-TTS — https://github.com/SWivid/F5-TTS
- Coqui XTTS-v2 — https://huggingface.co/coqui/XTTS-v2
- Tortoise TTS — https://github.com/neonbjb/tortoise-tts
- OpenAI Realtime API — https://platform.openai.com/docs/guides/realtime
- Google Gemini Live API — https://ai.google.dev/gemini-api/docs/live
- ElevenLabs Conversational AI — https://elevenlabs.io/conversational-ai
- Vapi — https://vapi.ai
- Retell AI — https://retellai.com
- Bland AI — https://bland.ai
- Synthflow — https://synthflow.ai
- 네이버 클로바 Voice — https://www.ncloud.com/product/aiService/clovaVoice
- 카카오 KOTTS — https://www.kakaocorp.com
- VOICEVOX — https://voicevox.hiroshiba.jp
- Coeiroink — https://coeiroink.com
- GPT-SoVITS — https://github.com/RVC-Boss/GPT-SoVITS
- Bert-VITS2 — https://github.com/fishaudio/Bert-VITS2
- LiveKit Agents — https://docs.livekit.io/agents
- faster-whisper — https://github.com/SYSTRAN/faster-whisper
- WhisperX — https://github.com/m-bain/whisperX
현재 단락 (1/350)
2022~2023년의 LLM 붐은 텍스트 중심이었다. ChatGPT 웹 채팅, GitHub Copilot, RAG 챗봇 — 전부 키보드 입력. 음성은 "음, 언젠가 될 것 같은데"...