Skip to content
Published on

음성 AI & TTS 2026 완벽 가이드 - ElevenLabs · Cartesia Sonic · OpenAI Voice · Play.HT · Hume · Sesame · Fish Audio · Deepgram Aura 심층 분석

Authors

프롤로그 — 음성이 LLM의 입과 귀가 된 해

2026년 5월 현재, 음성 AI라는 단어의 의미는 5년 전과 완전히 다르다.

  • ElevenLabs는 v3가 32개 언어 · 감정 라벨 · 5초 클로닝까지 지원하며 사실상 영어권 TTS 표준이 됐다.
  • Cartesia Sonic은 75ms TTFW(Time To First Word)로 가장 빠른 상용 TTS이며 LiveKit Agents의 기본 TTS다.
  • OpenAI Realtime API는 STT · LLM · TTS를 단일 WebSocket으로 처리하는 풀듀플렉스 모델을 일반화했다.
  • Google Gemini Live · Anthropic Claude voice mode가 LLM-네이티브 음성을 정착시켰다.
  • Hume EVI 2와 Sesame의 Maya/Miles 데모(2025년 3월)는 감정·자연스러움의 표현 한계를 다시 정의했다.
  • Fish Audio · CosyVoice 2 · F5-TTS는 오픈/중화권에서 점유율을 빠르게 끌어올렸다.
  • Deepgram Nova-3가 STT 지연을 50ms 미만으로 내렸고, AssemblyAI Universal-2 · OpenAI GPT-4o transcribe가 정확도로 맞선다.
  • LiveKit Agents · Pipecat · Vapi · Retell AI · Bland AI 같은 오케스트레이션 도구가 음성 에이전트의 표준 스택을 만들었다.
  • 미국 테네시 주의 ELVIS Act · EU AI Act가 음성 클로닝 윤리에 처음으로 법적 선을 그었다.
  • 한국은 타입캐스트(Neosapience)와 네이버 클로바 더빙, 일본은 CoeFont · VOICEVOX가 자국 시장을 주도한다.

이 글은 그 전체 지도다. 어떤 도구가 어떤 자리를 차지하는지, 어떤 지표가 정말 중요한지, 그리고 2026년 새 프로젝트라면 무엇을 고를지를 정리한다.


1. 2026 음성 스택 — 4단 파이프라인

오늘날의 음성 AI는 네 단계로 정리된다.

[ 1단 ] 입력           - 마이크 / WebRTC / SIP / 전화
[ 2단 ] STT (ASR)      - Deepgram Nova-3 / AssemblyAI / GPT-4o transcribe / Whisper v3 turbo
[ 3단 ] LLM            - GPT-5 / Claude 4.5 / Gemini 2.5 Pro / Llama 4
[ 4단 ] TTS            - ElevenLabs / Cartesia / OpenAI / Play.HT / Hume / Sesame
[ 횡축 ] 오케스트레이션 - LiveKit Agents / Pipecat / Vapi / Retell / Bland
[ 횡축 ] 인터럽션      - VAD / barge-in / turn detection / endpointing

전통적인 STT → LLM → TTS 파이프라인은 여전히 가장 많이 쓰이지만, 2025년부터 OpenAI Realtime · Gemini Live가 입증한 풀듀플렉스 LLM-네이티브 음성 모델이 빠르게 영역을 가져가고 있다.

단계핵심 지표
STTWER(단어 오류율), 첫 부분 결과 지연, 다국어
LLMTTFT(첫 토큰), TPS(토큰/초)
TTSTTFW(첫 단어), 음질 MOS, 음성 다양성
풀듀플렉스end-to-end 지연, 인터럽션 자연도

목표 대화형 지연은 한결같다. 첫 오디오까지 300ms 이하.


2. 핵심 지표 — 지연 그리고 또 지연

음성 AI에서 가장 자주 무시되지만 가장 중요한 지표는 사람의 인지 임계값이다.

  • 200ms 이하: 인간 대화처럼 느껴진다.
  • 200-500ms: 약간 어색하지만 견딜 만하다.
  • 500ms-1s: 명백히 느리다.
  • 1s 이상: 자동 응답기처럼 들린다.

전통적 파이프라인의 지연은 다음처럼 쌓인다.

마이크 -> VAD -> STT 부분결과 -> 종료점 -> LLM TTFT -> TTS TTFW -> 스피커
  10ms   30ms     80ms          200ms    400ms       150ms       30ms
                            누적: ~900ms

이걸 300ms 미만으로 끌어내리려면 다음 세 트릭이 필요하다.

  1. 스트리밍 STT — 종료점을 기다리지 않고 부분 결과를 LLM에 흘려보낸다.
  2. 스트리밍 LLM — 첫 토큰부터 TTS로 흘린다.
  3. 스트리밍 TTS — 단어 단위로 오디오를 출력한다.

OpenAI Realtime · Gemini Live는 이 세 단계를 모델 내부에서 융합해 200-400ms 수준의 단축을 얻는다.


3. ElevenLabs v3 — 영어권 TTS의 왕좌

ElevenLabs는 2022년 창업 이후 가장 빠르게 시장을 차지한 TTS 회사다. v3는 다음을 제공한다.

  • 32개 언어, 60초 클로닝, 5초 Instant Voice Clone(IVC)
  • 감정 라벨: 분노, 슬픔, 흥분, 속삭임 등
  • ElevenLabs Conversational AI — STT + LLM + TTS 단일 SDK
  • ElevenLabs Studio — 장편 더빙 / 오디오북
  • Voice Library — 5만+ 공개 보이스
  • ElevenLabs Reader — 시각 장애인 / 다독자용 앱

Python SDK 호출 예.

from elevenlabs.client import ElevenLabs
from elevenlabs import play

client = ElevenLabs(api_key="...")

audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v3",
    text="안녕하세요. 2026년 음성 AI 가이드입니다.",
)

play(audio)

스트리밍은 다음처럼.

stream = client.text_to_speech.convert_as_stream(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_flash_v2_5",  # 저지연 모델
    text="저지연 스트리밍 예시.",
)

for chunk in stream:
    speaker.write(chunk)

가격(2026년 5월):

플랜월 문자수가격
Free10k무료
Starter30k5달러
Creator100k22달러
Pro500k99달러
Scale2M330달러
Enterprise협의협의

API 종량제는 1M 문자당 약 180달러(eleven_multilingual_v3 기준)이고, eleven_flash_v2_5는 절반 수준이다.

장점: 음질, 다국어, Voice Library 규모, 통합 Conversational AI. 약점: 가격, 일부 언어(한국어/일본어)는 영어보다 어색함.


4. Cartesia Sonic — 가장 빠른 TTS

Cartesia는 Mamba 저자(Albert Gu, Karan Goel)들이 2023년 창업한 회사다. SSM(State Space Model) 기반 Sonic TTS는 다음으로 유명하다.

  • 75ms TTFW — 상용 TTS 중 압도적으로 빠름
  • Sonic-2(2025) / Sonic-3(2026) — 다국어, 감정, 노래
  • LiveKit Agents의 기본 TTS
  • Voice cloning — 3초 샘플로 가능

Python SDK 호출.

from cartesia import Cartesia

client = Cartesia(api_key="...")

# 스트리밍 합성
ws = client.tts.websocket()

for output in ws.send(
    model_id="sonic-3",
    transcript="저지연 음성 데모입니다.",
    voice_id="694f9389-aac1-45b6-b726-9d9369183238",
    output_format={
        "container": "raw",
        "encoding": "pcm_s16le",
        "sample_rate": 24000,
    },
):
    speaker.write(output.audio)

가격은 1M 문자당 약 65달러로 ElevenLabs의 절반 이하다. 대신 한국어 · 일본어 품질은 ElevenLabs보다 한 단계 낮은 편이다.

선택 기준: 지연이 절대값이라면 Cartesia, 다국어 품질이 우선이면 ElevenLabs.


5. Play.HT 3 — 다국어 + Realtime

Play.HT는 2016년 창업한 LA 기반 회사로, 30개 이상 언어를 지원한다. 3.0의 핵심은 다음.

  • PlayDialog — 두 명 이상의 대화 합성
  • Realtime API — 200ms TTFW
  • 142개 보이스 + 클로닝
  • LangChain · LlamaIndex 통합

Python 호출.

from pyht import Client, TTSOptions, Format

client = Client(user_id="...", api_key="...")

options = TTSOptions(
    voice="s3://voice-cloning-zero-shot/...",
    sample_rate=24000,
    format=Format.FORMAT_WAV,
)

for chunk in client.tts("Play.HT 3 데모입니다.", options=options):
    speaker.write(chunk)

가격은 100k 문자에 39달러부터. ElevenLabs와 Cartesia 사이 가격대.

특징: PlayDialog가 두 명 대화 자연스러움에서 가장 강하다. 팟캐스트 자동 생성에 인기.


6. OpenAI Voice — tts-1, gpt-4o-mini-tts, Realtime API

OpenAI는 2024년 tts-1로 시작해, 2025-2026년 사이 풀스택을 채웠다.

모델용도특징
tts-1표준 TTS빠름, 보통 품질, 6개 보이스
tts-1-hd고품질 TTS더 비싸지만 음질 우수
gpt-4o-mini-tts신세대 TTS지시 가능, 감정 조절
Realtime API (gpt-4o-realtime-preview)풀듀플렉스 음성STT+LLM+TTS 통합

Realtime API 예.

import WebSocket from 'ws'

const ws = new WebSocket(
  'wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2026',
  {
    headers: {
      Authorization: 'Bearer YOUR_KEY',
      'OpenAI-Beta': 'realtime=v1',
    },
  }
)

ws.on('open', () => {
  ws.send(
    JSON.stringify({
      type: 'session.update',
      session: {
        modalities: ['text', 'audio'],
        voice: 'alloy',
        instructions: '친절하고 간결하게 답하세요.',
        turn_detection: { type: 'server_vad' },
      },
    })
  )
})

ws.on('message', (data) => {
  const evt = JSON.parse(data)
  if (evt.type === 'response.audio.delta') {
    speaker.write(Buffer.from(evt.delta, 'base64'))
  }
})

가격(Realtime API): 오디오 입력 100달러/1M 토큰, 출력 200달러/1M 토큰. 1분 통화에 약 0.06달러. tts-1은 1M 문자당 15달러, gpt-4o-mini-tts는 12달러로 가장 싸다.

장점: 가격, 통합성, GPT 모델 직결. 단점: 보이스 다양성이 ElevenLabs · Cartesia 대비 작다.


7. Hume AI EVI 2 — 감정 음성 인터페이스

Hume AI는 감정 표현을 머신러닝의 일등 시민으로 둔 회사다. EVI 2(Empathic Voice Interface 2)는 다음을 한다.

  • 발화의 감정 측정 — 28개 감정 라벨
  • 응답 보이스의 감정 자동 조절
  • 풀듀플렉스 음성 — TTFW 약 700ms
  • 사용자의 톤에 맞춰 응답 톤 조절

CTO 위주 데모는 인상적이지만, 일반 대화 자연도에서 OpenAI Realtime 대비 어색함이 남아 있다. 의료 상담 · 정신건강 · 동반 챗봇 같은 감정 민감 분야에서 강하다.

가격은 1분당 약 0.072달러.


8. Sesame — Maya / Miles의 충격

Sesame는 Oculus 공동 창업자 Brendan Iribe가 시작한 Maven AI를 2024년 인수한 후 만든 회사다. 2025년 3월 공개한 Maya와 Miles 보이스 데모는 트위터를 발칵 뒤집었다.

  • 자연스러운 호흡 · 망설임 · 웃음
  • 사용자 감정에 맞춘 톤 조절
  • 길게 이야기해도 일관된 페르소나
  • Conversational Speech Model(CSM) 1B 오픈 소스 공개(연구용)

데모: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

2026년 5월 현재 상용 API는 아직 limited preview이지만, 자연스러움에서 ElevenLabs · Hume · OpenAI 어느 쪽도 따라가지 못하는 영역을 보여줬다. 단점은 영어 위주.


9. Fish Audio Speech 1.5 — 중화권 강자

Fish Audio는 중국 기반으로 2024년부터 빠르게 성장한 TTS 회사. Speech 1.5의 강점은 다음.

  • 중국어 자연도 1위 — 사투리 포함
  • 30초 voice cloning
  • 9개 언어 지원
  • 1M 문자당 약 12달러 — 매우 저렴
  • 오픈 소스 Fish Speech v1.4

선택 기준:

  • 중국어 화자 · 중화권 시장 → Fish Audio
  • 한국어 · 일본어 우선 → 타입캐스트 / 클로바 / CoeFont

OpenAudio S1(Fish Audio 후속) 모델도 공개됐다.


10. Deepgram Aura — STT 회사가 만든 TTS

Deepgram은 2015년 창업한 STT 전문 회사. 2024년 처음 TTS Aura를 출시했다.

  • TTFW 약 200ms
  • 가격 1M 문자당 약 15달러 — OpenAI tts-1 수준
  • 12개 보이스 (영어 중심)
  • 자신의 STT + Aura TTS를 묶어 풀스택 보이스 에이전트 SDK 제공

특징: STT와 TTS를 동일 벤더로 통합하면 인보이스 · SLA · 보안 모델이 단순해진다. 그러나 TTS 자체 품질은 ElevenLabs · Cartesia 대비 한 단계 낮다.


11. 그 밖의 TTS — Resemble, WellSaid, Coqui, F5-TTS

도구특징
Resemble AI클로닝 · 보안에 특화, 정부/방위 시장
WellSaid Labs미국 기업 사용자 중심
Coqui TTS오픈 소스. 회사는 2024년 폐업, 커뮤니티 유지
F5-TTS (UCB, 2024)5초 클로닝 오픈 소스. 폭발적 인기
MaskGCTMicrosoft + Sealand, 2024 오픈 소스
CosyVoice 2Alibaba 2025 — 중국어 + 영어 강함
GPT-SoVITS인디 개발, 일본/중국 커뮤니티에서 인기
OpenVoice v2MyShell.ai, 클로닝 + 다국어
Bark, Vall-E-X, XTTS v22023-2024 레거시 오픈 모델

오픈 소스 우선이면 F5-TTS 또는 CosyVoice 2가 2026년 기준 최선이다. F5-TTS는 5초 샘플로도 놀라운 클로닝을 보여주고, CosyVoice 2는 Alibaba의 정식 후원으로 안정적이다.


12. 클라우드 빅 3 — Polly, Google TTS, Azure Speech

벤더특징가격
Amazon PollyNeural · Generative voice, 90개+ 보이스4달러/1M 문자 (표준)
Google Cloud TTSStudio, Neural2, Wavenet16달러/1M 문자 (Studio)
Azure SpeechCustom Neural Voice, 다국어 강함16-30달러/1M 문자

엔터프라이즈 · 정부 · 규제 산업에서 여전히 디폴트. 보이스 신선도와 자연스러움은 ElevenLabs · Cartesia 대비 한 세대 뒤지지만, AWS / GCP / Azure 통합과 SLA가 결정 요소.

Microsoft Research의 NaturalSpeech 3는 학술적으로 최고 수준이지만 아직 GA가 아니다. Google DeepMind의 Lyria 2는 음악 생성용이지만 보컬 합성에서 TTS와 겹치는 영역을 만들었다.


13. STT — Deepgram Nova-3, AssemblyAI Universal-2, OpenAI

도구TTFWWER (영어)다국어
Deepgram Nova-3<50ms6.8%36개
AssemblyAI Universal-2200ms5.7%70개+
OpenAI Whisper v3 turbo배치7.5%99개
OpenAI gpt-4o-transcribe스트리밍5.2%99개+
Gladia300ms6.5%100개+
Speechmatics250ms6.0%50개+
Rev AI300ms7.0%36개
Soniox80ms5.9%60개+

지연이 절대값이면 Nova-3 또는 Soniox. WER이 우선이면 GPT-4o transcribe 또는 AssemblyAI.

오픈 소스로는 Whisper · WhisperX · Distil-Whisper · Vosk · Moonshine(Useful Sensors) · Owl ASR이 있다. Moonshine은 모바일/엣지 친화로 부상 중이다.

# Deepgram Nova-3 스트리밍 STT 예
from deepgram import DeepgramClient, LiveTranscriptionEvents, LiveOptions

dg = DeepgramClient(api_key="...")
connection = dg.listen.live.v("1")

def on_message(_, result, **kwargs):
    print(result.channel.alternatives[0].transcript)

connection.on(LiveTranscriptionEvents.Transcript, on_message)
connection.start(LiveOptions(model="nova-3", language="ko", interim_results=True))

for chunk in mic_stream():
    connection.send(chunk)

14. 풀듀플렉스 음성 에이전트 — LiveKit, Pipecat, Vapi

음성 에이전트는 단순 TTS·STT가 아니라 턴 관리 · 인터럽션 · VAD · 도구 호출을 같이 다룬다.

LiveKit Agents

LiveKit Agents는 WebRTC 백본 위에 Python으로 작성되는 풀스택 음성 에이전트 프레임워크. Cartesia가 기본 TTS다.

from livekit.agents import Agent, AgentSession, JobContext
from livekit.plugins import openai, cartesia, deepgram, silero

class Assistant(Agent):
    async def on_enter(self):
        await self.session.say("안녕하세요. 무엇을 도와드릴까요?")

async def entrypoint(ctx: JobContext):
    session = AgentSession(
        stt=deepgram.STT(model="nova-3"),
        llm=openai.LLM(model="gpt-4o"),
        tts=cartesia.TTS(voice="..."),
        vad=silero.VAD.load(),
    )
    await session.start(agent=Assistant(), room=ctx.room)

Pipecat

Pipecat는 Daily.co가 후원하는 Python 음성 에이전트 프레임워크. 더 모듈러하고, 비전·오디오 멀티모달이 강하다.

Vapi · Retell AI · Bland AI

세 회사는 SaaS형 음성 에이전트를 제공한다.

  • Vapi — 가장 빠르게 성장, no-code + API 모두 지원
  • Retell AI — Y Combinator 출신, 전화 통합 강함
  • Bland AI — 미국 시장 콜센터 특화, 분당 0.09달러

SaaS는 셋업이 빠르고 SIP / Twilio 통합이 끝나 있지만, 비용이 누적되면 직접 LiveKit + Cartesia 스택이 더 싸다.


15. 풀듀플렉스 LLM — Realtime API, Gemini Live, Claude Voice

전통 파이프라인을 대체하는 두 번째 길은 LLM-네이티브 음성이다.

모델출시특징
OpenAI Realtime API (gpt-4o-realtime)2024-10WebSocket, 8개 보이스
Google Gemini 2.5 Live2025비디오 멀티모달 결합
Anthropic Claude voice mode2025모바일 앱, Sonnet 기반
Mistral Voxtral2025오픈 7B/24B 음성 모델

LLM-네이티브 음성의 장점은 **감정 · 인터럽션 · 백채널(예/아하)**을 자연스럽게 다룬다는 점. 단점은 외부 TTS 변경 불가, 보이스 다양성 부족.


16. 인터럽션 / VAD / barge-in — 표시 안 보이는 핵심

음성 에이전트가 어색해 보이는 원인의 90%는 인터럽션 처리다. 사람은 끝나지 않은 문장을 자르고, 백채널을 넣고, 다음 화자가 바로 시작한다. 이를 다루는 기술 셋:

  • VAD(Voice Activity Detection) — Silero VAD가 사실상 표준. 30-50ms로 음성 시작/끝을 감지.
  • Turn Detection — 단순 묵음이 아니라 "끝났는지"를 판단. LiveKit Turn Detector(2026), OpenAI Realtime 내장.
  • Barge-in — 사용자가 말하면 AI TTS를 즉시 자르고 듣기 모드로 전환.
  • Endpointing — 부분 STT 결과에서 LLM을 미리 트리거.

Silero VAD 사용 예.

import torch

vad, utils = torch.hub.load(
    "snakers4/silero-vad", "silero_vad", trust_repo=True
)

(get_speech_timestamps, _, read_audio, *_) = utils

audio = read_audio("test.wav", sampling_rate=16000)
ts = get_speech_timestamps(audio, vad, sampling_rate=16000)

17. 클로닝 윤리 — ELVIS 법, EU AI Act, SynthID

음성 클로닝은 2024년 뉴햄프셔 대선 예비 경선에서의 바이든 가짜 음성 사건으로 사회적 경각심을 만들었다. 입법은 이어졌다.

  • Tennessee ELVIS Act(2024년 7월 발효) — 미국 최초로 음성·외형의 무단 AI 복제를 형사 처벌.
  • EU AI Act(2024년 5월 발효) — 음성 클로닝은 고위험 / 투명성 의무.
  • California AB 2839(2024) — 선거 시기 딥페이크 금지.
  • U.S. FCC(2024) — AI 음성을 사용한 로보콜 불법화.

대응 기술:

  • SynthID Audio(Google DeepMind) — 가청 한계 이하 워터마크.
  • Resemble Detect — Resemble AI의 가짜 음성 탐지 모델.
  • AntiFake(Washington University) — TTS 학습에 저항하는 음성 변조.

상용 TTS는 대부분 동의 확인 절차(녹음된 동의문)를 의무화한다. ElevenLabs는 "I have the right to clone this voice"를 발화한 샘플을 요구한다.


18. 한국 — 타입캐스트, 클로바, 카카오, HyperCLOVA X Voice

한국 시장은 자국 기업이 견고히 잡고 있다.

  • 타입캐스트(Neosapience) — 한국 점유율 1위. 콘텐츠 크리에이터 · 광고 · 오디오북. 영상 합성 일관성에서 매우 강함.
  • 네이버 클로바 Voice / 클로바 더빙 — 50개+ 한국어 보이스, 클로바 더빙은 영상 자막 자동 더빙.
  • HyperCLOVA X Voice — 네이버 LLM과 결합한 음성 에이전트 SDK.
  • 카카오 TTS / 카카오 i Voice — 카카오톡 챗봇 · 카카오 i와 통합.
  • AI Tester(엔플라이) — 광고 보이스에 특화.

특이점: 한국어 운율과 외래어 발음에서 외산 TTS는 여전히 어색하다. 타입캐스트와 클로바가 압도적으로 자연스럽다.

타입캐스트 API 호출 예.

import requests

resp = requests.post(
    "https://typecast.ai/api/speak",
    headers={"Authorization": "Bearer ..."},
    json={
        "actor_id": "5c3b3...",
        "text": "타입캐스트 음성 합성 데모입니다.",
        "lang": "ko",
        "tempo": 1.0,
    },
)

가격: 타입캐스트는 100자당 약 1.5원, 클로바는 200자당 약 4원.


19. 일본 — CoeFont, VOICEVOX, Synthesizer V

일본은 한국과는 분위기가 다르다. 캐릭터 보이스 + 마켓플레이스 모델이 강하다.

  • CoeFont — 1만+ 보이스 마켓플레이스. 성우가 자기 음성을 등록·판매.
  • Rinna Japanese TTS — 마이크로소프트 출신 Rinna의 오픈 일본어 TTS.
  • VOICEROID / VOICEVOX — VOICEVOX는 무료, 즌다몬 / 시키코로네 등 캐릭터 보이스. 유튜브 · 니코니코 표준.
  • Synthesizer V — 노래용 합성, 일본·중국·한국어 보컬.
  • AI Voice Project(AIVoice) — 일본 성우 음성을 합법 라이센스로 재현.

특이점: 일본은 상업 이용 가부 · 캐릭터별 약관을 반드시 확인해야 한다. 같은 VOICEVOX 캐릭터도 약관이 다르다.

선택 기준:

  • 비즈니스 · 콜센터 → CoeFont, Rinna
  • 유튜브 · 게임 · 동인 콘텐츠 → VOICEVOX
  • 노래 합성 → Synthesizer V

20. 가격 비교 — 1M 문자 / 1분 통화

가격 차이가 한 자릿수 자릿값을 넘기는 일이 많다. 2026년 5월 기준 정리.

도구1M 문자풀듀플렉스 1분
ElevenLabs Multilingual v3180달러0.30달러
ElevenLabs Flash v2.590달러0.15달러
Cartesia Sonic 365달러0.11달러
Play.HT 3120달러0.20달러
OpenAI tts-115달러0.06달러
OpenAI gpt-4o-mini-tts12달러0.05달러
OpenAI Realtime API-0.06달러
Hume EVI 2-0.072달러
Fish Audio 1.512달러0.04달러
Deepgram Aura15달러0.05달러
Amazon Polly Generative30달러0.08달러
Google Cloud TTS Studio160달러0.27달러
Azure Custom Neural24달러0.07달러
타입캐스트약 15달러-
네이버 클로바 Voice약 20달러-
CoeFont약 30달러-
Vapi (풀에이전트)-0.08달러
Retell AI-0.075달러
Bland AI-0.09달러

스타트업 단계라면 OpenAI tts-1 · Fish Audio · Cartesia가 비용 효율 최고. 엔터프라이즈 품질이 필요하면 ElevenLabs · 타입캐스트 · 클로바.


21. 누가 무엇을 골라야 하나

매트릭스로 정리.

목적추천
영어 콘솔용 풀듀플렉스OpenAI Realtime API
다국어 음성 에이전트LiveKit Agents + Cartesia
영어 오디오북 / 더빙ElevenLabs Studio
감정 동반 챗봇Hume EVI 2
자연스러움 시연 데모Sesame Maya/Miles
중국어 콘텐츠Fish Audio
한국어 콘텐츠타입캐스트, 네이버 클로바
일본어 캐릭터VOICEVOX
일본어 마켓CoeFont
오픈 / 자체 호스팅F5-TTS, CosyVoice 2
콜센터 SaaSVapi, Retell AI, Bland AI
모바일 / 엣지 STTMoonshine, Distil-Whisper
빠른 STTDeepgram Nova-3
정확한 STTOpenAI gpt-4o-transcribe
엔터프라이즈 표준Polly, Google TTS, Azure Speech

세 가지 결정 축:

  1. 지연 vs 품질 — Cartesia/Realtime은 빠르고, ElevenLabs/Sesame은 풍부하다.
  2. API 통합 vs 자체 호스팅 — API는 빠르지만 오픈 모델은 데이터 주권을 지킨다.
  3. 글로벌 vs 자국어 — 한국·일본은 외산이 못 따라잡는 자연도가 있다.

22. 활용 사례 — 무엇이 실제로 돈을 벌고 있나

2026년 음성 AI가 매출을 일으키는 영역.

  • 콜센터 자동화 — Retell, Bland가 미국 부동산/의료 시장에서 도입. 콜당 5-15달러 절감.
  • 오디오북 / 팟캐스트 더빙 — ElevenLabs Studio가 출판사와 계약. 시간당 비용 1/10.
  • 게임 NPC 음성 — Sony · EA · Ubisoft 모두 ElevenLabs · Resemble과 협업.
  • 언어 학습 — Duolingo Max, Speak가 OpenAI Realtime 사용.
  • 접근성 — Apple/Microsoft가 OS 레벨로 TTS 통합.
  • 광고 / 마케팅 더빙 — 영상 더빙이 가장 큰 시장.
  • 개인 동반 챗봇 — Character.AI, Replika가 ElevenLabs/Cartesia 사용.

매출 가시성이 가장 큰 영역은 콜센터 자동화. 그 다음이 콘텐츠 더빙.


23. 마무리 — 음성이 인터페이스가 된 해

5년 전 음성 AI는 자동응답기 수준이었다. 2026년의 음성 AI는 다르다.

  • TTFW 75ms의 Cartesia, 32개 언어의 ElevenLabs, 단일 모델 풀듀플렉스의 OpenAI Realtime이 공존한다.
  • LiveKit Agents · Pipecat · Vapi · Retell · Bland가 오케스트레이션을 만들었다.
  • Sesame · Hume이 감정과 자연스러움의 새 기준을 보여줬다.
  • Deepgram Nova-3가 STT 지연을 50ms 미만으로 끌어내렸다.
  • 한국 타입캐스트 · 클로바, 일본 CoeFont · VOICEVOX가 자국어 시장을 지킨다.
  • ELVIS Act, EU AI Act가 클로닝 윤리에 선을 그었다.

이제 남은 건 어떤 음성 인터페이스를 만들지 정하는 일이다. 이 글이 그 출발선이 되기를.


참고 / References