Skip to content

Conversational-ai

  • Published on
    2026년의 음성 AI는 STT → LLM → TTS 파이프라인이 끝나고, 풀듀플렉스 실시간 음성 에이전트가 표준이 된 해다. ElevenLabs v3가 다국어·감정 TTS의 왕좌를 지키는 동안, Cartesia Sonic은 75ms TTFW로 LiveKit Agents의 기본 TTS가 됐고, OpenAI Realtime API · Google Gemini Live · Anthropic Claude voice mode는 LLM-네이티브 음성을 정착시켰다. Hume EVI 2 · Sesame Maya/Miles는 감정 음성을, Fish Audio · CosyVoice 2 · F5-TTS는 오픈/중화권을 장악했다. STT 쪽은 Deepgram Nova-3가 50ms 미만으로 가장 빠르고, AssemblyAI Universal-2 · OpenAI GPT-4o transcribe가 정확도로 맞선다. LiveKit Agents · Pipecat · Vapi · Retell AI · Bland AI가 오케스트레이션을 맡고, Tennessee ELVIS 법 · EU AI Act가 클로닝 윤리에 선을 그었다. 한국은 타입캐스트 · 클로바 더빙, 일본은 CoeFont · VOICEVOX가 시장을 나눠 갖는다. 이 글은 그 전체 지도를 그린다.