- Published on
생성형 미디어 4부작의 마지막 — 음악, 이미지, 비디오에 이어 음성이다. 2026년의 AI 음성 풍경을 정직하게 정리한다. ElevenLabs(보이스 클로닝과 Conversational AI), OpenAI Realtime(WebRTC 기반 음성-인-음성-아웃), Cartesia Sonic-2(최저 지연 TTS), Vapi(보이스 에이전트 플랫폼), Sesame(개성 있는 대화 모델), Deepgram Nova-3과 AssemblyAI Universal-2의 STT 경쟁, Whisper · WhisperX 오픈소스 옵션, Hume EVI · Bland · Retell까지. 보이스 에이전트 스택의 실제 구성, sub-300ms 첫-바이트 목표, 빌드 vs 바이의 정직한 의사결정 프레임.