- Published on
2024년 10월 Whisper Large v3 Turbo가 8배 빨라지고, Cartesia가 Mamba 저자들 손으로 90ms TTS를 만들고, Sesame의 Brendan Iribe가 "voice presence"를 들고 나오면서 2026년 음성 AI는 TTS·STT·실시간 에이전트 세 축이 모두 폭발했다. ElevenLabs V3부터 NVIDIA Parakeet 1.1, VOICEVOX, F5-TTS, Vapi/Retell까지 — 누가 무엇을 잘하고 무엇을 골라야 하는지 정리한다.