Tts

All Posts

Published on
2026년 7월 11일
tts-bench: 품질이 주관적일 때 로컬 TTS를 비교하는 법
tts text-to-speech benchmark local-ai evaluation open-source
tts-bench는 개발자 5uck1ess가 만든 로컬 벤치마크로, 손에 있는 하드웨어에서 55개 TTS 모델을 비교한다. 평가를 세 렌즈로 나눈다. 속도(TTFA·RTF·메모리), 청취(모든 모델을 귀로 판단), 점수(UTMOS·WER·SIM)다. 가장 흥미로운 건 주관성에 대한 정직함이다. "가장 좋게 들리는" 단일 점수는 없다. 품질은 당신의 귀와 용도에 달렸기 때문이다. 이 글은 이 도구가 실제로 무엇을 재는지, 객관 지표가 어디서 돕고 어디서 오도하는지, 그리고 내 워크로드에 맞는 TTS를 어떻게 고를지 정리한다.
Published on
2026년 5월 16일
음성 AI & TTS 2026 완벽 가이드 - ElevenLabs · Cartesia Sonic · OpenAI Voice · Play.HT · Hume · Sesame · Fish Audio · Deepgram Aura 심층 분석
voice-ai tts elevenlabs cartesia openai-voice play-ht hume sesame fish-audio deepgram asr conversational-ai
2026년의 음성 AI는 STT → LLM → TTS 파이프라인이 끝나고, 풀듀플렉스 실시간 음성 에이전트가 표준이 된 해다. ElevenLabs v3가 다국어·감정 TTS의 왕좌를 지키는 동안, Cartesia Sonic은 75ms TTFW로 LiveKit Agents의 기본 TTS가 됐고, OpenAI Realtime API · Google Gemini Live · Anthropic Claude voice mode는 LLM-네이티브 음성을 정착시켰다. Hume EVI 2 · Sesame Maya/Miles는 감정 음성을, Fish Audio · CosyVoice 2 · F5-TTS는 오픈/중화권을 장악했다. STT 쪽은 Deepgram Nova-3가 50ms 미만으로 가장 빠르고, AssemblyAI Universal-2 · OpenAI GPT-4o transcribe가 정확도로 맞선다. LiveKit Agents · Pipecat · Vapi · Retell AI · Bland AI가 오케스트레이션을 맡고, Tennessee ELVIS 법 · EU AI Act가 클로닝 윤리에 선을 그었다. 한국은 타입캐스트 · 클로바 더빙, 일본은 CoeFont · VOICEVOX가 시장을 나눠 갖는다. 이 글은 그 전체 지도를 그린다.
Published on
2026년 5월 15일
음성 AI 2026 — ElevenLabs / Cartesia / Sesame / Whisper Turbo / Deepgram / Parakeet 심층 가이드
voice-ai tts stt asr elevenlabs cartesia sesame whisper deepgram parakeet assemblyai voicevox vapi retell deep-dive
2024년 10월 Whisper Large v3 Turbo가 8배 빨라지고, Cartesia가 Mamba 저자들 손으로 90ms TTS를 만들고, Sesame의 Brendan Iribe가 "voice presence"를 들고 나오면서 2026년 음성 AI는 TTS·STT·실시간 에이전트 세 축이 모두 폭발했다. ElevenLabs V3부터 NVIDIA Parakeet 1.1, VOICEVOX, F5-TTS, Vapi/Retell까지 — 누가 무엇을 잘하고 무엇을 골라야 하는지 정리한다.
Published on
2026년 5월 14일
AI 음성 2026 — ElevenLabs · OpenAI Realtime · Cartesia · Vapi · Sesame · Deepgram, 보이스 에이전트 스택의 현재
ai-voice elevenlabs openai-realtime cartesia vapi deepgram sesame tts stt voice-agent
생성형 미디어 4부작의 마지막 — 음악, 이미지, 비디오에 이어 음성이다. 2026년의 AI 음성 풍경을 정직하게 정리한다. ElevenLabs(보이스 클로닝과 Conversational AI), OpenAI Realtime(WebRTC 기반 음성-인-음성-아웃), Cartesia Sonic-2(최저 지연 TTS), Vapi(보이스 에이전트 플랫폼), Sesame(개성 있는 대화 모델), Deepgram Nova-3과 AssemblyAI Universal-2의 STT 경쟁, Whisper · WhisperX 오픈소스 옵션, Hume EVI · Bland · Retell까지. 보이스 에이전트 스택의 실제 구성, sub-300ms 첫-바이트 목표, 빌드 vs 바이의 정직한 의사결정 프레임.
Published on
2026년 4월 15일
Voice AI 실전 완전 가이드: 실시간 STT/TTS, 음성 LLM, Turn-taking, 딥페이크 방어 (2025)
voice-ai stt tts gpt-4o-realtime moshi gemini-live call-center deep-dive series
"화면 없는 AI"가 2025년의 가장 뜨거운 제품 범주가 된 이유. 실시간 음성 파이프라인(VAD/STT/LLM/TTS), 음성 LLM(GPT-4o realtime/Gemini Live/Moshi), Turn-taking과 인터럽션, 감정·억양 제어, 전화·브라우저·모바일 실전, 딥페이크 방어와 보안, 한국어 음성 제품의 특수성까지.
Published on
2026년 3월 17일
음성 & 오디오 AI 완전 정복: Whisper, TTS, 화자 인식, 음악 생성까지
voice-ai whisper tts 화자인식 musicgen 오디오AI 2026-03
MFCC/Mel spectrogram 오디오 특징 추출, Whisper ASR, FastSpeech2/VITS TTS, pyannote 화자 분리, MusicGen 음악 생성까지 음성 AI 완전 가이드입니다.
Published on
2026년 3월 8일
오픈소스 실시간 대화형 음성 챗봇 구축 가이드: Barge-In(응답 중단) 지원 아키텍처와 구현
ai-platform voice-chatbot barge-in realtime-audio stt tts vad python 2026-03
오픈소스만으로 실시간 음성 챗봇을 구현하는 종합 가이드. Silero VAD, faster-whisper, Ollama, Piper TTS를 조합한 파이프라인에 barge-in(사용자 발화 시 즉시 응답 중단) 기능을 구현하는 상태머신 설계, Python 예시 코드, 지연시간 최적화, 한국어 품질 개선 팁까지 다룹니다.
Published on
2026년 3월 8일
음성 챗봇 구축 가이드: STT/TTS 파이프라인과 실시간 음성 인터페이스 구현
chatbot voice stt tts speech-recognition realtime whisper 2026-03
음성 챗봇 구축의 모든 것. Whisper STT, TTS 엔진 비교, 실시간 음성 스트리밍 아키텍처, WebSocket 기반 양방향 통신, LLM 연동, 지연 시간 최적화와 프로덕션 운영 가이드까지 다룹니다.
Published on
2026년 3월 3일
torchaudio 완전 가이드 — 오디오 처리부터 음성인식, TTS, 음악 분석까지
ai-platform pytorch torchaudio audio speech-recognition spectrogram mel tts music 2026-03
torchaudio로 오디오 로드, 스펙트로그램 변환, Mel 필터뱅크, MFCC, 음성인식(Wav2Vec2/Whisper), TTS, 화자 분리, 노이즈 제거까지. 오디오 AI의 모든 것을 PyTorch로 다룹니다.

Tts

tts (9)