Published on2026년 6월 30일SOTA 음성 인식·합성 분석 — Whisper에서 코덱 언어모델까지ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm음성 인식(ASR)과 음성 합성(TTS)의 최신 흐름을 정리합니다. HMM에서 CTC/어텐션, Whisper의 대규모 약지도 학습, 그리고 Tacotron에서 뉴럴 보코더와 코덱 언어모델까지 계보와 아키텍처 원리를 살펴봅니다.