Published on2026년 6월 30일SOTA 음악·오디오 생성 분석 — 뉴럴 코덱과 생성 모델ai-papersaudio-generationmusic-generationneural-codecaudio-language-modelgenerative-ai오디오 표현(파형·스펙트로그램·뉴럴 코덱)부터 오토리그레시브 오디오 언어모델과 확산 기반 오디오, 텍스트-음악 조건화까지 계보 중심으로 정리합니다. EnCodec, MusicGen, AudioLM 계열의 원리와 상용 모델, 평가·저작권 쟁점을 아키텍처 관점에서 분석합니다.
Published on2026년 6월 30일SOTA 음성 인식·합성 분석 — Whisper에서 코덱 언어모델까지ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm음성 인식(ASR)과 음성 합성(TTS)의 최신 흐름을 정리합니다. HMM에서 CTC/어텐션, Whisper의 대규모 약지도 학습, 그리고 Tacotron에서 뉴럴 보코더와 코덱 언어모델까지 계보와 아키텍처 원리를 살펴봅니다.