Chaos and Order

Chaos and Order https://www.youngju.dev/blog 천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering. ko fjvbn2003@gmail.com (Youngju Kim) fjvbn2003@gmail.com (Youngju Kim) Tue, 30 Jun 2026 00:00:00 GMT https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.en SOTA Speech Recognition and Synthesis — From Whisper to Codec Language Models https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.en We survey recent trends in speech recognition (ASR) and synthesis (TTS). From HMM to CTC/attention, Whisper large-scale weak supervision, and from Tacotron to neural vocoders and codec language models, we trace the lineage and architectural principles. Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.ja SOTA音声認識・合成分析 — Whisperからコーデック言語モデルまで https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.ja 音声認識(ASR)と音声合成(TTS)の最新の流れを整理します。HMMからCTC/アテンション、Whisperの大規模弱教師あり学習、そしてTacotronからニューラルボコーダとコーデック言語モデルまで、系譜とアーキテクチャの原理を見ていきます。 Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts SOTA 음성 인식·합성 분석 — Whisper에서 코덱 언어모델까지 https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts 음성 인식(ASR)과 음성 합성(TTS)의 최신 흐름을 정리합니다. HMM에서 CTC/어텐션, Whisper의 대규모 약지도 학습, 그리고 Tacotron에서 뉴럴 보코더와 코덱 언어모델까지 계보와 아키텍처 원리를 살펴봅니다. Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm