Chaos and Order

Chaos and Order https://www.youngju.dev/blog 천천히 올바르게. AI Researcher & DevOps Engineer Youngju's tech blog. GPU/CUDA, LLM, MLOps, Kubernetes AI workloads, distributed training, and data engineering. ko fjvbn2003@gmail.com (Youngju Kim) fjvbn2003@gmail.com (Youngju Kim) Tue, 30 Jun 2026 00:00:00 GMT https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-music-audio-generation.en SOTA Music and Audio Generation — Neural Codecs and Generative Models https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-music-audio-generation.en A lineage-focused overview from audio representations (waveform, spectrogram, neural codec) to autoregressive audio language models, diffusion-based audio, and text-to-music conditioning. We analyze the principles of the EnCodec, MusicGen, and AudioLM families, along with commercial models and evaluation and copyright issues, from an architectural perspective. Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersaudio-generationmusic-generationneural-codecaudio-language-modelgenerative-ai https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-music-audio-generation.ja SOTA音楽・オーディオ生成の分析 — ニューラルコーデックと生成モデル https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-music-audio-generation.ja オーディオ表現(波形・スペクトログラム・ニューラルコーデック)から自己回帰オーディオ言語モデル、拡散ベースのオーディオ、テキスト音楽条件付けまで、系譜を中心に整理します。EnCodec、MusicGen、AudioLM系列の原理と商用モデル、評価・著作権の論点をアーキテクチャの観点から分析します。 Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersaudio-generationmusic-generationneural-codecaudio-language-modelgenerative-ai https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-music-audio-generation SOTA 음악·오디오 생성 분석 — 뉴럴 코덱과 생성 모델 https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-music-audio-generation 오디오 표현(파형·스펙트로그램·뉴럴 코덱)부터 오토리그레시브 오디오 언어모델과 확산 기반 오디오, 텍스트-음악 조건화까지 계보 중심으로 정리합니다. EnCodec, MusicGen, AudioLM 계열의 원리와 상용 모델, 평가·저작권 쟁점을 아키텍처 관점에서 분석합니다. Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersaudio-generationmusic-generationneural-codecaudio-language-modelgenerative-ai https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.en SOTA Speech Recognition and Synthesis — From Whisper to Codec Language Models https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.en We survey recent trends in speech recognition (ASR) and synthesis (TTS). From HMM to CTC/attention, Whisper large-scale weak supervision, and from Tacotron to neural vocoders and codec language models, we trace the lineage and architectural principles. Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.ja SOTA音声認識・合成分析 — Whisperからコーデック言語モデルまで https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts.ja 音声認識(ASR)と音声合成(TTS)の最新の流れを整理します。HMMからCTC/アテンション、Whisperの大規模弱教師あり学習、そしてTacotronからニューラルボコーダとコーデック言語モデルまで、系譜とアーキテクチャの原理を見ていきます。 Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts SOTA 음성 인식·합성 분석 — Whisper에서 코덱 언어모델까지 https://www.youngju.dev/blog/ai-papers/2026-06-30-sota-speech-recognition-tts 음성 인식(ASR)과 음성 합성(TTS)의 최신 흐름을 정리합니다. HMM에서 CTC/어텐션, Whisper의 대규모 약지도 학습, 그리고 Tacotron에서 뉴럴 보코더와 코덱 언어모델까지 계보와 아키텍처 원리를 살펴봅니다. Tue, 30 Jun 2026 00:00:00 GMT fjvbn2003@gmail.com (Youngju Kim) ai-papersspeech-recognitiontext-to-speechwhisperneural-codecaudio-lm