들어가며
텍스트·이미지·비디오 생성이 성숙해지는 동안, 오디오와 음악 생성도 빠르게 발전했습니다. 오디오는 고유한 도전 과제를 가집니다. 초당 수만 개의 샘플로 이뤄진 긴 시퀀스이고, 사람 귀는 미세한 왜곡에도 민감합니다. 이 글에서는 오디오 표현 방식부터 뉴럴 코덱, 오토리그레시브 오디오 언어모델, 확산 기반 오디오까지 SOTA 음악·오디오 생성의 공통 원리를 계보 중심으로 정리합니다.
이 분야도 빠르게 바뀝니다. 아래 내용은 널리 알려진 개념·논문·아키텍처 계열을 기준으로 하며, 특정 상용 모델의 세부 스펙이나 순위는 단정하지 않습니다.
오디오 표현: 무엇을 모델링할 것인가
오디오 생성의 첫 질문은 "무엇을 예측할 것인가"입니다. 표현 방식에 따라 모델 구조가 크게 달라집니다.
파형(waveform)
가장 원초적인 표현은 시간에 따른 진폭 값의 나열, 즉 파형입니다. 44.1kHz 오디오라면 1초에 44100개의 샘플이 있습니다. 직접 파형을 예측하는 방식은 품질 상한이 높지만, 시퀀스가 극단적으로 길어 모델링이 어렵습니다.
파형: 시간 --> ...-0.2, 0.1, 0.4, 0.3, -0.1, -0.5... (초당 수만 개 샘플)
스펙트로그램(spectrogram)
파형을 짧은 구간으로 나눠 주파수 성분으로 변환한 표현입니다. 시간-주파수 2차원 이미지처럼 다룰 수 있어, 이미지 생성 기법을 빌려오기 좋습니다. 다만 스펙트로그램을 다시 파형으로 되돌리는(보코더) 단계가 필요합니다.
스펙트로그램: 세로축=주파수, 가로축=시간, 값=세기 (이미지처럼 취급)
--> [보코더] --> 파형
뉴럴 코덱(neural codec)
최근 SOTA의 핵심은 뉴럴 코덱입니다. 오디오를 소수의 이산 토큰(discrete token) 시퀀스로 압축하는 신경망입니다. 대표적으로 **SoundStream**과 **EnCodec** 계열이 있습니다.
핵심은 **잔차 벡터 양자화(residual vector quantization, RVQ)**입니다. 오디오를 여러 단계의 코드북으로 계층적으로 양자화해, 짧은 토큰 시퀀스로도 높은 음질을 담습니다.
[파형] --인코더--> [연속 표현] --RVQ 양자화--> [이산 토큰 시퀀스]
|
[파형] <--디코더-- [연속 표현] <--역양자화-- [이산 토큰 시퀀스]
RVQ 계층:
1단계 코드북 --> 잔차 --> 2단계 코드북 --> 잔차 --> ... (정밀도 누적)
뉴럴 코덱의 이산 토큰은 언어모델이 다루기에 이상적입니다. 텍스트 토큰처럼 오디오 토큰을 예측하면 되기 때문입니다. 이 다리가 오디오 언어모델의 부상을 이끌었습니다.
오토리그레시브 오디오 언어모델
발상
오디오를 이산 토큰으로 바꾸고 나면, 언어모델과 똑같이 "다음 토큰 예측"으로 오디오를 생성할 수 있습니다. **AudioLM** 계열이 이 접근을 제시했습니다. 오디오 토큰을 언어모델처럼 자기회귀로 이어 붙여 자연스러운 소리를 만듭니다.
AudioLM 계열은 종종 두 종류의 토큰을 함께 씁니다. 의미(semantic) 토큰은 장기 구조·내용을 담고, 음향(acoustic) 토큰은 세밀한 음색·음질을 담습니다. 큰 구조를 먼저 잡고, 세부 음향을 채우는 계층적 생성입니다.
[의미 토큰 예측] --> 곡의 큰 흐름/구조
|
[음향 토큰 예측] --> 세밀한 음색/질감 (뉴럴 코덱 토큰)
|
[코덱 디코더] --> 파형
MusicGen 계열
**MusicGen(arXiv 2306.05284)**은 텍스트 조건부 음악 생성을 단일 트랜스포머 언어모델로 다룬 대표 사례입니다. EnCodec 코덱 토큰 위에서 자기회귀 생성을 하되, 여러 RVQ 계층 토큰을 효율적으로 배치(코드북 인터리빙)하는 방식을 사용합니다. 텍스트 설명이나 멜로디를 조건으로 받아 음악을 생성합니다.
[텍스트 프롬프트] --텍스트 인코더--> [조건 임베딩]
|
[코덱 토큰들] --자기회귀 트랜스포머--> [다음 코덱 토큰 예측]
|
[EnCodec 디코더] --> 음악 파형
자기회귀 접근의 장점은 언어모델 인프라를 그대로 재사용할 수 있다는 점입니다. 단점은 토큰을 하나씩 순차 생성하므로 긴 오디오에서 느릴 수 있다는 것입니다.
확산 기반 오디오
또 다른 큰 줄기는 확산모델입니다. 이미지 확산처럼, 오디오(주로 스펙트로그램이나 잠재 표현)에 노이즈를 섞었다가 되돌리는 방식으로 생성합니다.
- **스펙트로그램 확산**: 시간-주파수 표현 위에서 확산을 수행하고, 보코더로 파형을 복원합니다.
- **라텐트 오디오 확산**: 오디오를 잠재 공간으로 압축한 뒤 그 위에서 확산을 수행합니다. 이미지 라텐트 확산과 같은 발상입니다.
[순수 노이즈] --> [확산 백본: U-Net 또는 DiT] --디노이즈 반복--> [오디오 잠재/스펙트로그램]
|
[디코더/보코더] --> 파형
확산 접근의 장점은 병렬적으로 전체를 다듬어가므로 자기회귀의 순차 병목이 덜하다는 점입니다. 최근에는 오디오에서도 flow matching / rectified flow 계열을 쓰는 흐름이 나타납니다. 자기회귀와 확산은 배타적이지 않고, 상황에 따라 혼합·선택됩니다.
텍스트-음악 조건화
텍스트로 음악을 제어하려면, 텍스트 설명을 임베딩해 생성 과정에 주입합니다. 이미지·비디오와 원리는 같습니다.
- **텍스트 인코더**: T5 계열 등으로 프롬프트("잔잔한 로파이 힙합, 비 오는 밤 분위기")를 임베딩.
- **주입 방식**: 자기회귀 모델에서는 조건 토큰으로 앞에 붙이거나 크로스 어텐션으로, 확산 모델에서는 크로스 어텐션으로 주입.
- **추가 조건**: 멜로디, 코드 진행, 리듬, 참조 오디오 등을 조건으로 줄 수 있습니다. 이는 음악적 제어성을 크게 높입니다.
[텍스트/멜로디 조건] --> [조건 임베딩]
|
[생성 백본(AR 또는 확산)] <-- 조건 주입
|
[코덱/보코더] --> 음악
상용과 연구 (개념 중심)
연구 쪽에서는 AudioLM, MusicGen, EnCodec, SoundStream 등이 공개 아이디어의 기반을 제공했습니다. 상용 쪽에서는 Suno, Udio 같은 서비스가 존재하는 것으로 알려져 있으며, 노래(보컬 포함) 생성에서 인상적인 품질을 보이는 것으로 평가됩니다. 다만 상용 모델의 내부 구조는 대부분 비공개이므로, 여기서는 공개된 아키텍처 계열의 원리만 다룹니다.
공통적으로 관찰되는 방향은 다음과 같습니다. (1) 뉴럴 코덱으로 오디오를 이산 토큰화, (2) 자기회귀 또는 확산으로 토큰/잠재 생성, (3) 텍스트·멜로디 조건화, (4) 코덱 디코더나 보코더로 파형 복원. 세부 성능·순위는 프롬프트·장르·평가 방식에 따라 크게 달라지므로 단정은 피합니다.
비교표: 접근별 정리
| 축 | 자기회귀 오디오 LM | 확산 기반 오디오 |
| --- | --- | --- |
| 표현 | 코덱 이산 토큰 | 스펙트로그램/잠재 |
| 생성 방식 | 다음 토큰 예측(순차) | 반복 디노이즈(병렬적) |
| 대표 계열 | AudioLM, MusicGen | 스펙트로그램/라텐트 확산 |
| 강점 | 언어모델 인프라 재사용 | 순차 병목 완화 |
| 약점 | 긴 오디오에서 느릴 수 있음 | 보코더/디코더 품질 의존 |
| 조건화 | 조건 토큰/크로스 어텐션 | 크로스 어텐션 |
값은 계열의 일반적 경향이며 특정 모델 구성과 다를 수 있습니다.
전체 파이프라인 다이어그램
[텍스트 프롬프트] (+ 멜로디/참조 오디오)
|
[텍스트 인코더]
|
[조건 임베딩] ---------------------+
|
[생성 백본] |
- 자기회귀: 코덱 토큰 순차 예측 <--+
- 또는 확산: 잠재/스펙트로그램 디노이즈
|
[뉴럴 코덱 디코더 / 보코더]
|
[최종 오디오 파형]
평가
오디오 생성 평가는 주관성이 강합니다.
- **자동 지표**: 오디오 품질(예: FAD 계열)과 텍스트-오디오 정합도(예: CLAP 기반 유사도) 등이 쓰이지만, 음악적 매력이나 감정을 완전히 담지는 못합니다.
- **사람 평가**: 실제로는 청취 선호 비교가 가장 신뢰됩니다. 다만 비용이 크고 취향이 개입합니다.
- **주의점**: 순위는 장르·프롬프트·길이·평가 방식에 따라 달라집니다. "무엇이 최고"라는 단정보다 조건을 명시한 비교가 필요합니다.
저작권과 윤리 쟁점
음악·오디오 생성은 특히 저작권과 윤리 쟁점이 첨예합니다.
- **학습 데이터 출처**: 저작권이 있는 음원을 학습에 썼는지, 스타일·목소리를 모방했는지가 핵심 쟁점입니다.
- **목소리·아티스트 모방**: 특정 가수의 목소리를 복제하는 문제는 초상·퍼블리시티권과 얽힙니다.
- **표절·유사성**: 생성물이 기존 곡과 지나치게 유사할 위험을 관리해야 합니다.
- **투명성**: 생성 오디오임을 표시하거나 워터마킹하는 방향의 논의가 진행 중입니다.
기술적 성능과 별개로, 이 쟁점들은 상용화의 핵심 제약이자 사회적 논의 대상입니다.
강점
- **접근성**: 텍스트만으로 음악·효과음·오디오를 빠르게 만들 수 있습니다.
- **모듈성**: 코덱, 생성 백본, 보코더가 분리되어 부품 교체·개선이 쉽습니다.
- **제어성 향상**: 멜로디·코드·참조 오디오 조건으로 음악적 통제가 가능해졌습니다.
- **효율화**: 뉴럴 코덱의 이산 토큰화 덕분에 긴 오디오도 다루기 쉬워졌습니다.
한계와 열린 문제
- **장기 구조**: 곡 전체의 일관된 구성(도입-전개-후렴 등)은 여전히 어렵습니다.
- **미세 품질**: 사람 귀는 미세 왜곡에 민감해, 아티팩트가 쉽게 드러납니다.
- **평가 표준 부재**: 음악적 매력을 정량화할 신뢰 지표가 부족합니다.
- **저작권·윤리**: 앞서 다룬 데이터·모방·투명성 쟁점이 크게 남아 있습니다.
- **제어 정밀도**: 특정 악기·박자·감정을 정밀하게 지정하는 제어는 발전 중입니다.
실무적 함의
- 빠른 프로토타이핑에는 강력하지만, 상업적 사용 시 저작권·라이선스 검토가 필수입니다.
- 정밀 제어가 필요하면 멜로디·코드 같은 구조 조건을 함께 주는 편이 낫습니다.
- 자기회귀와 확산은 상황별 트레이드오프가 있으므로, 대상 용도에서 직접 비교하는 편이 안전합니다.
마치며
음악·오디오 생성 SOTA의 공통 기반은 "뉴럴 코덱 토큰화 + 자기회귀 또는 확산 생성 + 텍스트·멜로디 조건화"로 요약됩니다. EnCodec/SoundStream이 표현의 다리를 놓았고, AudioLM/MusicGen이 언어모델식 생성을 열었으며, 확산 계열이 병렬적 대안을 제시했습니다. 상용 서비스의 순위와 세부는 빠르게 바뀌지만, 이 원리를 이해하면 새로운 모델의 구조를 빠르게 파악할 수 있습니다.
참고 자료
- [Simple and Controllable Music Generation, MusicGen (arXiv 2306.05284)](https://arxiv.org/abs/2306.05284)
- [AudioLM: a Language Modeling Approach to Audio Generation (arXiv 2209.03143)](https://arxiv.org/abs/2209.03143)
- [High Fidelity Neural Audio Compression, EnCodec (arXiv 2210.13438)](https://arxiv.org/abs/2210.13438)
- [SoundStream: An End-to-End Neural Audio Codec (arXiv 2107.03312)](https://arxiv.org/abs/2107.03312)
- [MusicLM: Generating Music From Text (arXiv 2301.11325)](https://arxiv.org/abs/2301.11325)
- [Denoising Diffusion Probabilistic Models (arXiv 2006.11239)](https://arxiv.org/abs/2006.11239)
- [audiocraft (MusicGen/EnCodec) GitHub](https://github.com/facebookresearch/audiocraft)
- [Hugging Face Audio 문서](https://huggingface.co/docs/transformers/tasks/audio_classification)
현재 단락 (1/101)
텍스트·이미지·비디오 생성이 성숙해지는 동안, 오디오와 음악 생성도 빠르게 발전했습니다. 오디오는 고유한 도전 과제를 가집니다. 초당 수만 개의 샘플로 이뤄진 긴 시퀀스이고, 사람...