1. 서론: AI 음악 생성의 전환점
AI 음악 생성(AI Music Generation) 분야는 2024~2025년을 기점으로 폭발적인 발전을 이루었다. Meta의 MusicGen, Google의 MusicLM, 그리고 Suno와 Udio 같은 상업 서비스가 대중에게 AI 작곡의 가능성을 보여주었지만, **오픈소스 진영에서 상업 모델에 필적하는 품질을 달성한 모델**은 드물었다.
2025년 5월, ACE Studio와 StepFun이 공동 개발한 **ACE-Step**이 공개되면서 이 판도가 바뀌었다. ACE-Step은 텍스트 프롬프트와 가사로부터 최대 4분 길이의 고품질 음악을 약 20초 만에 생성하는 Foundation Model로, 3.5B 파라미터 규모에서 **LLM 기반 모델 대비 15배 이상 빠른 추론 속도**와 우수한 음악적 일관성을 달성했다. 2026년 1월에는 후속 버전인 **ACE-Step 1.5**가 출시되어, A100에서 2초 미만, RTX 3090에서 10초 미만이라는 경이적인 속도로 상업 모델 수준의 품질을 로컬 환경에서 구현할 수 있게 되었다.
[AI 음악 생성 모델 발전 타임라인]
2023 2024 2025 2026
| | | |
v v v v
┌──────────┐ ┌──────────────┐ ┌───────────────┐ ┌──────────────────┐
│ MusicGen │ │ Stable Audio │ │ ACE-Step v1 │ │ ACE-Step v1.5 │
│ MusicLM │ │ Suno v3 │ │ (3.5B, DCAE │ │ (Hybrid LM+DiT, │
│ AudioLDM │ │ Udio v1 │ │ + Linear DiT)│ │ DMD2, 4GB 미만) │
│ Riffusion│ │ JEN-1 │ │ DiffRhythm │ │ Suno v5 │
└──────────┘ └──────────────┘ └───────────────┘ └──────────────────┘
핵심 전환: 상업화 시작: 오픈소스 도약: 로컬 배포 시대:
- Autoregressive - Text-to-Song - Diffusion + DCAE - 4-8 step 생성
- Spectrogram - Vocal + BGM - Flow Matching - LoRA 개인화
기반 생성 - 다국어 가사 - REPA 학습 - 50+ 언어 지원
이 글에서는 ACE-Step의 아키텍처를 논문 기반으로 심층 분석하고, v1에서 v1.5로의 진화 과정, 경쟁 모델 비교, 핵심 기반 기술, 그리고 실전 활용법까지 포괄적으로 다룬다.
2. ACE-Step v1: 아키텍처 심층 분석
ACE-Step v1(arXiv:2506.00045)은 기존 음악 생성 모델의 근본적 한계를 극복하기 위해 설계되었다. LLM 기반 모델은 가사 정렬에 뛰어나지만 추론 속도가 느리고 구조적 아티팩트가 발생하며, Diffusion 모델은 빠른 합성이 가능하지만 장거리 구조적 일관성이 부족하다. ACE-Step은 이 두 접근법의 장점을 통합하는 **Diffusion + DCAE + Linear Transformer** 아키텍처를 채택했다.
2.1 전체 아키텍처 개요
ACE-Step v1의 핵심 구성 요소는 다음과 같다:
[ACE-Step v1 아키텍처]
┌─────────────────────────────────────────────┐
│ Conditioning Encoders │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────────┐│
│ │ Text │ │ Lyric │ │ Speaker ││
│ │ Encoder │ │ Encoder │ │ Encoder ││
│ │(mT5-base)│ │(SongGen) │ │(PLR-OSNet) ││
│ │ frozen │ │trainable │ │ pre-trained ││
│ │ dim=768 │ │ │ │ dim=512 ││
│ └────┬─────┘ └────┬─────┘ └──────┬───────┘│
└───────┼────────────┼───────────────┼────────┘
│ │ │
└──────┬─────┘ │
│ cross-attention │
v v
┌───────────┐ ┌──────────────────────────────────────────────┐
│ │ │ Linear Diffusion Transformer (DiT) │
│ DCAE │ │ │
│ Encoder │───>│ ┌─────────────────────────────────────┐ │
│ (f8c8) │ │ │ 24 Transformer Blocks │ │
│ │ │ │ - AdaLN-single (shared params) │ │
│ mel-spec │ │ │ - Linear Attention │ │
│ → latent │ │ │ - 1D Conv FeedForward │ │
│ ~10.77Hz │ │ │ - Cross-Attention (text+lyric) │ │
│ │ │ │ - REPA at layer 8 │ │
└───────────┘ │ └─────────────────────────────────────┘ │
│ │
└──────────────────┬───────────────────────────┘
│
v
┌──────────────────────────────────────────────┐
│ DCAE Decoder │
│ latent → mel-spectrogram → waveform │
│ (Fish Audio Vocoder, 32kHz mono) │
└──────────────────────────────────────────────┘
2.2 Deep Compression AutoEncoder (DCAE)
ACE-Step의 첫 번째 핵심 혁신은 Sana(NVIDIA/MIT-HAN Lab)에서 제안된 **Deep Compression AutoEncoder(DCAE)**를 음악 도메인에 적용한 것이다. DCAE는 원래 고해상도 이미지 생성을 위해 설계되었으며, 32x~128x의 극도로 높은 공간 압축률을 달성하는 AutoEncoder 아키텍처다.
ACE-Step에서는 mel-spectrogram을 입력으로 받아 **8배 압축(f8c8, channel=8)**을 적용한다:
[DCAE 압축 과정]
Input: mel-spectrogram (44.1kHz/32kHz 오디오 → mel 변환)
│
▼
┌─────────────────────────────────────────┐
│ DCAE Encoder │
│ - Residual Autoencoding │
│ - Space-to-Channel Transform │
│ - 8x temporal compression │
│ │
│ Output: latent space (~10.77Hz) │
│ 4분 음악 → ~2,584 latent tokens │
└─────────────────────────────────────────┘
│
▼ (DiT에서 생성/변환)
│
▼
┌─────────────────────────────────────────┐
│ DCAE Decoder + Vocoder │
│ - latent → mel-spectrogram 복원 │
│ - Fish Audio Universal Music Vocoder │
│ - 출력: 32kHz mono waveform │
└─────────────────────────────────────────┘
**DCAE 학습 세부사항:**
| 항목 | 상세 |
| ------------------ | --------------------------------------------------------------- |
| 압축 설정 | f8c8 (8x compression, channel=8) |
| Temporal 해상도 | ~10.77Hz in latent space |
| 학습 하드웨어 | 120 NVIDIA A100 GPU |
| 학습 스텝 | 140,000 steps |
| 글로벌 배치 사이즈 | 480 (GPU당 4) |
| 학습 기간 | ~5일 |
| Discriminator | Patch-based, StyleGAN Disc2DRes, SwinDisc2D |
| 학습 전략 | Phase 1: MSE only / Phase 2: frozen encoder + MSE + adversarial |
| Vocoder | Fish Audio universal music vocoder (32kHz mono) |
| 재구성 FAD | 0.0224 |
논문에서는 32배 압축(f32)도 실험했으나 **허용 불가능한 품질 저하**가 발생하여 8배 압축을 최종 채택했다. 이는 음악 오디오가 이미지보다 시간적 디테일에 훨씬 민감하기 때문이다.
2.3 Conditioning Encoders: 다중 조건 인코딩
ACE-Step은 세 가지 전문 인코더를 통해 다양한 조건 정보를 모델에 주입한다:
2.3.1 Text Encoder (스타일/장르 프롬프트)
Text Encoder: Google mT5-base (frozen)
- 출력 차원: 768
- 최대 시퀀스 길이: 256 tokens
- 다국어 지원 (100+ 언어)
- 학습 중 동결(frozen) 상태 유지
프롬프트 예시:
prompt = "upbeat K-pop dance track with synth bass, 128 BPM, female vocal, major key"
mT5-base를 선택한 이유는 다국어 지원이 필수적이기 때문이다. 영어뿐 아니라 한국어, 일본어, 중국어 등 다양한 언어로 스타일 프롬프트를 입력할 수 있다.
2.3.2 Lyric Encoder (가사 인코딩)
[Lyric Encoder 처리 파이프라인]
원본 가사 입력 (한국어, 영어, 일본어 등)
│
▼
비로마자 스크립트 → Grapheme-to-Phoneme 변환 → 음소 표현
│
▼
XTTS VoiceBPE Tokenizer (다국어 지원)
│
▼
SongGen 아키텍처 기반 Lyric Encoder (학습 가능)
│
▼
최대 4,096 tokens의 가사 임베딩
Lyric Encoder는 **SongGen 아키텍처**를 기반으로 하며, Text Encoder와 달리 **학습 중 파라미터가 업데이트**된다. 이는 가사-음악 정렬(lyric alignment)이 음악 생성에서 가장 어려운 과제 중 하나이기 때문이다. 비로마자 스크립트(한글, 한자, 히라가나 등)는 Grapheme-to-Phoneme(G2P) 도구를 통해 음소 표현으로 변환된다.
2.3.3 Speaker Encoder (화자/음색 인코딩)
Speaker Encoder 구성
- 입력: 10초 분량의 반주 제거된 보컬 세그먼트 (demucs로 분리)
- 아키텍처: PLR-OSNet (원래 얼굴 인식용, 보컬 인식에 적용)
- 출력 차원: 512
- 학습 dropout: 50% (음색 과의존 방지)
- 전체 곡: 여러 세그먼트의 임베딩 평균화
Voice cloning 시나리오:
1. 레퍼런스 보컬 10초 세그먼트 입력
2. demucs로 반주 분리
3. Speaker Encoder로 512-dim 임베딩 추출
4. 생성 시 임베딩을 DiT에 조건으로 주입
Speaker Encoder의 50% dropout은 의도적인 설계 결정이다. 학습 중 절반의 확률로 화자 정보를 제거함으로써, 모델이 음색에 과도하게 의존하지 않고 **음악적 구조와 멜로디에도 충분히 집중**하도록 유도한다.
2.4 Linear Diffusion Transformer (DiT) 백본
ACE-Step의 생성 모델 핵심인 **Linear Diffusion Transformer**는 24개 블록으로 구성되며, 표준 attention 대신 **linear attention**을 사용하여 긴 시퀀스에서도 효율적으로 동작한다.
[DiT Block 구조 (x24)]
Input: noisy latent z_t + time embedding t
│
▼
┌─────────────────────────────────┐
│ AdaLN-single │
│ (Simplified Adaptive LayerNorm)│
│ - 모든 블록에서 파라미터 공유 │
│ - time step t로 조건화 │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Linear Self-Attention │
│ - O(n) 복잡도 (표준 O(n²) 대비)│
│ - RoPE Position Encoding │
│ - 최대 2,584 mel latent tokens │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Cross-Attention │
│ - Text Encoder 출력 (768-dim) │
│ - Lyric Encoder 출력 │
│ - Speaker Encoder 출력 (512-d) │
│ → Concatenate & Attend │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 1D Convolutional FeedForward │
│ - 2D Conv에서 1D로 적응 │
│ - 시간축 오디오 시퀀스에 최적화 │
└────────────┬────────────────────┘
│
▼
Output: denoised prediction
(Layer 8에서 REPA semantic alignment 추출)
**주요 아키텍처 결정:**
1. **AdaLN-single**: 모든 24개 블록에서 Adaptive Layer Normalization 파라미터를 공유하여 파라미터 효율성을 극대화한다. 이는 Sana에서 도입된 기법으로, 모델 크기 대비 성능 효율이 뛰어나다.
2. **Linear Attention**: 음악은 최대 4분까지의 긴 시퀀스를 다뤄야 하므로, O(n^2) 복잡도의 standard attention 대신 O(n) 복잡도의 linear attention을 채택했다. 이를 통해 2,584 tokens까지의 시퀀스를 효율적으로 처리한다.
3. **RoPE(Rotary Position Embedding)**: 상대적 위치 인코딩으로 다양한 길이의 음악에 대해 강건한 위치 정보를 제공한다.
4. **1D Convolutional FeedForward**: 원래 이미지용 2D Conv를 시간축 오디오 시퀀스에 맞게 1D로 적응시켰다. 이는 오디오의 시간적 연속성을 더 잘 포착한다.
2.5 Flow Matching 생성 프로세스
ACE-Step은 score-based diffusion 대신 **Flow Matching**을 채택했다. Flow Matching은 가우시안 노이즈에서 데이터 분포까지의 직선 경로(linear probability path)를 학습하여 더 빠른 수렴과 안정적인 학습을 가능하게 한다.
[Flow Matching 학습 과정]
시간 t ~ U[0, 1]
│
▼
노이즈 z ~ N(0, I) 데이터 x₀ (DCAE latent)
│ │
└──────── 선형 보간 ─────────┘
z_t = (1-t)·z + t·x₀
│
▼
┌──────────────────┐
│ DiT(z_t, t, c) │ ← conditioning c (text, lyric, speaker)
│ │
│ 예측 목표: │
│ v = x₀ - z │
│ (음의 상수 속도장)│
└────────┬─────────┘
│
▼
L_FM = MSE(v_predicted, v_target)
추론 시:
z_0 ~ N(0, I) → ODE 풀기 → z_1 ≈ x₀ → DCAE Decoder → waveform
**손실 함수:**
L_Total = L_FM + λ_SSL × L_SSL
여기서:
- L_FM: Flow Matching 손실 (MSE)
- L_SSL: REPA Semantic Alignment 손실
- λ_SSL = 1.0 (학습 대부분)
→ mHuBERT 컴포넌트만 0.01로 감소 (마지막 100K 스텝)
3. REPA: 의미적 표현 정렬 학습
ACE-Step의 두 번째 핵심 혁신은 **REPA(Representation Alignment)** 기법이다. 사전 학습된 Self-Supervised Learning(SSL) 모델의 의미적 표현을 DiT 학습에 직접 활용하여, 빠른 수렴과 높은 의미적 충실도를 달성한다.
3.1 MERT와 mHuBERT의 역할
[REPA 학습 구조]
┌───────────────────────┐
│ DiT Layer 8 출력 │
│ (intermediate repr.) │
└───────────┬───────────┘
│
┌─────────────────┼─────────────────┐
│ │ │
▼ │ ▼
┌──────────────────┐ │ ┌──────────────────┐
│ MERT (frozen) │ │ │ mHuBERT (frozen) │
│ │ │ │ │
│ - 음악 표현 학습 │ │ │ - 다국어 음성 표현 │
│ - 1024×T_M dim │ │ │ - 768×T_H dim │
│ - 75Hz frame │ │ │ - 50Hz frame │
│ - 스타일/멜로디 │ │ │ - 가사/발음 정렬 │
│ 정확도 향상 │ │ │ 정확도 향상 │
└────────┬─────────┘ │ └────────┬─────────┘
│ │ │
▼ ▼ ▼
┌──────────────────────────────────────────────┐
│ L_SSL = avg(1 - cosine_sim(DiT_repr, SSL)) │
│ │
│ = 0.5 × L_MERT + 0.5 × L_mHuBERT │
└──────────────────────────────────────────────┘
| SSL 모델 | 역할 | 차원 | Frame Rate | 기여 |
| ----------- | ---------------- | ---------- | ---------- | ---------------------------- |
| MERT | 음악 이해 | 1024 x T_M | 75Hz | 스타일 정확도, 멜로디 일관성 |
| mHuBERT-147 | 다국어 음성 이해 | 768 x T_H | 50Hz | 가사 정렬, 발음 자연스러움 |
**MERT(Music Representation Transformer)**는 대규모 자기지도 학습으로 사전 훈련된 음악 이해 모델로, 음악의 스타일, 멜로디, 하모니 등의 고수준 의미를 포착한다. **mHuBERT-147**은 147개 언어를 지원하는 다국어 음성 표현 모델로, 가사와 발음의 의미적 정렬을 담당한다.
이 두 모델의 표현을 DiT의 8번째 레이어 출력과 정렬시킴으로써, ACE-Step은 음악적 의미(MERT)와 언어적 의미(mHuBERT)를 동시에 학습한다. 이는 **가사가 포함된 음악 생성에서 특히 중요**한데, 멜로디와 가사의 동기화(alignment)가 음악의 자연스러움을 결정하기 때문이다.
3.2 Conditional Dropout 전략
학습 중 조건 정보에 대한 dropout을 적용하여 모델의 강건성을 높인다:
| 조건 | Dropout 비율 | 목적 |
| -------------- | ------------ | ---------------------------------- |
| Text 프롬프트 | 15% | Classifier-Free Guidance(CFG) 지원 |
| Lyric (가사) | 15% | 가사 없는 인스트루멘탈 생성 지원 |
| Speaker (화자) | 50% | 음색 과의존 방지, 음악 구조에 집중 |
4. ACE-Step v1 학습 상세
4.1 학습 데이터
ACE-Step v1은 대규모 음악 데이터셋에서 학습되었다:
| 항목 | 상세 |
| ----------- | ----------------------------- |
| 총 데이터 | 1.8M 고유 악곡 (~100,000시간) |
| 언어 | 19개 언어 (영어 다수) |
| 품질 필터링 | Audiobox aesthetics toolkit |
| 제외 항목 | 저품질 녹음, 라이브 공연 |
**자동 어노테이션 파이프라인:**
[데이터 어노테이션 파이프라인]
원본 오디오 파일
│
├──> Qwen-omini 모델 → 스타일/장르 캡션 생성
│
├──> Whisper 3.0 → 가사 전사(transcription)
│ └──> LSH 기반 IPA-to-database 매핑으로 가사 정제
│
├──> "All-in-one" 음악 이해 모델 → 곡 구조(intro, verse, chorus 등)
│
├──> BeatThis → BPM 추출
│
├──> Essentia → Key/Scale, 스타일 태그 추출
│
└──> Demucs → 보컬/반주 분리 (Speaker Encoder 학습용)
4.2 학습 구성
학습은 **Pre-training + Fine-tuning** 2단계로 진행된다:
| 단계 | 데이터 | 스텝 수 | 특이사항 |
| ------------ | --------------- | ------- | --------------------------- |
| Pre-training | 전체 100K 시간 | 460,000 | 전체 데이터셋으로 기초 학습 |
| Fine-tuning | 고품질 20K 시간 | 240,000 | 큐레이션된 고품질 서브셋 |
**하이퍼파라미터:**
학습 환경
Hardware: 15 노드 × 8 NVIDIA A100 (총 120 GPU)
Global Batch Size: 120 (GPU당 1)
학습 기간: ~264시간 (약 11일)
옵티마이저
Optimizer: AdamW
Weight Decay: 1e-2
Betas: (0.8, 0.9)
Learning Rate: 1e-4
LR Schedule: Linear warm-up (4,000 steps)
Gradient Clipping: max norm 0.5
REPA 가중치
λ_SSL: 1.0 (전체 학습)
mHuBERT λ: 0.01 (마지막 100K 스텝에서 감소)
5. ACE-Step v1.5: Hybrid LM + DiT 진화
2026년 1월 공개된 ACE-Step v1.5(arXiv:2602.00744)는 v1의 아키텍처를 근본적으로 재설계했다. **Language Model을 구조적 플래너로 도입**하고, **Distribution Matching Distillation**으로 추론 스텝을 극적으로 줄이는 등 여러 혁신을 담고 있다.
5.1 Hybrid LM + DiT 아키텍처
[ACE-Step v1.5 아키텍처]
사용자 입력 (텍스트 프롬프트 + 가사)
│
▼
┌──────────────────────────────────────────────────────────┐
│ Composer Agent (Language Model, Qwen 기반 ~1.7B) │
│ │
│ Chain-of-Thought 추론: │
│ 1. 메타데이터 생성 (BPM, Key, Duration, Structure) │
│ 2. 가사 정제 및 구조화 │
│ 3. 캡션/스타일 지시문 생성 │
│ 4. YAML 형식의 Song Blueprint 출력 │
│ │
│ ┌────────────────────────────────────────┐ │
│ │ bpm: 128 │ │
│ │ key: "C major" │ │
│ │ duration: 210 │ │
│ │ structure: │ │
│ │ - intro: 0-15s │ │
│ │ - verse1: 15-45s │ │
│ │ - chorus1: 45-75s │ │
│ │ - verse2: 75-105s ... │ │
│ │ style: "energetic K-pop with synth" │ │
│ └────────────────────────────────────────┘ │
└─────────────────────┬────────────────────────────────────┘
│ Song Blueprint
▼
┌──────────────────────────────────────────────────────────┐
│ 1D VAE (Self-Learning Tokenizer) │
│ - 48kHz 스테레오 오디오 처리 │
│ - 64차원 latent space @ 25Hz │
│ - 1920x 압축률 │
│ - FSQ: 25Hz → 5Hz discrete codes (~64K codebook) │
│ - "Source Latent" 생성 (LM-DiT bridging) │
└─────────────────────┬────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────┐
│ Diffusion Transformer (DiT, ~2B parameters) │
│ - Source Latent + Blueprint 조건으로 acoustic rendering │
│ - DMD2 distillation: 50 steps → 4-8 steps │
│ - 200x speedup (240초 트랙을 ~1초에 생성, A100 기준) │
└──────────────────────────────────────────────────────────┘
v1.5의 가장 큰 변화는 **구조적 계획(structural planning)과 음향 렌더링(acoustic rendering)의 분리**다. Language Model이 음악의 전체 청사진을 먼저 설계하고, DiT는 이 청사진에 따라 실제 오디오를 생성하는 역할만 수행한다. 이를 통해 10분 이상의 장편 곡까지 일관된 구조를 유지할 수 있게 되었다.
5.2 Self-Learning Tokenizer
v1.5는 v1의 mel-spectrogram 기반 DCAE 대신 **1D VAE**를 사용하여 48kHz 스테레오 오디오를 직접 처리한다:
[v1 vs v1.5 오디오 처리 비교]
ACE-Step v1:
오디오 → mel-spectrogram → DCAE Encoder → latent (10.77Hz)
latent → DCAE Decoder → mel → Fish Audio Vocoder → 32kHz mono
ACE-Step v1.5:
오디오(48kHz stereo) → 1D VAE Encoder → latent (25Hz, 64-dim)
latent → FSQ → 5Hz discrete codes ("Source Latent")
DiT → latent → 1D VAE Decoder → 48kHz stereo
개선점:
- 32kHz mono → 48kHz stereo (음질 향상)
- mel-spectrogram 중간 단계 제거 (정보 손실 감소)
- 1920x 압축률로 near-lossless 품질 유지
1D VAE의 **Finite Scalar Quantization(FSQ)**은 연속적인 25Hz latent를 5Hz discrete code로 양자화한다. 이 discrete code가 **Source Latent**로서 Language Model과 DiT 사이의 다리 역할을 한다. Codebook 크기는 약 64K이며, 이 tokenizer는 DiT 학습과 함께 동시에 학습되는 self-learning 방식이다.
5.3 Distribution Matching Distillation (DMD2)
v1.5의 극적인 속도 향상의 핵심은 **DMD2(Distribution Matching Distillation)**다:
[DMD2 Distillation 과정]
Teacher Model (50-step DiT)
│
▼ Knowledge Distillation
Student Model (4-8 step DiT)
│
├── Dynamic-shift Strategy: {1, 2, 3} 스텝 샘플링
│ → 다양한 denoising 상태 노출로 과적합 방지
│
├── Distribution Matching Loss
│ → Teacher의 분포와 Student의 분포 정렬
│
└── 결과: 200x 속도 향상
- 50 steps → 4-8 steps
- A100에서 240초 음악을 ~1초에 생성
- RTF(Real-Time Factor) 극적 개선
5.4 Intrinsic Reinforcement Learning
v1.5는 생성 품질을 더욱 향상시키기 위해 **강화학습 기반 정렬(alignment)**을 도입했다:
[RL 기반 정렬 구조]
DiT 정렬:
├── DiffusionNTF 프레임워크
├── Attention Alignment Score (AAS)
│ → Cross-attention map의 합의도(consensus) 측정
└── 음향 품질과 텍스트 조건 준수 향상
LM 정렬:
├── Pointwise Mutual Information (PMI)
│ → 의미적 준수도(semantic adherence) 측정
└── Song Blueprint의 정확도 향상
최종 보상 가중치:
- 분위기(Atmosphere): 50%
- 가사(Lyrics): 30%
- 메타데이터(Metadata): 20%
5.5 데이터 및 학습 인프라
v1.5는 v1보다 훨씬 대규모의 데이터와 정교한 학습 전략을 사용한다:
**RL-Driven Annotation 파이프라인:**
[v1.5 데이터 어노테이션]
1. "Golden Set" 구축 (5M 샘플)
└── Gemini 2.5 Pro로 초기 어노테이션
2. Fine-tuning
└── Golden Set으로 Qwen2.5-Omni 파인튜닝
└── GRPO 최적화 → ACE-Captioner, ACE-Transcriber 생성
3. Reward Models 학습
└── 4M contrastive pairs로 학습
4. Progressive Curriculum (3단계)
├── Phase 1: Foundation Pre-training (20M 샘플)
├── Phase 2: Omni-task Fine-tuning (17M, stem-separated tracks 포함)
└── Phase 3: High-quality SFT (2M 큐레이션 샘플)
총 **27M 샘플**에 걸친 3단계 점진적 커리큘럼 학습은 모델이 기본적인 음악 생성 능력에서 시작하여 점차 전문적인 태스크를 학습하도록 설계되었다.
5.6 Omni-Task 프레임워크
v1.5의 또 다른 핵심 혁신은 **단일 모델로 다양한 음악 작업을 처리**하는 Omni-Task 프레임워크다:
| 태스크 | 설명 | 활용 시나리오 |
| ---------------- | ------------------------------ | ---------------- |
| Text-to-Music | 텍스트 프롬프트로 전체 곡 생성 | 작곡, 배경음악 |
| Cover Generation | 기존 곡의 스타일/음색 변환 | 커버곡 제작 |
| Repainting | 특정 구간 재생성/수정 | 부분 리미스 |
| Track Extraction | 보컬/반주 트랙 분리 | 믹싱, 리마스터링 |
| Layering | 다중 트랙 합성 | 편곡, 프로듀싱 |
| Completion | 미완성 곡 이어 작곡 | 공동 작곡 |
| Vocal-to-BGM | 보컬에서 반주 생성 | 카라오케 제작 |
이 모든 태스크는 **Source Latent와 Mask** 설정의 조합으로 구현되며, 별도의 모델 학습 없이 단일 모델에서 처리된다.
6. 성능 평가 및 벤치마크
6.1 추론 속도 비교
ACE-Step의 가장 극적인 장점은 **추론 속도**다:
| 모델 | RTF (RTX 4090) | 4분 곡 생성 시간 | 비고 |
| ----------------- | -------------- | ---------------- | ----------------- |
| **ACE-Step v1** | 15.63x | ~20초 (A100) | 실시간의 15.63배 |
| **ACE-Step v1.5** | - | 2초 미만 (A100) | DMD2 distillation |
| DiffRhythm | 10.03x | ~30초 | |
| Yue (LLM 기반) | 0.083x | ~48분 | 실시간보다 느림 |
ACE-Step v1은 LLM 기반 모델인 Yue 대비 **약 188배 빠르며**, v1.5는 distillation을 통해 v1 대비 추가로 **10배 이상** 빨라졌다.
**v1.5 하드웨어별 성능:**
| 하드웨어 | 전체 곡 생성 시간 | VRAM 요구량 |
| ------------------- | -------------------- | ----------- |
| NVIDIA A100 | 2초 미만 | - |
| RTX 3090 | 10초 미만 | 4GB 미만 |
| RTX 4090 | 5초 미만 (추정) | 4GB 미만 |
| AMD Radeon | 지원 (AMD 공식 협력) | 4GB 미만 |
| Apple Silicon (Mac) | 지원 | 4GB 미만 |
6.2 음악 품질 평가
ACE-Step은 다양한 자동 평가 메트릭과 인간 평가에서 경쟁력 있는 결과를 달성했다:
**자동 평가 (v1):**
| 메트릭 | ACE-Step v1 | 비교 모델(최고) | 설명 |
| --------------------- | ----------- | ---------------------- | ------------------------ |
| DCAE FAD | 0.0224 | DiffRhythm VAE: 0.0059 | 파형 재구성 품질 |
| Style Alignment | 상위권 | Udio v1 (최고) | CLAP + Mulan 기반 |
| Lyric Alignment | 강함 | Hailuo (최고) | Whisper Forced Alignment |
| SongEval Coherence | 경쟁적 | Suno v3 (최고) | 음악적 일관성 |
| SongEval Memorability | 강함 | - | 기억에 남는 멜로디 |
**자동 평가 (v1.5):**
| 메트릭 | ACE-Step v1.5 | Suno v5 | MinMax 2.0 |
| ------------------ | -------------------- | ------- | ---------- |
| AudioBox CU | **8.09** (최고) | - | - |
| AudioBox PQ | **8.35** (최고) | - | - |
| SongEval Coherence | **4.72** (공동 최고) | - | - |
| Style Alignment | 39.1 | 46.8 | 43.1 |
| Lyric Alignment | 26.3 | 34.2 | 29.5 |
v1.5는 AudioBox CU(8.09)와 PQ(8.35)에서 최고 점수를, SongEval Coherence(4.72)에서 공동 최고를 달성했다. Style/Lyric Alignment에서는 Suno v5에 미치지 못하지만, **오픈소스 모델 중에서는 압도적**이며, Music Arena 인간 평가에서는 Suno v4.5와 v5 사이에 위치한다.
**인간 평가 (v1, 32명 참여자):**
| 평가 항목 | 점수 (/100) |
| -------------------- | ----------- |
| Emotional Expression | ~85 |
| Innovativeness | ~82 |
| Sound Quality | ~80 |
| Musicality | ~78 |
7. AI 음악 생성 모델 비교 분석
7.1 주요 모델 개요
현재 AI 음악 생성 분야의 주요 모델들을 체계적으로 비교한다:
[AI 음악 생성 모델 분류]
┌─────────────────────────────────────────────────────────────────┐
│ 오픈소스 모델 │
├──────────────┬──────────────┬──────────────┬───────────────────┤
│ ACE-Step │ MusicGen │ Stable Audio│ Riffusion │
│ (v1, v1.5) │ (Meta) │ Open │ │
│ │ │ (Stability) │ │
│ Diffusion │ Autoregress │ Latent │ Image Diffusion │
│ + DCAE/VAE │ + EnCodec │ Diffusion │ → Spectrogram │
│ 3.5B params │ 1.5B/3.3B │ 1.1B │ ~1B │
├──────────────┴──────────────┴──────────────┴───────────────────┤
│ 상업 모델 │
├──────────────┬──────────────┬──────────────┬───────────────────┤
│ Suno │ Udio │ ElevenLabs │ Google MusicLM │
│ (v3→v5) │ (v1→v2) │ Eleven Music│ │
│ │ │ │ │
│ Full song │ Segment-by │ Licensed │ Experimental/ │
│ generation │ -segment │ commercial │ Instrumental │
│ pipeline │ composition │ use OK │ focus │
└──────────────┴──────────────┴──────────────┴───────────────────┘
7.2 상세 비교표
| 모델 | 개발사 | 파라미터 | 생성 방식 | 오디오 표현 | 최대 길이 | 가사 지원 | 오픈소스 |
| --------------------- | -------------------- | -------------- | ---------------------- | ------------------ | ------------- | ----------- | -------- |
| **ACE-Step v1** | ACE Studio + StepFun | 3.5B | Flow Matching + DiT | Mel DCAE latent | 4분 | O (다국어) | O |
| **ACE-Step v1.5** | ACE Studio + StepFun | ~3.7B (LM+DiT) | Hybrid LM + DiT + DMD2 | 1D VAE latent | 10분+ | O (50+언어) | O |
| **MusicGen** | Meta | 1.5B/3.3B | Autoregressive | EnCodec tokens | ~30초 | X | O |
| **Stable Audio Open** | Stability AI | 1.1B | Latent Diffusion | VAE latent | 47초 | X | O |
| **Riffusion** | Riffusion | ~1B | Image Diffusion | Spectrogram | 수 초 | X | O |
| **JEN-1** | Jen Music | - | AR + Non-AR hybrid | Raw waveform | ~30초 | X | X (부분) |
| **Suno** | Suno Inc. | 비공개 | 비공개 | 비공개 | 4분+ | O | X |
| **Udio** | Udio | 비공개 | 비공개 | 비공개 | 세그먼트 기반 | O | X |
| **MusicLM** | Google | 비공개 | AR + SoundStream | SoundStream tokens | ~30초 | X | X |
7.3 MusicGen (Meta)
Meta의 **MusicGen**은 오픈소스 음악 생성 모델의 선구자다. **EnCodec** 토크나이저를 기반으로 한 autoregressive transformer 모델이다.
[MusicGen 아키텍처]
텍스트 프롬프트 → T5 Encoder → Conditioning
│
▼
┌──────────────────────────┐
│ Autoregressive Decoder │
│ (Transformer LM) │
│ │
│ EnCodec 4 codebooks │
│ 32kHz, 50Hz sampling │
│ │
│ Delay pattern으로 │
│ 다중 codebook 동시 생성 │
└──────────┬───────────────┘
│
▼
┌──────────────────────────┐
│ EnCodec Decoder │
│ tokens → waveform │
└──────────────────────────┘
**장점:** 안정적인 인스트루멘탈 생성, 멜로디 컨디셔닝 지원
**한계:** 가사 지원 없음, ~30초 제한, 상대적으로 느린 autoregressive 생성
7.4 Suno vs ACE-Step
Suno는 현재 **상업적으로 가장 성공적인** AI 음악 생성 플랫폼이다:
| 비교 항목 | ACE-Step v1.5 | Suno v5 |
| --------------- | -------------------- | --------------- |
| 접근성 | 로컬 설치 (오픈소스) | 클라우드 서비스 |
| VRAM 요구 | 4GB 미만 | N/A (서버) |
| 곡 구조 | LM 기반 Blueprint | 엔드투엔드 |
| 커스터마이징 | LoRA 학습 가능 | 프롬프트만 |
| Style Alignment | 39.1 | 46.8 |
| Lyric Alignment | 26.3 | 34.2 |
| 가격 | 무료 (로컬) | 구독제 |
| 상업적 사용 | 라이선스 확인 필요 | 유료 플랜 |
Suno v5가 절대적 품질에서는 여전히 앞서지만, ACE-Step v1.5는 **로컬 배포, 커스터마이징, 비용 효율** 측면에서 강력한 대안이다.
7.5 Stable Audio Open
Stability AI의 **Stable Audio Open**은 latent diffusion 기반의 오픈소스 모델이다:
| 비교 항목 | ACE-Step v1.5 | Stable Audio Open |
| ----------- | ---------------------- | ------------------ |
| 최대 길이 | 10분+ | 47초 |
| 가사 지원 | O (50+언어) | X |
| 보컬 생성 | O (Voice Cloning 포함) | X (인스트루멘탈만) |
| 파라미터 | ~3.7B | 1.1B |
| 오디오 품질 | 48kHz stereo | 44.1kHz stereo |
ACE-Step이 길이, 가사, 보컬 등 거의 모든 면에서 우위를 보인다.
8. 음악 생성의 핵심 기반 기술
AI 음악 생성을 이해하기 위해 필수적인 기반 기술들을 심층 분석한다.
8.1 Audio Tokenization: 오디오를 이산 토큰으로
음악 생성 모델의 첫 번째 과제는 연속적인 오디오 신호를 모델이 처리할 수 있는 형태로 변환하는 것이다. 크게 세 가지 접근법이 있다:
[오디오 표현 방식 비교]
1. Spectrogram 기반
┌────────────────────────────────────────────┐
│ waveform → STFT → mel-spectrogram → 이미지 │
│ │
│ 장점: 시각화 용이, 이미지 모델 활용 가능 │
│ 단점: Phase 정보 손실, vocoder 필요 │
│ 사용: Riffusion, ACE-Step v1 (DCAE 입력) │
└────────────────────────────────────────────┘
2. Neural Audio Codec (이산 토큰)
┌────────────────────────────────────────────┐
│ waveform → Encoder → RVQ → discrete tokens │
│ tokens → Decoder → waveform │
│ │
│ 장점: 엔드투엔드, 높은 압축률 │
│ 단점: 장거리 의존성 약함 (acoustic tokens) │
│ 사용: MusicGen (EnCodec), MusicLM (SStream) │
└────────────────────────────────────────────┘
3. Continuous Latent (VAE)
┌────────────────────────────────────────────┐
│ waveform → VAE Encoder → continuous latent │
│ latent → VAE Decoder → waveform │
│ │
│ 장점: Diffusion과 자연스럽게 결합 │
│ 단점: 압축률과 품질의 트레이드오프 │
│ 사용: ACE-Step v1.5 (1D VAE), Stable Audio │
└────────────────────────────────────────────┘
8.2 EnCodec과 SoundStream
**EnCodec**(Meta)과 **SoundStream**(Google)은 Neural Audio Codec의 대표 모델이다:
[EnCodec / SoundStream 아키텍처]
Input: raw waveform (24kHz/48kHz)
│
▼
┌─────────────────────────────────┐
│ Encoder (1D Conv + LSTM) │
│ → continuous embeddings │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Residual Vector Quantization │
│ (RVQ) │
│ │
│ Codebook 1 → 가장 중요한 정보 │
│ Codebook 2 → 잔차(residual) │
│ Codebook 3 → 더 세밀한 잔차 │
│ ... │
│ Codebook N → 최종 잔차 │
│ │
│ 각 codebook: 1024 entries │
│ sampling rate: 50Hz/75Hz │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Decoder (1D TransposeConv) │
│ → reconstructed waveform │
└─────────────────────────────────┘
학습: Reconstruction Loss + Adversarial Loss
(Multi-scale discriminator)
**EnCodec vs SoundStream:**
| 항목 | EnCodec | SoundStream |
| ----------- | ----------------------------------------- | ---------------- |
| 개발사 | Meta | Google |
| 핵심 혁신 | Multi-scale discriminator, loss balancing | RVQ 도입 |
| 샘플 레이트 | 24kHz/48kHz | 24kHz |
| 비트레이트 | 1.5~24 kbps | 3~18 kbps |
| 활용 모델 | MusicGen, AudioGen | AudioLM, MusicLM |
| 오픈소스 | O | X |
8.3 Diffusion for Audio
Diffusion 모델의 오디오 적용은 이미지 도메인에서의 성공을 기반으로 한다:
[오디오 Diffusion 학습]
Forward Process (노이즈 추가):
x₀ (원본 오디오 latent)
→ x₁ → x₂ → ... → x_T (순수 가우시안 노이즈)
x_t = √(ᾱ_t) · x₀ + √(1-ᾱ_t) · ε, ε ~ N(0,I)
Reverse Process (노이즈 제거, 학습 대상):
x_T (노이즈) → x_{T-1} → ... → x₀ (생성된 오디오 latent)
p_θ(x_{t-1}|x_t) = N(x_{t-1}; μ_θ(x_t, t), σ²I)
Loss: L = E_{t,x₀,ε} [||ε - ε_θ(x_t, t, c)||²]
(c = conditioning: text, melody, etc.)
ACE-Step v1은 표준 Diffusion 대신 **Flow Matching**을 사용하는데, 이는 직선 경로를 사용하여 더 적은 스텝으로 수렴하고 학습이 안정적이라는 장점이 있다. v1.5는 여기에 **DMD2 distillation**을 추가하여 4~8 스텝만으로 고품질 생성을 달성한다.
8.4 Classifier-Free Guidance (CFG)
모든 조건부 생성 모델에서 핵심적인 기법인 **CFG**는 ACE-Step에서도 사용된다:
[CFG 적용]
ε_guided = ε_uncond + w × (ε_cond - ε_uncond)
여기서:
- ε_cond: 조건(text, lyric, speaker) 포함 예측
- ε_uncond: 조건 제거 예측 (dropout으로 학습)
- w: guidance scale (높을수록 조건 준수, 다양성 감소)
ACE-Step의 15% text/lyric dropout, 50% speaker dropout은
바로 이 CFG를 위한 unconditional 학습을 가능하게 한다.
9. 실전 활용 가이드
9.1 ACE-Step v1.5 로컬 설치
ACE-Step v1.5는 놀라울 정도로 간단한 설치 과정을 제공한다:
1. uv 패키지 매니저 설치
curl -LsSf https://astral.sh/uv/install.sh | sh
2. 저장소 클론 및 의존성 설치
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync
3. Gradio UI 실행 (웹 인터페이스)
uv run acestep
→ http://localhost:7860 에서 접속
4. 또는 REST API 서버 실행
uv run acestep-api
→ http://localhost:8001 에서 API 사용
5. 환경 설정 (선택)
cp .env.example .env
.env 파일에서 모델 경로, 포트, GPU 설정 등 커스터마이징
**지원 하드웨어:**
- NVIDIA GPU (CUDA): RTX 20xx 이상 권장
- AMD GPU (ROCm): AMD 공식 협력으로 최적화
- Intel GPU: 지원
- Apple Silicon (Mac): MPS 백엔드 지원
모델은 **첫 실행 시 자동 다운로드**되며, 4GB 미만의 VRAM으로 동작한다.
9.2 텍스트-투-뮤직 기본 사용법
API를 통한 음악 생성 예시 (개념적 코드)
기본 텍스트-투-뮤직 생성
response = requests.post("http://localhost:8001/generate", json={
"prompt": "밝고 경쾌한 K-pop 댄스 트랙, 신스 베이스와 일렉트로닉 비트, "
"128 BPM, 여성 보컬, C 메이저",
"lyrics": """
[Verse 1]
오늘 밤 빛나는 별처럼
우리 함께 춤을 춰요
음악이 흐르는 이 순간
멈추지 않을 거예요
[Chorus]
라라라 빛나는 밤
라라라 함께하는 시간
이 순간이 영원하길
""",
"duration": 180, # 3분
"num_inference_steps": 8, # DMD2 distilled
"guidance_scale": 7.0,
"seed": 42
})
결과 오디오 저장
with open("output.wav", "wb") as f:
f.write(response.content)
9.3 프롬프트 작성 가이드
효과적인 프롬프트 작성은 생성 품질에 직접적인 영향을 미친다:
[효과적인 프롬프트 구조]
1. 장르/스타일 : "indie folk ballad", "aggressive metal", "lo-fi hip-hop"
2. 악기 구성 : "acoustic guitar, soft piano, light percussion"
3. 분위기/감정 : "melancholic", "uplifting", "dreamy"
4. 템포(BPM) : "slow tempo 70 BPM", "fast 140 BPM"
5. 조성 : "minor key", "E flat major"
6. 보컬 특성 : "female vocal, breathy", "male baritone, powerful"
7. 프로덕션 스타일 : "lo-fi with vinyl crackle", "clean studio production"
[좋은 프롬프트 예시]
"Dreamy shoegaze rock with layers of reverbed electric guitars,
ethereal female vocal, 90 BPM, D minor, lo-fi production
with tape saturation and subtle noise"
[가사 포맷]
- [Verse], [Chorus], [Bridge], [Intro], [Outro] 태그 사용
- 각 섹션을 명확히 구분
- 한 줄에 한 프레이즈
9.4 LoRA 개인화 학습
ACE-Step v1.5의 강력한 기능 중 하나는 **소량의 곡으로 자신만의 스타일을 학습**할 수 있는 LoRA 지원이다:
[LoRA 학습 과정]
1. 데이터 준비
├── 최소 3-5곡의 레퍼런스 음악
├── 각 곡의 텍스트 프롬프트(캡션)
└── (선택) 가사 파일
2. Gradio UI에서 LoRA Training 탭 접근
├── 오디오 파일 업로드
├── 캡션 입력
├── 학습 파라미터 설정
│ ├── Learning Rate: ~1e-4
│ ├── Epochs: 50-200
│ └── LoRA Rank: 8-64
└── 학습 시작
3. 학습된 LoRA 적용
├── 생성 시 LoRA 가중치 로드
├── LoRA Scale 조절 (0.0~1.0)
└── 기존 프롬프트와 결합하여 스타일 적용
이를 통해 특정 아티스트의 프로덕션 스타일, 특정 장르의 뉘앙스, 또는 자신만의 작곡 스타일을 모델에 반영할 수 있다.
9.5 ComfyUI 통합
ACE-Step 1.5는 **ComfyUI**와의 통합도 지원하여, 노드 기반 워크플로우에서 음악 생성을 시각적으로 구성할 수 있다:
[ComfyUI ACE-Step 워크플로우 예시]
┌──────────┐ ┌──────────────┐ ┌──────────────┐
│ Text │────>│ ACE-Step │────>│ Audio │
│ Prompt │ │ Generator │ │ Preview │
└──────────┘ │ │ └──────────────┘
│ │
┌──────────┐ │ │ ┌──────────────┐
│ Lyrics │────>│ │────>│ Save WAV │
│ Input │ │ │ │ Node │
└──────────┘ └──────────────┘ └──────────────┘
10. 윤리적 고려사항과 법적 문제
10.1 저작권 현황 (2025~2026)
AI 음악 생성의 저작권 문제는 현재 가장 뜨거운 법적 이슈 중 하나다:
**주요 판결 및 동향:**
| 시기 | 사건 | 영향 |
| ----------- | ------------------------------------------------------ | ------------------------------------ |
| 2025년 1월 | US Copyright Office: 100% AI 생성 콘텐츠 저작권 불인정 | Public domain 판정 |
| 2025년 3월 | US 항소법원: AI 생성 작품 저작권 보호 거부 확정 | 법적 선례 확립 |
| 2025년 9월 | Warner Music + Suno 합의 | Suno, 라이선스 기반 모델로 전환 합의 |
| 2025년 11월 | UMG + Udio 합의 | 유사한 라이선스 전환 합의 |
| 2025년 8월 | ElevenLabs Eleven Music 출시 | 최초 합법적 상업 라이선스 AI 음악 |
| 2026년 1월 | UMG vs Anthropic (\$3B) | 20,000+곡 학습 데이터 저작권 소송 |
10.2 "의미 있는 인간 저작성(Meaningful Human Authorship)" 원칙
US Copyright Office는 AI 보조 작품에 대해 **"의미 있는 인간 저작성"**이 있는 경우 저작권을 인정할 수 있다는 가이드라인을 발표했다:
[AI 음악의 저작권 인정 가능성 스펙트럼]
완전 AI 생성 완전 인간 창작
←──────────────────────────────────────→
│ │ │
저작권 불인정 판단 필요 영역 저작권 인정
│
인간이 능동적으로:
- 멜로디 수정
- 가사 작성
- 구조 편곡
- AI 출력 선별/편집
→ "의미 있는 인간 저작성"
→ 저작권 인정 가능
10.3 오픈소스 모델의 윤리적 고려
ACE-Step 같은 오픈소스 모델은 추가적인 윤리적 고려가 필요하다:
1. **학습 데이터 출처**: ACE-Step의 학습 데이터 1.8M곡(v1) / 27M 샘플(v1.5)의 저작권 상태는 논문에서 명확히 공개되지 않았다. 사용자는 생성된 음악의 상업적 활용 시 법적 리스크를 인지해야 한다.
2. **Voice Cloning 남용**: Speaker Encoder를 통한 보이스 클로닝 기능은 특정 아티스트의 음성을 무단으로 복제하는 데 악용될 수 있다. 레퍼런스 보컬의 권리자 동의 없는 클로닝은 윤리적, 법적으로 문제가 된다.
3. **딥페이크 음악**: AI가 특정 아티스트의 "새 곡"을 생성하는 딥페이크 음악은 이미 사회적 문제로 대두되고 있다. ACE-Step의 Cover Generation 기능도 이러한 맥락에서 책임 있는 사용이 요구된다.
4. **음악 산업 영향**: AI 음악 생성 기술의 대중화는 직업 음악가, 작곡가, 프로듀서의 생계에 직접적 영향을 미칠 수 있다. 기술 발전과 창작자 보호의 균형이 필요하다.
10.4 책임 있는 사용을 위한 가이드라인
[AI 음악 생성 책임 있는 사용 원칙]
1. 투명성: AI가 생성/보조한 음악임을 명시
2. 동의: Voice Cloning 시 원 아티스트 동의 확보
3. 귀속: AI 도구와 인간 기여를 명확히 구분
4. 상업적 사용: 관련 법규와 라이선스 조건 준수
5. 교육: AI 도구를 음악 교육/학습의 보조 도구로 활용
6. 공정 사용: 기존 음악의 스타일 모방과 복제의 구분
11. 주요 논문 레퍼런스
ACE-Step과 AI 음악 생성 분야의 핵심 논문들을 정리한다:
11.1 ACE-Step 관련
| 논문 | 저자 | 연도 | 핵심 기여 |
| -------------------------------------------------------------------- | ------------- | ---- | --------------------------------- |
| ACE-Step: A Step Towards Music Generation Foundation Model | Gong et al. | 2025 | DCAE + Linear DiT + REPA |
| ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation | ACE-Step Team | 2026 | Hybrid LM+DiT, DMD2, RL alignment |
11.2 기반 기술
| 논문 | 핵심 기여 | 활용 |
| ------------------------------------------------ | ---------------------------------- | ---------------------- |
| Deep Compression Autoencoder (Chen et al., 2024) | 고압축률 AutoEncoder | ACE-Step DCAE |
| MERT (Li et al., 2024) | 자기지도 음악 표현 학습 | ACE-Step REPA |
| mHuBERT-147 (Lee et al., 2024) | 다국어 음성 표현 | ACE-Step REPA |
| Flow Matching (Lipman et al., 2023) | ODE 기반 생성 모델 | ACE-Step 생성 프로세스 |
| DMD2 (Yin et al., 2024) | Distribution Matching Distillation | ACE-Step v1.5 speedup |
11.3 경쟁 모델 논문
| 논문 | 저자/기관 | 연도 | 핵심 기여 |
| -------------------------------------------------- | --------------------------- | ---- | --------------------------- |
| MusicGen: Simple and Controllable Music Generation | Copet et al. (Meta) | 2023 | EnCodec + AR Transformer |
| MusicLM: Generating Music from Text | Agostinelli et al. (Google) | 2023 | SoundStream + AR |
| Stable Audio Open | Evans et al. (Stability AI) | 2024 | Latent Diffusion for Audio |
| Riffusion | Forsgren & Martiros | 2022 | Spectrogram Image Diffusion |
| JEN-1: Text-Guided Universal Music Generation | Li et al. | 2023 | AR + Non-AR hybrid |
| DiffRhythm | - | 2025 | 1D VAE + Flow DiT |
| SongGen | - | 2025 | 가사 인코딩 아키텍처 |
11.4 Audio Tokenization
| 논문 | 저자/기관 | 연도 | 핵심 기여 |
| ----------------------------------------------- | ------------------------- | ---- | -------------------------- |
| EnCodec: High Fidelity Neural Audio Compression | Defossez et al. (Meta) | 2022 | RVQ + Multi-scale Disc |
| SoundStream: An End-to-End Neural Audio Codec | Zeghidour et al. (Google) | 2021 | RVQ 도입 |
| WavTokenizer | Peng et al. | 2025 | 40/75 tokens/sec SOTA |
| AudioLM: A Language Modeling Approach to Audio | Borsos et al. (Google) | 2023 | Semantic + Acoustic tokens |
12. 미래 전망
12.1 기술 발전 방향
AI 음악 생성 기술은 다음과 같은 방향으로 발전할 것으로 전망된다:
[AI 음악 생성 기술 발전 로드맵]
2026 현재 2027 예상 2028+ 장기
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────────┐
│ 현재 상태 │ │ 단기 발전 │ │ 장기 비전 │
│ │ │ │ │ │
│ • 4분 곡 생성 │ → │ • 앨범 단위 │ → │ • 실시간 인터랙티브│
│ • 텍스트 조건 │ │ 일관된 생성 │ │ 음악 생성 │
│ • LoRA 개인화 │ │ • 멀티트랙 │ │ • 감정 인식 기반 │
│ • Voice Clone│ │ 동시 생성 │ │ 적응형 음악 │
│ • 50+ 언어 │ │ • 실시간 │ │ • 영상-음악 동기 │
│ │ │ 스트리밍 생성 │ │ • 완전 자동 프로덕션│
└──────────────┘ └──────────────┘ └──────────────────┘
12.2 ACE-Step의 Foundation Model 비전
ACE-Step 프로젝트의 궁극적 비전은 "**음악 AI의 Stable Diffusion**"이 되는 것이다. 이는 단순한 텍스트-투-뮤직 파이프라인이 아니라, 다양한 하위 태스크를 그 위에 구축할 수 있는 **범용 Foundation Model**을 의미한다:
[ACE-Step Foundation Model 생태계 비전]
┌─────────────────────────┐
│ ACE-Step Foundation │
│ Model (Base) │
└──────────┬──────────────┘
│
┌────────────────────┼────────────────────┐
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────────┐
│ Text-to- │ │ Audio │ │ Music │
│ Music │ │ Editing │ │ Understanding │
│ Generation │ │ & Remixing │ │ & Analysis │
└──────────────┘ └──────────────┘ └──────────────────┘
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────────┐
│ LoRA │ │ Voice │ │ Stem │
│ Style │ │ Cloning │ │ Separation │
│ Transfer │ │ & TTS │ │ & Transcription │
└──────────────┘ └──────────────┘ └──────────────────┘
이 비전이 실현되면, 음악 프로듀서, 영상 제작자, 게임 개발자, 교육자 등 다양한 사용자가 **로컬 환경에서 상업 품질의 음악을 생성하고 편집**할 수 있게 된다.
12.3 산업 영향 전망
1. **음악 프로듀싱의 민주화**: 4GB VRAM으로 상업 품질 음악을 생성할 수 있다는 것은 음악 제작의 진입 장벽이 극적으로 낮아짐을 의미한다.
2. **하이브리드 워크플로우**: AI가 초안을 생성하고 인간이 정제하는 **AI-Human 협업** 워크플로우가 표준이 될 것이다. ACE-Step의 Repainting, Completion, Track Extraction 기능은 이러한 워크플로우에 최적화되어 있다.
3. **개인화된 음악 경험**: LoRA를 통한 개인화 학습은 각 사용자의 취향에 맞춘 음악 생성을 가능하게 한다. 이는 게임, 명상 앱, 피트니스 앱 등에서 **동적으로 생성되는 맞춤형 음악**으로 이어질 것이다.
4. **법적 프레임워크 정립**: 2025~2026년의 소송과 합의를 거쳐, AI 음악 생성에 대한 **명확한 법적 프레임워크**가 점차 형성될 것이다. ElevenLabs의 라이선스 기반 접근법이 하나의 모델이 될 수 있다.
13. 결론
ACE-Step은 AI 음악 생성 분야에서 **오픈소스와 상업 모델의 격차를 극적으로 줄인** 이정표적 모델이다. v1의 DCAE + Linear DiT + REPA 아키텍처는 3.5B 파라미터에서 LLM 기반 모델 대비 188배 빠른 추론을 달성했고, v1.5의 Hybrid LM + DiT + DMD2 아키텍처는 A100에서 2초 미만, 4GB 미만 VRAM이라는 경이적인 효율성을 실현했다.
핵심적인 기술적 기여를 요약하면:
1. **DCAE의 음악 도메인 적용**: 8배 압축으로 10.77Hz 시간 해상도를 유지하면서 고품질 재구성 달성
2. **REPA 학습**: MERT + mHuBERT를 통한 음악적/언어적 의미 정렬로 빠른 수렴과 높은 충실도
3. **Hybrid LM + DiT**: 구조적 계획과 음향 렌더링의 분리로 10분 이상의 장편 곡 지원
4. **DMD2 Distillation**: 50 스텝을 4~8 스텝으로 압축, 200배 속도 향상
5. **Omni-Task 프레임워크**: 단일 모델로 텍스트-투-뮤직, 커버, 리페인팅, 트랙 분리 등 다양한 태스크 수행
물론 Style/Lyric Alignment에서 Suno v5 같은 최상위 상업 모델과의 격차는 여전히 존재한다. 그러나 ACE-Step이 제시하는 **오픈소스, 로컬 배포, 개인화 가능**이라는 가치는 상업 모델이 제공할 수 없는 고유한 장점이다. 음악 AI의 "Stable Diffusion 모멘트"를 향한 ACE-Step의 여정은 이제 막 시작되었다.
References
- Gong, J., Zhao, S., Wang, S., Xu, S., & Guo, J. (2025). ACE-Step: A Step Towards Music Generation Foundation Model. _arXiv:2506.00045_. https://arxiv.org/abs/2506.00045
- ACE-Step Team. (2026). ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation. _arXiv:2602.00744_. https://arxiv.org/abs/2602.00744
- Chen, J. et al. (2024). Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models. _arXiv:2410.10733_. https://arxiv.org/abs/2410.10733
- Copet, J. et al. (2023). Simple and Controllable Music Generation. _NeurIPS 2023_. https://arxiv.org/abs/2306.05284
- Agostinelli, A. et al. (2023). MusicLM: Generating Music From Text. _arXiv:2301.11325_. https://arxiv.org/abs/2301.11325
- Defossez, A. et al. (2022). High Fidelity Neural Audio Compression. _arXiv:2210.13438_. https://arxiv.org/abs/2210.13438
- Zeghidour, N. et al. (2021). SoundStream: An End-to-End Neural Audio Codec. _arXiv:2107.03312_. https://arxiv.org/abs/2107.03312
- Li, Y. et al. (2024). MERT: Acoustic Music Understanding Model with Large-Scale Self-Supervised Training. _ICLR 2024_.
- Lee, R. et al. (2024). mHuBERT-147: A Compact Multilingual HuBERT Model. _Interspeech 2024_.
- Lipman, Y. et al. (2023). Flow Matching for Generative Modeling. _ICLR 2023_.
- Yin, T. et al. (2024). One-step Diffusion with Distribution Matching Distillation. _CVPR 2024_.
- Evans, Z. et al. (2024). Stable Audio Open. _arXiv:2407.14358_.
- Li, P. et al. (2023). JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models. _arXiv:2308.04729_.
- ACE-Step GitHub (v1): https://github.com/ace-step/ACE-Step
- ACE-Step GitHub (v1.5): https://github.com/ace-step/ACE-Step-1.5
- ACE-Step Hugging Face: https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
현재 단락 (1/801)
AI 음악 생성(AI Music Generation) 분야는 2024~2025년을 기점으로 폭발적인 발전을 이루었다. Meta의 MusicGen, Google의 MusicLM, 그...