Split View: ACE-Step: AI 음악 생성의 새로운 패러다임 — 아키텍처, 학습 방법, 실전 활용 완벽 분석
ACE-Step: AI 음악 생성의 새로운 패러다임 — 아키텍처, 학습 방법, 실전 활용 완벽 분석
- 1. 서론: AI 음악 생성의 전환점
- 2. ACE-Step v1: 아키텍처 심층 분석
- 3. REPA: 의미적 표현 정렬 학습
- 4. ACE-Step v1 학습 상세
- 5. ACE-Step v1.5: Hybrid LM + DiT 진화
- 6. 성능 평가 및 벤치마크
- 7. AI 음악 생성 모델 비교 분석
- 8. 음악 생성의 핵심 기반 기술
- 9. 실전 활용 가이드
- 10. 윤리적 고려사항과 법적 문제
- 11. 주요 논문 레퍼런스
- 12. 미래 전망
- 13. 결론
- References
1. 서론: AI 음악 생성의 전환점
AI 음악 생성(AI Music Generation) 분야는 2024~2025년을 기점으로 폭발적인 발전을 이루었다. Meta의 MusicGen, Google의 MusicLM, 그리고 Suno와 Udio 같은 상업 서비스가 대중에게 AI 작곡의 가능성을 보여주었지만, 오픈소스 진영에서 상업 모델에 필적하는 품질을 달성한 모델은 드물었다.
2025년 5월, ACE Studio와 StepFun이 공동 개발한 ACE-Step이 공개되면서 이 판도가 바뀌었다. ACE-Step은 텍스트 프롬프트와 가사로부터 최대 4분 길이의 고품질 음악을 약 20초 만에 생성하는 Foundation Model로, 3.5B 파라미터 규모에서 LLM 기반 모델 대비 15배 이상 빠른 추론 속도와 우수한 음악적 일관성을 달성했다. 2026년 1월에는 후속 버전인 ACE-Step 1.5가 출시되어, A100에서 2초 미만, RTX 3090에서 10초 미만이라는 경이적인 속도로 상업 모델 수준의 품질을 로컬 환경에서 구현할 수 있게 되었다.
[AI 음악 생성 모델 발전 타임라인]
2023 2024 2025 2026
| | | |
v v v v
┌──────────┐ ┌──────────────┐ ┌───────────────┐ ┌──────────────────┐
│ MusicGen │ │ Stable Audio │ │ ACE-Step v1 │ │ ACE-Step v1.5 │
│ MusicLM │ │ Suno v3 │ │ (3.5B, DCAE │ │ (Hybrid LM+DiT, │
│ AudioLDM │ │ Udio v1 │ │ + Linear DiT)│ │ DMD2, 4GB 미만) │
│ Riffusion│ │ JEN-1 │ │ DiffRhythm │ │ Suno v5 │
└──────────┘ └──────────────┘ └───────────────┘ └──────────────────┘
핵심 전환: 상업화 시작: 오픈소스 도약: 로컬 배포 시대:
- Autoregressive - Text-to-Song - Diffusion + DCAE - 4-8 step 생성
- Spectrogram - Vocal + BGM - Flow Matching - LoRA 개인화
기반 생성 - 다국어 가사 - REPA 학습 - 50+ 언어 지원
이 글에서는 ACE-Step의 아키텍처를 논문 기반으로 심층 분석하고, v1에서 v1.5로의 진화 과정, 경쟁 모델 비교, 핵심 기반 기술, 그리고 실전 활용법까지 포괄적으로 다룬다.
2. ACE-Step v1: 아키텍처 심층 분석
ACE-Step v1(arXiv:2506.00045)은 기존 음악 생성 모델의 근본적 한계를 극복하기 위해 설계되었다. LLM 기반 모델은 가사 정렬에 뛰어나지만 추론 속도가 느리고 구조적 아티팩트가 발생하며, Diffusion 모델은 빠른 합성이 가능하지만 장거리 구조적 일관성이 부족하다. ACE-Step은 이 두 접근법의 장점을 통합하는 Diffusion + DCAE + Linear Transformer 아키텍처를 채택했다.
2.1 전체 아키텍처 개요
ACE-Step v1의 핵심 구성 요소는 다음과 같다:
[ACE-Step v1 아키텍처]
┌─────────────────────────────────────────────┐
│ Conditioning Encoders │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────────┐│
│ │ Text │ │ Lyric │ │ Speaker ││
│ │ Encoder │ │ Encoder │ │ Encoder ││
│ │(mT5-base)│ │(SongGen) │ │(PLR-OSNet) ││
│ │ frozen │ │trainable │ │ pre-trained ││
│ │ dim=768 │ │ │ │ dim=512 ││
│ └────┬─────┘ └────┬─────┘ └──────┬───────┘│
└───────┼────────────┼───────────────┼────────┘
│ │ │
└──────┬─────┘ │
│ cross-attention │
v v
┌───────────┐ ┌──────────────────────────────────────────────┐
│ │ │ Linear Diffusion Transformer (DiT) │
│ DCAE │ │ │
│ Encoder │───>│ ┌─────────────────────────────────────┐ │
│ (f8c8) │ │ │ 24 Transformer Blocks │ │
│ │ │ │ - AdaLN-single (shared params) │ │
│ mel-spec │ │ │ - Linear Attention │ │
│ → latent │ │ │ - 1D Conv FeedForward │ │
│ ~10.77Hz │ │ │ - Cross-Attention (text+lyric) │ │
│ │ │ │ - REPA at layer 8 │ │
└───────────┘ │ └─────────────────────────────────────┘ │
│ │
└──────────────────┬───────────────────────────┘
│
v
┌──────────────────────────────────────────────┐
│ DCAE Decoder │
│ latent → mel-spectrogram → waveform │
│ (Fish Audio Vocoder, 32kHz mono) │
└──────────────────────────────────────────────┘
2.2 Deep Compression AutoEncoder (DCAE)
ACE-Step의 첫 번째 핵심 혁신은 Sana(NVIDIA/MIT-HAN Lab)에서 제안된 **Deep Compression AutoEncoder(DCAE)**를 음악 도메인에 적용한 것이다. DCAE는 원래 고해상도 이미지 생성을 위해 설계되었으며, 32x~128x의 극도로 높은 공간 압축률을 달성하는 AutoEncoder 아키텍처다.
ACE-Step에서는 mel-spectrogram을 입력으로 받아 **8배 압축(f8c8, channel=8)**을 적용한다:
[DCAE 압축 과정]
Input: mel-spectrogram (44.1kHz/32kHz 오디오 → mel 변환)
│
▼
┌─────────────────────────────────────────┐
│ DCAE Encoder │
│ - Residual Autoencoding │
│ - Space-to-Channel Transform │
│ - 8x temporal compression │
│ │
│ Output: latent space (~10.77Hz) │
│ 4분 음악 → ~2,584 latent tokens │
└─────────────────────────────────────────┘
│
▼ (DiT에서 생성/변환)
│
▼
┌─────────────────────────────────────────┐
│ DCAE Decoder + Vocoder │
│ - latent → mel-spectrogram 복원 │
│ - Fish Audio Universal Music Vocoder │
│ - 출력: 32kHz mono waveform │
└─────────────────────────────────────────┘
DCAE 학습 세부사항:
| 항목 | 상세 |
|---|---|
| 압축 설정 | f8c8 (8x compression, channel=8) |
| Temporal 해상도 | ~10.77Hz in latent space |
| 학습 하드웨어 | 120 NVIDIA A100 GPU |
| 학습 스텝 | 140,000 steps |
| 글로벌 배치 사이즈 | 480 (GPU당 4) |
| 학습 기간 | ~5일 |
| Discriminator | Patch-based, StyleGAN Disc2DRes, SwinDisc2D |
| 학습 전략 | Phase 1: MSE only / Phase 2: frozen encoder + MSE + adversarial |
| Vocoder | Fish Audio universal music vocoder (32kHz mono) |
| 재구성 FAD | 0.0224 |
논문에서는 32배 압축(f32)도 실험했으나 허용 불가능한 품질 저하가 발생하여 8배 압축을 최종 채택했다. 이는 음악 오디오가 이미지보다 시간적 디테일에 훨씬 민감하기 때문이다.
2.3 Conditioning Encoders: 다중 조건 인코딩
ACE-Step은 세 가지 전문 인코더를 통해 다양한 조건 정보를 모델에 주입한다:
2.3.1 Text Encoder (스타일/장르 프롬프트)
# Text Encoder: Google mT5-base (frozen)
# - 출력 차원: 768
# - 최대 시퀀스 길이: 256 tokens
# - 다국어 지원 (100+ 언어)
# - 학습 중 동결(frozen) 상태 유지
# 프롬프트 예시:
prompt = "upbeat K-pop dance track with synth bass, 128 BPM, female vocal, major key"
mT5-base를 선택한 이유는 다국어 지원이 필수적이기 때문이다. 영어뿐 아니라 한국어, 일본어, 중국어 등 다양한 언어로 스타일 프롬프트를 입력할 수 있다.
2.3.2 Lyric Encoder (가사 인코딩)
[Lyric Encoder 처리 파이프라인]
원본 가사 입력 (한국어, 영어, 일본어 등)
│
▼
비로마자 스크립트 → Grapheme-to-Phoneme 변환 → 음소 표현
│
▼
XTTS VoiceBPE Tokenizer (다국어 지원)
│
▼
SongGen 아키텍처 기반 Lyric Encoder (학습 가능)
│
▼
최대 4,096 tokens의 가사 임베딩
Lyric Encoder는 SongGen 아키텍처를 기반으로 하며, Text Encoder와 달리 학습 중 파라미터가 업데이트된다. 이는 가사-음악 정렬(lyric alignment)이 음악 생성에서 가장 어려운 과제 중 하나이기 때문이다. 비로마자 스크립트(한글, 한자, 히라가나 등)는 Grapheme-to-Phoneme(G2P) 도구를 통해 음소 표현으로 변환된다.
2.3.3 Speaker Encoder (화자/음색 인코딩)
# Speaker Encoder 구성
# - 입력: 10초 분량의 반주 제거된 보컬 세그먼트 (demucs로 분리)
# - 아키텍처: PLR-OSNet (원래 얼굴 인식용, 보컬 인식에 적용)
# - 출력 차원: 512
# - 학습 dropout: 50% (음색 과의존 방지)
# - 전체 곡: 여러 세그먼트의 임베딩 평균화
# Voice cloning 시나리오:
# 1. 레퍼런스 보컬 10초 세그먼트 입력
# 2. demucs로 반주 분리
# 3. Speaker Encoder로 512-dim 임베딩 추출
# 4. 생성 시 임베딩을 DiT에 조건으로 주입
Speaker Encoder의 50% dropout은 의도적인 설계 결정이다. 학습 중 절반의 확률로 화자 정보를 제거함으로써, 모델이 음색에 과도하게 의존하지 않고 음악적 구조와 멜로디에도 충분히 집중하도록 유도한다.
2.4 Linear Diffusion Transformer (DiT) 백본
ACE-Step의 생성 모델 핵심인 Linear Diffusion Transformer는 24개 블록으로 구성되며, 표준 attention 대신 linear attention을 사용하여 긴 시퀀스에서도 효율적으로 동작한다.
[DiT Block 구조 (x24)]
Input: noisy latent z_t + time embedding t
│
▼
┌─────────────────────────────────┐
│ AdaLN-single │
│ (Simplified Adaptive LayerNorm)│
│ - 모든 블록에서 파라미터 공유 │
│ - time step t로 조건화 │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Linear Self-Attention │
│ - O(n) 복잡도 (표준 O(n²) 대비)│
│ - RoPE Position Encoding │
│ - 최대 2,584 mel latent tokens │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Cross-Attention │
│ - Text Encoder 출력 (768-dim) │
│ - Lyric Encoder 출력 │
│ - Speaker Encoder 출력 (512-d) │
│ → Concatenate & Attend │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 1D Convolutional FeedForward │
│ - 2D Conv에서 1D로 적응 │
│ - 시간축 오디오 시퀀스에 최적화 │
└────────────┬────────────────────┘
│
▼
Output: denoised prediction
(Layer 8에서 REPA semantic alignment 추출)
주요 아키텍처 결정:
AdaLN-single: 모든 24개 블록에서 Adaptive Layer Normalization 파라미터를 공유하여 파라미터 효율성을 극대화한다. 이는 Sana에서 도입된 기법으로, 모델 크기 대비 성능 효율이 뛰어나다.
Linear Attention: 음악은 최대 4분까지의 긴 시퀀스를 다뤄야 하므로, O(n^2) 복잡도의 standard attention 대신 O(n) 복잡도의 linear attention을 채택했다. 이를 통해 2,584 tokens까지의 시퀀스를 효율적으로 처리한다.
RoPE(Rotary Position Embedding): 상대적 위치 인코딩으로 다양한 길이의 음악에 대해 강건한 위치 정보를 제공한다.
1D Convolutional FeedForward: 원래 이미지용 2D Conv를 시간축 오디오 시퀀스에 맞게 1D로 적응시켰다. 이는 오디오의 시간적 연속성을 더 잘 포착한다.
2.5 Flow Matching 생성 프로세스
ACE-Step은 score-based diffusion 대신 Flow Matching을 채택했다. Flow Matching은 가우시안 노이즈에서 데이터 분포까지의 직선 경로(linear probability path)를 학습하여 더 빠른 수렴과 안정적인 학습을 가능하게 한다.
[Flow Matching 학습 과정]
시간 t ~ U[0, 1]
│
▼
노이즈 z ~ N(0, I) 데이터 x₀ (DCAE latent)
│ │
└──────── 선형 보간 ─────────┘
z_t = (1-t)·z + t·x₀
│
▼
┌──────────────────┐
│ DiT(z_t, t, c) │ ← conditioning c (text, lyric, speaker)
│ │
│ 예측 목표: │
│ v = x₀ - z │
│ (음의 상수 속도장)│
└────────┬─────────┘
│
▼
L_FM = MSE(v_predicted, v_target)
추론 시:
z_0 ~ N(0, I) → ODE 풀기 → z_1 ≈ x₀ → DCAE Decoder → waveform
손실 함수:
L_Total = L_FM + λ_SSL × L_SSL
여기서:
- L_FM: Flow Matching 손실 (MSE)
- L_SSL: REPA Semantic Alignment 손실
- λ_SSL = 1.0 (학습 대부분)
→ mHuBERT 컴포넌트만 0.01로 감소 (마지막 100K 스텝)
3. REPA: 의미적 표현 정렬 학습
ACE-Step의 두 번째 핵심 혁신은 REPA(Representation Alignment) 기법이다. 사전 학습된 Self-Supervised Learning(SSL) 모델의 의미적 표현을 DiT 학습에 직접 활용하여, 빠른 수렴과 높은 의미적 충실도를 달성한다.
3.1 MERT와 mHuBERT의 역할
[REPA 학습 구조]
┌───────────────────────┐
│ DiT Layer 8 출력 │
│ (intermediate repr.) │
└───────────┬───────────┘
│
┌─────────────────┼─────────────────┐
│ │ │
▼ │ ▼
┌──────────────────┐ │ ┌──────────────────┐
│ MERT (frozen) │ │ │ mHuBERT (frozen) │
│ │ │ │ │
│ - 음악 표현 학습 │ │ │ - 다국어 음성 표현 │
│ - 1024×T_M dim │ │ │ - 768×T_H dim │
│ - 75Hz frame │ │ │ - 50Hz frame │
│ - 스타일/멜로디 │ │ │ - 가사/발음 정렬 │
│ 정확도 향상 │ │ │ 정확도 향상 │
└────────┬─────────┘ │ └────────┬─────────┘
│ │ │
▼ ▼ ▼
┌──────────────────────────────────────────────┐
│ L_SSL = avg(1 - cosine_sim(DiT_repr, SSL)) │
│ │
│ = 0.5 × L_MERT + 0.5 × L_mHuBERT │
└──────────────────────────────────────────────┘
| SSL 모델 | 역할 | 차원 | Frame Rate | 기여 |
|---|---|---|---|---|
| MERT | 음악 이해 | 1024 x T_M | 75Hz | 스타일 정확도, 멜로디 일관성 |
| mHuBERT-147 | 다국어 음성 이해 | 768 x T_H | 50Hz | 가사 정렬, 발음 자연스러움 |
**MERT(Music Representation Transformer)**는 대규모 자기지도 학습으로 사전 훈련된 음악 이해 모델로, 음악의 스타일, 멜로디, 하모니 등의 고수준 의미를 포착한다. mHuBERT-147은 147개 언어를 지원하는 다국어 음성 표현 모델로, 가사와 발음의 의미적 정렬을 담당한다.
이 두 모델의 표현을 DiT의 8번째 레이어 출력과 정렬시킴으로써, ACE-Step은 음악적 의미(MERT)와 언어적 의미(mHuBERT)를 동시에 학습한다. 이는 가사가 포함된 음악 생성에서 특히 중요한데, 멜로디와 가사의 동기화(alignment)가 음악의 자연스러움을 결정하기 때문이다.
3.2 Conditional Dropout 전략
학습 중 조건 정보에 대한 dropout을 적용하여 모델의 강건성을 높인다:
| 조건 | Dropout 비율 | 목적 |
|---|---|---|
| Text 프롬프트 | 15% | Classifier-Free Guidance(CFG) 지원 |
| Lyric (가사) | 15% | 가사 없는 인스트루멘탈 생성 지원 |
| Speaker (화자) | 50% | 음색 과의존 방지, 음악 구조에 집중 |
4. ACE-Step v1 학습 상세
4.1 학습 데이터
ACE-Step v1은 대규모 음악 데이터셋에서 학습되었다:
| 항목 | 상세 |
|---|---|
| 총 데이터 | 1.8M 고유 악곡 (~100,000시간) |
| 언어 | 19개 언어 (영어 다수) |
| 품질 필터링 | Audiobox aesthetics toolkit |
| 제외 항목 | 저품질 녹음, 라이브 공연 |
자동 어노테이션 파이프라인:
[데이터 어노테이션 파이프라인]
원본 오디오 파일
│
├──> Qwen-omini 모델 → 스타일/장르 캡션 생성
│
├──> Whisper 3.0 → 가사 전사(transcription)
│ └──> LSH 기반 IPA-to-database 매핑으로 가사 정제
│
├──> "All-in-one" 음악 이해 모델 → 곡 구조(intro, verse, chorus 등)
│
├──> BeatThis → BPM 추출
│
├──> Essentia → Key/Scale, 스타일 태그 추출
│
└──> Demucs → 보컬/반주 분리 (Speaker Encoder 학습용)
4.2 학습 구성
학습은 Pre-training + Fine-tuning 2단계로 진행된다:
| 단계 | 데이터 | 스텝 수 | 특이사항 |
|---|---|---|---|
| Pre-training | 전체 100K 시간 | 460,000 | 전체 데이터셋으로 기초 학습 |
| Fine-tuning | 고품질 20K 시간 | 240,000 | 큐레이션된 고품질 서브셋 |
하이퍼파라미터:
# 학습 환경
Hardware: 15 노드 × 8 NVIDIA A100 (총 120 GPU)
Global Batch Size: 120 (GPU당 1)
학습 기간: ~264시간 (약 11일)
# 옵티마이저
Optimizer: AdamW
Weight Decay: 1e-2
Betas: (0.8, 0.9)
Learning Rate: 1e-4
LR Schedule: Linear warm-up (4,000 steps)
Gradient Clipping: max norm 0.5
# REPA 가중치
λ_SSL: 1.0 (전체 학습)
mHuBERT λ: 0.01 (마지막 100K 스텝에서 감소)
5. ACE-Step v1.5: Hybrid LM + DiT 진화
2026년 1월 공개된 ACE-Step v1.5(arXiv:2602.00744)는 v1의 아키텍처를 근본적으로 재설계했다. Language Model을 구조적 플래너로 도입하고, Distribution Matching Distillation으로 추론 스텝을 극적으로 줄이는 등 여러 혁신을 담고 있다.
5.1 Hybrid LM + DiT 아키텍처
[ACE-Step v1.5 아키텍처]
사용자 입력 (텍스트 프롬프트 + 가사)
│
▼
┌──────────────────────────────────────────────────────────┐
│ Composer Agent (Language Model, Qwen 기반 ~1.7B) │
│ │
│ Chain-of-Thought 추론: │
│ 1. 메타데이터 생성 (BPM, Key, Duration, Structure) │
│ 2. 가사 정제 및 구조화 │
│ 3. 캡션/스타일 지시문 생성 │
│ 4. YAML 형식의 Song Blueprint 출력 │
│ │
│ ┌────────────────────────────────────────┐ │
│ │ bpm: 128 │ │
│ │ key: "C major" │ │
│ │ duration: 210 │ │
│ │ structure: │ │
│ │ - intro: 0-15s │ │
│ │ - verse1: 15-45s │ │
│ │ - chorus1: 45-75s │ │
│ │ - verse2: 75-105s ... │ │
│ │ style: "energetic K-pop with synth" │ │
│ └────────────────────────────────────────┘ │
└─────────────────────┬────────────────────────────────────┘
│ Song Blueprint
▼
┌──────────────────────────────────────────────────────────┐
│ 1D VAE (Self-Learning Tokenizer) │
│ - 48kHz 스테레오 오디오 처리 │
│ - 64차원 latent space @ 25Hz │
│ - 1920x 압축률 │
│ - FSQ: 25Hz → 5Hz discrete codes (~64K codebook) │
│ - "Source Latent" 생성 (LM-DiT bridging) │
└─────────────────────┬────────────────────────────────────┘
│
▼
┌──────────────────────────────────────────────────────────┐
│ Diffusion Transformer (DiT, ~2B parameters) │
│ - Source Latent + Blueprint 조건으로 acoustic rendering │
│ - DMD2 distillation: 50 steps → 4-8 steps │
│ - 200x speedup (240초 트랙을 ~1초에 생성, A100 기준) │
└──────────────────────────────────────────────────────────┘
v1.5의 가장 큰 변화는 구조적 계획(structural planning)과 음향 렌더링(acoustic rendering)의 분리다. Language Model이 음악의 전체 청사진을 먼저 설계하고, DiT는 이 청사진에 따라 실제 오디오를 생성하는 역할만 수행한다. 이를 통해 10분 이상의 장편 곡까지 일관된 구조를 유지할 수 있게 되었다.
5.2 Self-Learning Tokenizer
v1.5는 v1의 mel-spectrogram 기반 DCAE 대신 1D VAE를 사용하여 48kHz 스테레오 오디오를 직접 처리한다:
[v1 vs v1.5 오디오 처리 비교]
ACE-Step v1:
오디오 → mel-spectrogram → DCAE Encoder → latent (10.77Hz)
latent → DCAE Decoder → mel → Fish Audio Vocoder → 32kHz mono
ACE-Step v1.5:
오디오(48kHz stereo) → 1D VAE Encoder → latent (25Hz, 64-dim)
latent → FSQ → 5Hz discrete codes ("Source Latent")
DiT → latent → 1D VAE Decoder → 48kHz stereo
개선점:
- 32kHz mono → 48kHz stereo (음질 향상)
- mel-spectrogram 중간 단계 제거 (정보 손실 감소)
- 1920x 압축률로 near-lossless 품질 유지
1D VAE의 **Finite Scalar Quantization(FSQ)**은 연속적인 25Hz latent를 5Hz discrete code로 양자화한다. 이 discrete code가 Source Latent로서 Language Model과 DiT 사이의 다리 역할을 한다. Codebook 크기는 약 64K이며, 이 tokenizer는 DiT 학습과 함께 동시에 학습되는 self-learning 방식이다.
5.3 Distribution Matching Distillation (DMD2)
v1.5의 극적인 속도 향상의 핵심은 **DMD2(Distribution Matching Distillation)**다:
[DMD2 Distillation 과정]
Teacher Model (50-step DiT)
│
▼ Knowledge Distillation
Student Model (4-8 step DiT)
│
├── Dynamic-shift Strategy: {1, 2, 3} 스텝 샘플링
│ → 다양한 denoising 상태 노출로 과적합 방지
│
├── Distribution Matching Loss
│ → Teacher의 분포와 Student의 분포 정렬
│
└── 결과: 200x 속도 향상
- 50 steps → 4-8 steps
- A100에서 240초 음악을 ~1초에 생성
- RTF(Real-Time Factor) 극적 개선
5.4 Intrinsic Reinforcement Learning
v1.5는 생성 품질을 더욱 향상시키기 위해 **강화학습 기반 정렬(alignment)**을 도입했다:
[RL 기반 정렬 구조]
DiT 정렬:
├── DiffusionNTF 프레임워크
├── Attention Alignment Score (AAS)
│ → Cross-attention map의 합의도(consensus) 측정
└── 음향 품질과 텍스트 조건 준수 향상
LM 정렬:
├── Pointwise Mutual Information (PMI)
│ → 의미적 준수도(semantic adherence) 측정
└── Song Blueprint의 정확도 향상
최종 보상 가중치:
- 분위기(Atmosphere): 50%
- 가사(Lyrics): 30%
- 메타데이터(Metadata): 20%
5.5 데이터 및 학습 인프라
v1.5는 v1보다 훨씬 대규모의 데이터와 정교한 학습 전략을 사용한다:
RL-Driven Annotation 파이프라인:
[v1.5 데이터 어노테이션]
1. "Golden Set" 구축 (5M 샘플)
└── Gemini 2.5 Pro로 초기 어노테이션
2. Fine-tuning
└── Golden Set으로 Qwen2.5-Omni 파인튜닝
└── GRPO 최적화 → ACE-Captioner, ACE-Transcriber 생성
3. Reward Models 학습
└── 4M contrastive pairs로 학습
4. Progressive Curriculum (3단계)
├── Phase 1: Foundation Pre-training (20M 샘플)
├── Phase 2: Omni-task Fine-tuning (17M, stem-separated tracks 포함)
└── Phase 3: High-quality SFT (2M 큐레이션 샘플)
총 27M 샘플에 걸친 3단계 점진적 커리큘럼 학습은 모델이 기본적인 음악 생성 능력에서 시작하여 점차 전문적인 태스크를 학습하도록 설계되었다.
5.6 Omni-Task 프레임워크
v1.5의 또 다른 핵심 혁신은 단일 모델로 다양한 음악 작업을 처리하는 Omni-Task 프레임워크다:
| 태스크 | 설명 | 활용 시나리오 |
|---|---|---|
| Text-to-Music | 텍스트 프롬프트로 전체 곡 생성 | 작곡, 배경음악 |
| Cover Generation | 기존 곡의 스타일/음색 변환 | 커버곡 제작 |
| Repainting | 특정 구간 재생성/수정 | 부분 리미스 |
| Track Extraction | 보컬/반주 트랙 분리 | 믹싱, 리마스터링 |
| Layering | 다중 트랙 합성 | 편곡, 프로듀싱 |
| Completion | 미완성 곡 이어 작곡 | 공동 작곡 |
| Vocal-to-BGM | 보컬에서 반주 생성 | 카라오케 제작 |
이 모든 태스크는 Source Latent와 Mask 설정의 조합으로 구현되며, 별도의 모델 학습 없이 단일 모델에서 처리된다.
6. 성능 평가 및 벤치마크
6.1 추론 속도 비교
ACE-Step의 가장 극적인 장점은 추론 속도다:
| 모델 | RTF (RTX 4090) | 4분 곡 생성 시간 | 비고 |
|---|---|---|---|
| ACE-Step v1 | 15.63x | ~20초 (A100) | 실시간의 15.63배 |
| ACE-Step v1.5 | - | 2초 미만 (A100) | DMD2 distillation |
| DiffRhythm | 10.03x | ~30초 | |
| Yue (LLM 기반) | 0.083x | ~48분 | 실시간보다 느림 |
ACE-Step v1은 LLM 기반 모델인 Yue 대비 약 188배 빠르며, v1.5는 distillation을 통해 v1 대비 추가로 10배 이상 빨라졌다.
v1.5 하드웨어별 성능:
| 하드웨어 | 전체 곡 생성 시간 | VRAM 요구량 |
|---|---|---|
| NVIDIA A100 | 2초 미만 | - |
| RTX 3090 | 10초 미만 | 4GB 미만 |
| RTX 4090 | 5초 미만 (추정) | 4GB 미만 |
| AMD Radeon | 지원 (AMD 공식 협력) | 4GB 미만 |
| Apple Silicon (Mac) | 지원 | 4GB 미만 |
6.2 음악 품질 평가
ACE-Step은 다양한 자동 평가 메트릭과 인간 평가에서 경쟁력 있는 결과를 달성했다:
자동 평가 (v1):
| 메트릭 | ACE-Step v1 | 비교 모델(최고) | 설명 |
|---|---|---|---|
| DCAE FAD | 0.0224 | DiffRhythm VAE: 0.0059 | 파형 재구성 품질 |
| Style Alignment | 상위권 | Udio v1 (최고) | CLAP + Mulan 기반 |
| Lyric Alignment | 강함 | Hailuo (최고) | Whisper Forced Alignment |
| SongEval Coherence | 경쟁적 | Suno v3 (최고) | 음악적 일관성 |
| SongEval Memorability | 강함 | - | 기억에 남는 멜로디 |
자동 평가 (v1.5):
| 메트릭 | ACE-Step v1.5 | Suno v5 | MinMax 2.0 |
|---|---|---|---|
| AudioBox CU | 8.09 (최고) | - | - |
| AudioBox PQ | 8.35 (최고) | - | - |
| SongEval Coherence | 4.72 (공동 최고) | - | - |
| Style Alignment | 39.1 | 46.8 | 43.1 |
| Lyric Alignment | 26.3 | 34.2 | 29.5 |
v1.5는 AudioBox CU(8.09)와 PQ(8.35)에서 최고 점수를, SongEval Coherence(4.72)에서 공동 최고를 달성했다. Style/Lyric Alignment에서는 Suno v5에 미치지 못하지만, 오픈소스 모델 중에서는 압도적이며, Music Arena 인간 평가에서는 Suno v4.5와 v5 사이에 위치한다.
인간 평가 (v1, 32명 참여자):
| 평가 항목 | 점수 (/100) |
|---|---|
| Emotional Expression | ~85 |
| Innovativeness | ~82 |
| Sound Quality | ~80 |
| Musicality | ~78 |
7. AI 음악 생성 모델 비교 분석
7.1 주요 모델 개요
현재 AI 음악 생성 분야의 주요 모델들을 체계적으로 비교한다:
[AI 음악 생성 모델 분류]
┌─────────────────────────────────────────────────────────────────┐
│ 오픈소스 모델 │
├──────────────┬──────────────┬──────────────┬───────────────────┤
│ ACE-Step │ MusicGen │ Stable Audio│ Riffusion │
│ (v1, v1.5) │ (Meta) │ Open │ │
│ │ │ (Stability) │ │
│ Diffusion │ Autoregress │ Latent │ Image Diffusion │
│ + DCAE/VAE │ + EnCodec │ Diffusion │ → Spectrogram │
│ 3.5B params │ 1.5B/3.3B │ 1.1B │ ~1B │
├──────────────┴──────────────┴──────────────┴───────────────────┤
│ 상업 모델 │
├──────────────┬──────────────┬──────────────┬───────────────────┤
│ Suno │ Udio │ ElevenLabs │ Google MusicLM │
│ (v3→v5) │ (v1→v2) │ Eleven Music│ │
│ │ │ │ │
│ Full song │ Segment-by │ Licensed │ Experimental/ │
│ generation │ -segment │ commercial │ Instrumental │
│ pipeline │ composition │ use OK │ focus │
└──────────────┴──────────────┴──────────────┴───────────────────┘
7.2 상세 비교표
| 모델 | 개발사 | 파라미터 | 생성 방식 | 오디오 표현 | 최대 길이 | 가사 지원 | 오픈소스 |
|---|---|---|---|---|---|---|---|
| ACE-Step v1 | ACE Studio + StepFun | 3.5B | Flow Matching + DiT | Mel DCAE latent | 4분 | O (다국어) | O |
| ACE-Step v1.5 | ACE Studio + StepFun | ~3.7B (LM+DiT) | Hybrid LM + DiT + DMD2 | 1D VAE latent | 10분+ | O (50+언어) | O |
| MusicGen | Meta | 1.5B/3.3B | Autoregressive | EnCodec tokens | ~30초 | X | O |
| Stable Audio Open | Stability AI | 1.1B | Latent Diffusion | VAE latent | 47초 | X | O |
| Riffusion | Riffusion | ~1B | Image Diffusion | Spectrogram | 수 초 | X | O |
| JEN-1 | Jen Music | - | AR + Non-AR hybrid | Raw waveform | ~30초 | X | X (부분) |
| Suno | Suno Inc. | 비공개 | 비공개 | 비공개 | 4분+ | O | X |
| Udio | Udio | 비공개 | 비공개 | 비공개 | 세그먼트 기반 | O | X |
| MusicLM | 비공개 | AR + SoundStream | SoundStream tokens | ~30초 | X | X |
7.3 MusicGen (Meta)
Meta의 MusicGen은 오픈소스 음악 생성 모델의 선구자다. EnCodec 토크나이저를 기반으로 한 autoregressive transformer 모델이다.
[MusicGen 아키텍처]
텍스트 프롬프트 → T5 Encoder → Conditioning
│
▼
┌──────────────────────────┐
│ Autoregressive Decoder │
│ (Transformer LM) │
│ │
│ EnCodec 4 codebooks │
│ 32kHz, 50Hz sampling │
│ │
│ Delay pattern으로 │
│ 다중 codebook 동시 생성 │
└──────────┬───────────────┘
│
▼
┌──────────────────────────┐
│ EnCodec Decoder │
│ tokens → waveform │
└──────────────────────────┘
장점: 안정적인 인스트루멘탈 생성, 멜로디 컨디셔닝 지원 한계: 가사 지원 없음, ~30초 제한, 상대적으로 느린 autoregressive 생성
7.4 Suno vs ACE-Step
Suno는 현재 상업적으로 가장 성공적인 AI 음악 생성 플랫폼이다:
| 비교 항목 | ACE-Step v1.5 | Suno v5 |
|---|---|---|
| 접근성 | 로컬 설치 (오픈소스) | 클라우드 서비스 |
| VRAM 요구 | 4GB 미만 | N/A (서버) |
| 곡 구조 | LM 기반 Blueprint | 엔드투엔드 |
| 커스터마이징 | LoRA 학습 가능 | 프롬프트만 |
| Style Alignment | 39.1 | 46.8 |
| Lyric Alignment | 26.3 | 34.2 |
| 가격 | 무료 (로컬) | 구독제 |
| 상업적 사용 | 라이선스 확인 필요 | 유료 플랜 |
Suno v5가 절대적 품질에서는 여전히 앞서지만, ACE-Step v1.5는 로컬 배포, 커스터마이징, 비용 효율 측면에서 강력한 대안이다.
7.5 Stable Audio Open
Stability AI의 Stable Audio Open은 latent diffusion 기반의 오픈소스 모델이다:
| 비교 항목 | ACE-Step v1.5 | Stable Audio Open |
|---|---|---|
| 최대 길이 | 10분+ | 47초 |
| 가사 지원 | O (50+언어) | X |
| 보컬 생성 | O (Voice Cloning 포함) | X (인스트루멘탈만) |
| 파라미터 | ~3.7B | 1.1B |
| 오디오 품질 | 48kHz stereo | 44.1kHz stereo |
ACE-Step이 길이, 가사, 보컬 등 거의 모든 면에서 우위를 보인다.
8. 음악 생성의 핵심 기반 기술
AI 음악 생성을 이해하기 위해 필수적인 기반 기술들을 심층 분석한다.
8.1 Audio Tokenization: 오디오를 이산 토큰으로
음악 생성 모델의 첫 번째 과제는 연속적인 오디오 신호를 모델이 처리할 수 있는 형태로 변환하는 것이다. 크게 세 가지 접근법이 있다:
[오디오 표현 방식 비교]
1. Spectrogram 기반
┌────────────────────────────────────────────┐
│ waveform → STFT → mel-spectrogram → 이미지 │
│ │
│ 장점: 시각화 용이, 이미지 모델 활용 가능 │
│ 단점: Phase 정보 손실, vocoder 필요 │
│ 사용: Riffusion, ACE-Step v1 (DCAE 입력) │
└────────────────────────────────────────────┘
2. Neural Audio Codec (이산 토큰)
┌────────────────────────────────────────────┐
│ waveform → Encoder → RVQ → discrete tokens │
│ tokens → Decoder → waveform │
│ │
│ 장점: 엔드투엔드, 높은 압축률 │
│ 단점: 장거리 의존성 약함 (acoustic tokens) │
│ 사용: MusicGen (EnCodec), MusicLM (SStream) │
└────────────────────────────────────────────┘
3. Continuous Latent (VAE)
┌────────────────────────────────────────────┐
│ waveform → VAE Encoder → continuous latent │
│ latent → VAE Decoder → waveform │
│ │
│ 장점: Diffusion과 자연스럽게 결합 │
│ 단점: 압축률과 품질의 트레이드오프 │
│ 사용: ACE-Step v1.5 (1D VAE), Stable Audio │
└────────────────────────────────────────────┘
8.2 EnCodec과 SoundStream
EnCodec(Meta)과 SoundStream(Google)은 Neural Audio Codec의 대표 모델이다:
[EnCodec / SoundStream 아키텍처]
Input: raw waveform (24kHz/48kHz)
│
▼
┌─────────────────────────────────┐
│ Encoder (1D Conv + LSTM) │
│ → continuous embeddings │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Residual Vector Quantization │
│ (RVQ) │
│ │
│ Codebook 1 → 가장 중요한 정보 │
│ Codebook 2 → 잔차(residual) │
│ Codebook 3 → 더 세밀한 잔차 │
│ ... │
│ Codebook N → 최종 잔차 │
│ │
│ 각 codebook: 1024 entries │
│ sampling rate: 50Hz/75Hz │
└────────────┬────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Decoder (1D TransposeConv) │
│ → reconstructed waveform │
└─────────────────────────────────┘
학습: Reconstruction Loss + Adversarial Loss
(Multi-scale discriminator)
EnCodec vs SoundStream:
| 항목 | EnCodec | SoundStream |
|---|---|---|
| 개발사 | Meta | |
| 핵심 혁신 | Multi-scale discriminator, loss balancing | RVQ 도입 |
| 샘플 레이트 | 24kHz/48kHz | 24kHz |
| 비트레이트 | 1.5~24 kbps | 3~18 kbps |
| 활용 모델 | MusicGen, AudioGen | AudioLM, MusicLM |
| 오픈소스 | O | X |
8.3 Diffusion for Audio
Diffusion 모델의 오디오 적용은 이미지 도메인에서의 성공을 기반으로 한다:
[오디오 Diffusion 학습]
Forward Process (노이즈 추가):
x₀ (원본 오디오 latent)
→ x₁ → x₂ → ... → x_T (순수 가우시안 노이즈)
x_t = √(ᾱ_t) · x₀ + √(1-ᾱ_t) · ε, ε ~ N(0,I)
Reverse Process (노이즈 제거, 학습 대상):
x_T (노이즈) → x_{T-1} → ... → x₀ (생성된 오디오 latent)
p_θ(x_{t-1}|x_t) = N(x_{t-1}; μ_θ(x_t, t), σ²I)
Loss: L = E_{t,x₀,ε} [||ε - ε_θ(x_t, t, c)||²]
(c = conditioning: text, melody, etc.)
ACE-Step v1은 표준 Diffusion 대신 Flow Matching을 사용하는데, 이는 직선 경로를 사용하여 더 적은 스텝으로 수렴하고 학습이 안정적이라는 장점이 있다. v1.5는 여기에 DMD2 distillation을 추가하여 4~8 스텝만으로 고품질 생성을 달성한다.
8.4 Classifier-Free Guidance (CFG)
모든 조건부 생성 모델에서 핵심적인 기법인 CFG는 ACE-Step에서도 사용된다:
[CFG 적용]
ε_guided = ε_uncond + w × (ε_cond - ε_uncond)
여기서:
- ε_cond: 조건(text, lyric, speaker) 포함 예측
- ε_uncond: 조건 제거 예측 (dropout으로 학습)
- w: guidance scale (높을수록 조건 준수, 다양성 감소)
ACE-Step의 15% text/lyric dropout, 50% speaker dropout은
바로 이 CFG를 위한 unconditional 학습을 가능하게 한다.
9. 실전 활용 가이드
9.1 ACE-Step v1.5 로컬 설치
ACE-Step v1.5는 놀라울 정도로 간단한 설치 과정을 제공한다:
# 1. uv 패키지 매니저 설치
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 저장소 클론 및 의존성 설치
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync
# 3. Gradio UI 실행 (웹 인터페이스)
uv run acestep
# → http://localhost:7860 에서 접속
# 4. 또는 REST API 서버 실행
uv run acestep-api
# → http://localhost:8001 에서 API 사용
# 5. 환경 설정 (선택)
cp .env.example .env
# .env 파일에서 모델 경로, 포트, GPU 설정 등 커스터마이징
지원 하드웨어:
- NVIDIA GPU (CUDA): RTX 20xx 이상 권장
- AMD GPU (ROCm): AMD 공식 협력으로 최적화
- Intel GPU: 지원
- Apple Silicon (Mac): MPS 백엔드 지원
모델은 첫 실행 시 자동 다운로드되며, 4GB 미만의 VRAM으로 동작한다.
9.2 텍스트-투-뮤직 기본 사용법
# API를 통한 음악 생성 예시 (개념적 코드)
import requests
# 기본 텍스트-투-뮤직 생성
response = requests.post("http://localhost:8001/generate", json={
"prompt": "밝고 경쾌한 K-pop 댄스 트랙, 신스 베이스와 일렉트로닉 비트, "
"128 BPM, 여성 보컬, C 메이저",
"lyrics": """
[Verse 1]
오늘 밤 빛나는 별처럼
우리 함께 춤을 춰요
음악이 흐르는 이 순간
멈추지 않을 거예요
[Chorus]
라라라 빛나는 밤
라라라 함께하는 시간
이 순간이 영원하길
""",
"duration": 180, # 3분
"num_inference_steps": 8, # DMD2 distilled
"guidance_scale": 7.0,
"seed": 42
})
# 결과 오디오 저장
with open("output.wav", "wb") as f:
f.write(response.content)
9.3 프롬프트 작성 가이드
효과적인 프롬프트 작성은 생성 품질에 직접적인 영향을 미친다:
[효과적인 프롬프트 구조]
1. 장르/스타일 : "indie folk ballad", "aggressive metal", "lo-fi hip-hop"
2. 악기 구성 : "acoustic guitar, soft piano, light percussion"
3. 분위기/감정 : "melancholic", "uplifting", "dreamy"
4. 템포(BPM) : "slow tempo 70 BPM", "fast 140 BPM"
5. 조성 : "minor key", "E flat major"
6. 보컬 특성 : "female vocal, breathy", "male baritone, powerful"
7. 프로덕션 스타일 : "lo-fi with vinyl crackle", "clean studio production"
[좋은 프롬프트 예시]
"Dreamy shoegaze rock with layers of reverbed electric guitars,
ethereal female vocal, 90 BPM, D minor, lo-fi production
with tape saturation and subtle noise"
[가사 포맷]
- [Verse], [Chorus], [Bridge], [Intro], [Outro] 태그 사용
- 각 섹션을 명확히 구분
- 한 줄에 한 프레이즈
9.4 LoRA 개인화 학습
ACE-Step v1.5의 강력한 기능 중 하나는 소량의 곡으로 자신만의 스타일을 학습할 수 있는 LoRA 지원이다:
[LoRA 학습 과정]
1. 데이터 준비
├── 최소 3-5곡의 레퍼런스 음악
├── 각 곡의 텍스트 프롬프트(캡션)
└── (선택) 가사 파일
2. Gradio UI에서 LoRA Training 탭 접근
├── 오디오 파일 업로드
├── 캡션 입력
├── 학습 파라미터 설정
│ ├── Learning Rate: ~1e-4
│ ├── Epochs: 50-200
│ └── LoRA Rank: 8-64
└── 학습 시작
3. 학습된 LoRA 적용
├── 생성 시 LoRA 가중치 로드
├── LoRA Scale 조절 (0.0~1.0)
└── 기존 프롬프트와 결합하여 스타일 적용
이를 통해 특정 아티스트의 프로덕션 스타일, 특정 장르의 뉘앙스, 또는 자신만의 작곡 스타일을 모델에 반영할 수 있다.
9.5 ComfyUI 통합
ACE-Step 1.5는 ComfyUI와의 통합도 지원하여, 노드 기반 워크플로우에서 음악 생성을 시각적으로 구성할 수 있다:
[ComfyUI ACE-Step 워크플로우 예시]
┌──────────┐ ┌──────────────┐ ┌──────────────┐
│ Text │────>│ ACE-Step │────>│ Audio │
│ Prompt │ │ Generator │ │ Preview │
└──────────┘ │ │ └──────────────┘
│ │
┌──────────┐ │ │ ┌──────────────┐
│ Lyrics │────>│ │────>│ Save WAV │
│ Input │ │ │ │ Node │
└──────────┘ └──────────────┘ └──────────────┘
10. 윤리적 고려사항과 법적 문제
10.1 저작권 현황 (2025~2026)
AI 음악 생성의 저작권 문제는 현재 가장 뜨거운 법적 이슈 중 하나다:
주요 판결 및 동향:
| 시기 | 사건 | 영향 |
|---|---|---|
| 2025년 1월 | US Copyright Office: 100% AI 생성 콘텐츠 저작권 불인정 | Public domain 판정 |
| 2025년 3월 | US 항소법원: AI 생성 작품 저작권 보호 거부 확정 | 법적 선례 확립 |
| 2025년 9월 | Warner Music + Suno 합의 | Suno, 라이선스 기반 모델로 전환 합의 |
| 2025년 11월 | UMG + Udio 합의 | 유사한 라이선스 전환 합의 |
| 2025년 8월 | ElevenLabs Eleven Music 출시 | 최초 합법적 상업 라이선스 AI 음악 |
| 2026년 1월 | UMG vs Anthropic ($3B) | 20,000+곡 학습 데이터 저작권 소송 |
10.2 "의미 있는 인간 저작성(Meaningful Human Authorship)" 원칙
US Copyright Office는 AI 보조 작품에 대해 **"의미 있는 인간 저작성"**이 있는 경우 저작권을 인정할 수 있다는 가이드라인을 발표했다:
[AI 음악의 저작권 인정 가능성 스펙트럼]
완전 AI 생성 완전 인간 창작
←──────────────────────────────────────→
│ │ │
저작권 불인정 판단 필요 영역 저작권 인정
│
인간이 능동적으로:
- 멜로디 수정
- 가사 작성
- 구조 편곡
- AI 출력 선별/편집
→ "의미 있는 인간 저작성"
→ 저작권 인정 가능
10.3 오픈소스 모델의 윤리적 고려
ACE-Step 같은 오픈소스 모델은 추가적인 윤리적 고려가 필요하다:
학습 데이터 출처: ACE-Step의 학습 데이터 1.8M곡(v1) / 27M 샘플(v1.5)의 저작권 상태는 논문에서 명확히 공개되지 않았다. 사용자는 생성된 음악의 상업적 활용 시 법적 리스크를 인지해야 한다.
Voice Cloning 남용: Speaker Encoder를 통한 보이스 클로닝 기능은 특정 아티스트의 음성을 무단으로 복제하는 데 악용될 수 있다. 레퍼런스 보컬의 권리자 동의 없는 클로닝은 윤리적, 법적으로 문제가 된다.
딥페이크 음악: AI가 특정 아티스트의 "새 곡"을 생성하는 딥페이크 음악은 이미 사회적 문제로 대두되고 있다. ACE-Step의 Cover Generation 기능도 이러한 맥락에서 책임 있는 사용이 요구된다.
음악 산업 영향: AI 음악 생성 기술의 대중화는 직업 음악가, 작곡가, 프로듀서의 생계에 직접적 영향을 미칠 수 있다. 기술 발전과 창작자 보호의 균형이 필요하다.
10.4 책임 있는 사용을 위한 가이드라인
[AI 음악 생성 책임 있는 사용 원칙]
1. 투명성: AI가 생성/보조한 음악임을 명시
2. 동의: Voice Cloning 시 원 아티스트 동의 확보
3. 귀속: AI 도구와 인간 기여를 명확히 구분
4. 상업적 사용: 관련 법규와 라이선스 조건 준수
5. 교육: AI 도구를 음악 교육/학습의 보조 도구로 활용
6. 공정 사용: 기존 음악의 스타일 모방과 복제의 구분
11. 주요 논문 레퍼런스
ACE-Step과 AI 음악 생성 분야의 핵심 논문들을 정리한다:
11.1 ACE-Step 관련
| 논문 | 저자 | 연도 | 핵심 기여 |
|---|---|---|---|
| ACE-Step: A Step Towards Music Generation Foundation Model | Gong et al. | 2025 | DCAE + Linear DiT + REPA |
| ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation | ACE-Step Team | 2026 | Hybrid LM+DiT, DMD2, RL alignment |
11.2 기반 기술
| 논문 | 핵심 기여 | 활용 |
|---|---|---|
| Deep Compression Autoencoder (Chen et al., 2024) | 고압축률 AutoEncoder | ACE-Step DCAE |
| MERT (Li et al., 2024) | 자기지도 음악 표현 학습 | ACE-Step REPA |
| mHuBERT-147 (Lee et al., 2024) | 다국어 음성 표현 | ACE-Step REPA |
| Flow Matching (Lipman et al., 2023) | ODE 기반 생성 모델 | ACE-Step 생성 프로세스 |
| DMD2 (Yin et al., 2024) | Distribution Matching Distillation | ACE-Step v1.5 speedup |
11.3 경쟁 모델 논문
| 논문 | 저자/기관 | 연도 | 핵심 기여 |
|---|---|---|---|
| MusicGen: Simple and Controllable Music Generation | Copet et al. (Meta) | 2023 | EnCodec + AR Transformer |
| MusicLM: Generating Music from Text | Agostinelli et al. (Google) | 2023 | SoundStream + AR |
| Stable Audio Open | Evans et al. (Stability AI) | 2024 | Latent Diffusion for Audio |
| Riffusion | Forsgren & Martiros | 2022 | Spectrogram Image Diffusion |
| JEN-1: Text-Guided Universal Music Generation | Li et al. | 2023 | AR + Non-AR hybrid |
| DiffRhythm | - | 2025 | 1D VAE + Flow DiT |
| SongGen | - | 2025 | 가사 인코딩 아키텍처 |
11.4 Audio Tokenization
| 논문 | 저자/기관 | 연도 | 핵심 기여 |
|---|---|---|---|
| EnCodec: High Fidelity Neural Audio Compression | Defossez et al. (Meta) | 2022 | RVQ + Multi-scale Disc |
| SoundStream: An End-to-End Neural Audio Codec | Zeghidour et al. (Google) | 2021 | RVQ 도입 |
| WavTokenizer | Peng et al. | 2025 | 40/75 tokens/sec SOTA |
| AudioLM: A Language Modeling Approach to Audio | Borsos et al. (Google) | 2023 | Semantic + Acoustic tokens |
12. 미래 전망
12.1 기술 발전 방향
AI 음악 생성 기술은 다음과 같은 방향으로 발전할 것으로 전망된다:
[AI 음악 생성 기술 발전 로드맵]
2026 현재 2027 예상 2028+ 장기
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────────┐
│ 현재 상태 │ │ 단기 발전 │ │ 장기 비전 │
│ │ │ │ │ │
│ • 4분 곡 생성 │ → │ • 앨범 단위 │ → │ • 실시간 인터랙티브│
│ • 텍스트 조건 │ │ 일관된 생성 │ │ 음악 생성 │
│ • LoRA 개인화 │ │ • 멀티트랙 │ │ • 감정 인식 기반 │
│ • Voice Clone│ │ 동시 생성 │ │ 적응형 음악 │
│ • 50+ 언어 │ │ • 실시간 │ │ • 영상-음악 동기 │
│ │ │ 스트리밍 생성 │ │ • 완전 자동 프로덕션│
└──────────────┘ └──────────────┘ └──────────────────┘
12.2 ACE-Step의 Foundation Model 비전
ACE-Step 프로젝트의 궁극적 비전은 "음악 AI의 Stable Diffusion"이 되는 것이다. 이는 단순한 텍스트-투-뮤직 파이프라인이 아니라, 다양한 하위 태스크를 그 위에 구축할 수 있는 범용 Foundation Model을 의미한다:
[ACE-Step Foundation Model 생태계 비전]
┌─────────────────────────┐
│ ACE-Step Foundation │
│ Model (Base) │
└──────────┬──────────────┘
│
┌────────────────────┼────────────────────┐
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────────┐
│ Text-to- │ │ Audio │ │ Music │
│ Music │ │ Editing │ │ Understanding │
│ Generation │ │ & Remixing │ │ & Analysis │
└──────────────┘ └──────────────┘ └──────────────────┘
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────────┐
│ LoRA │ │ Voice │ │ Stem │
│ Style │ │ Cloning │ │ Separation │
│ Transfer │ │ & TTS │ │ & Transcription │
└──────────────┘ └──────────────┘ └──────────────────┘
이 비전이 실현되면, 음악 프로듀서, 영상 제작자, 게임 개발자, 교육자 등 다양한 사용자가 로컬 환경에서 상업 품질의 음악을 생성하고 편집할 수 있게 된다.
12.3 산업 영향 전망
음악 프로듀싱의 민주화: 4GB VRAM으로 상업 품질 음악을 생성할 수 있다는 것은 음악 제작의 진입 장벽이 극적으로 낮아짐을 의미한다.
하이브리드 워크플로우: AI가 초안을 생성하고 인간이 정제하는 AI-Human 협업 워크플로우가 표준이 될 것이다. ACE-Step의 Repainting, Completion, Track Extraction 기능은 이러한 워크플로우에 최적화되어 있다.
개인화된 음악 경험: LoRA를 통한 개인화 학습은 각 사용자의 취향에 맞춘 음악 생성을 가능하게 한다. 이는 게임, 명상 앱, 피트니스 앱 등에서 동적으로 생성되는 맞춤형 음악으로 이어질 것이다.
법적 프레임워크 정립: 2025~2026년의 소송과 합의를 거쳐, AI 음악 생성에 대한 명확한 법적 프레임워크가 점차 형성될 것이다. ElevenLabs의 라이선스 기반 접근법이 하나의 모델이 될 수 있다.
13. 결론
ACE-Step은 AI 음악 생성 분야에서 오픈소스와 상업 모델의 격차를 극적으로 줄인 이정표적 모델이다. v1의 DCAE + Linear DiT + REPA 아키텍처는 3.5B 파라미터에서 LLM 기반 모델 대비 188배 빠른 추론을 달성했고, v1.5의 Hybrid LM + DiT + DMD2 아키텍처는 A100에서 2초 미만, 4GB 미만 VRAM이라는 경이적인 효율성을 실현했다.
핵심적인 기술적 기여를 요약하면:
- DCAE의 음악 도메인 적용: 8배 압축으로 10.77Hz 시간 해상도를 유지하면서 고품질 재구성 달성
- REPA 학습: MERT + mHuBERT를 통한 음악적/언어적 의미 정렬로 빠른 수렴과 높은 충실도
- Hybrid LM + DiT: 구조적 계획과 음향 렌더링의 분리로 10분 이상의 장편 곡 지원
- DMD2 Distillation: 50 스텝을 4~8 스텝으로 압축, 200배 속도 향상
- Omni-Task 프레임워크: 단일 모델로 텍스트-투-뮤직, 커버, 리페인팅, 트랙 분리 등 다양한 태스크 수행
물론 Style/Lyric Alignment에서 Suno v5 같은 최상위 상업 모델과의 격차는 여전히 존재한다. 그러나 ACE-Step이 제시하는 오픈소스, 로컬 배포, 개인화 가능이라는 가치는 상업 모델이 제공할 수 없는 고유한 장점이다. 음악 AI의 "Stable Diffusion 모멘트"를 향한 ACE-Step의 여정은 이제 막 시작되었다.
References
- Gong, J., Zhao, S., Wang, S., Xu, S., & Guo, J. (2025). ACE-Step: A Step Towards Music Generation Foundation Model. arXiv:2506.00045. https://arxiv.org/abs/2506.00045
- ACE-Step Team. (2026). ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation. arXiv:2602.00744. https://arxiv.org/abs/2602.00744
- Chen, J. et al. (2024). Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models. arXiv:2410.10733. https://arxiv.org/abs/2410.10733
- Copet, J. et al. (2023). Simple and Controllable Music Generation. NeurIPS 2023. https://arxiv.org/abs/2306.05284
- Agostinelli, A. et al. (2023). MusicLM: Generating Music From Text. arXiv:2301.11325. https://arxiv.org/abs/2301.11325
- Defossez, A. et al. (2022). High Fidelity Neural Audio Compression. arXiv:2210.13438. https://arxiv.org/abs/2210.13438
- Zeghidour, N. et al. (2021). SoundStream: An End-to-End Neural Audio Codec. arXiv:2107.03312. https://arxiv.org/abs/2107.03312
- Li, Y. et al. (2024). MERT: Acoustic Music Understanding Model with Large-Scale Self-Supervised Training. ICLR 2024.
- Lee, R. et al. (2024). mHuBERT-147: A Compact Multilingual HuBERT Model. Interspeech 2024.
- Lipman, Y. et al. (2023). Flow Matching for Generative Modeling. ICLR 2023.
- Yin, T. et al. (2024). One-step Diffusion with Distribution Matching Distillation. CVPR 2024.
- Evans, Z. et al. (2024). Stable Audio Open. arXiv:2407.14358.
- Li, P. et al. (2023). JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models. arXiv:2308.04729.
- ACE-Step GitHub (v1): https://github.com/ace-step/ACE-Step
- ACE-Step GitHub (v1.5): https://github.com/ace-step/ACE-Step-1.5
- ACE-Step Hugging Face: https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
ACE-Step: A New Paradigm in AI Music Generation — Complete Analysis of Architecture, Training Methods, and Practical Applications
- 1. Introduction: A Turning Point in AI Music Generation
- 2. ACE-Step v1: In-Depth Architecture Analysis
- 3. REPA: Semantic Representation Alignment Training
- 4. ACE-Step v1 Training Details
- 5. ACE-Step v1.5: Hybrid LM + DiT Evolution
- 6. Performance Evaluation and Benchmarks
- 7. Comparative Analysis of AI Music Generation Models
- 8. Core Foundational Technologies for Music Generation
- 9. Practical Usage Guide
- 10. Ethical Considerations and Legal Issues
- 11. Key Paper References
- 12. Future Outlook
- 13. Conclusion
- References
- Quiz
1. Introduction: A Turning Point in AI Music Generation
The field of AI Music Generation has undergone explosive progress from 2024 to 2025. While Meta's MusicGen, Google's MusicLM, and commercial services like Suno and Udio demonstrated the possibilities of AI composition to the public, few open-source models had achieved quality rivaling commercial models.
In May 2025, the release of ACE-Step, jointly developed by ACE Studio and StepFun, changed the landscape. ACE-Step is a Foundation Model that generates up to 4 minutes of high-quality music from text prompts and lyrics in approximately 20 seconds, achieving over 15x faster inference speed than LLM-based models and superior musical coherence at a scale of 3.5B parameters. In January 2026, the follow-up version ACE-Step 1.5 was released, delivering commercial-model-level quality in local environments with remarkable speeds of under 2 seconds on A100 and under 10 seconds on RTX 3090.
[AI Music Generation Model Development Timeline]
2023 2024 2025 2026
| | | |
v v v v
+----------+ +--------------+ +---------------+ +------------------+
| MusicGen | | Stable Audio | | ACE-Step v1 | | ACE-Step v1.5 |
| MusicLM | | Suno v3 | | (3.5B, DCAE | | (Hybrid LM+DiT, |
| AudioLDM | | Udio v1 | | + Linear DiT)| | DMD2, under 4GB) |
| Riffusion| | JEN-1 | | DiffRhythm | | Suno v5 |
+----------+ +--------------+ +---------------+ +------------------+
Key Transition: Commercialization: Open-source Leap: Local Deployment Era:
- Autoregressive - Text-to-Song - Diffusion + DCAE - 4-8 step generation
- Spectrogram - Vocal + BGM - Flow Matching - LoRA personalization
based generation - Multilingual - REPA training - 50+ language support
lyrics
This article provides an in-depth analysis of ACE-Step's architecture based on the papers, covering the evolution from v1 to v1.5, competitive model comparisons, core foundational technologies, and practical usage guides.
2. ACE-Step v1: In-Depth Architecture Analysis
ACE-Step v1 (arXiv:2506.00045) was designed to overcome the fundamental limitations of existing music generation models. LLM-based models excel at lyric alignment but suffer from slow inference and structural artifacts, while Diffusion models enable fast synthesis but lack long-range structural coherence. ACE-Step adopts a Diffusion + DCAE + Linear Transformer architecture that integrates the strengths of both approaches.
2.1 Overall Architecture Overview
The core components of ACE-Step v1 are as follows:
[ACE-Step v1 Architecture]
+---------------------------------------------+
| Conditioning Encoders |
| |
| +----------+ +----------+ +--------------+ |
| | Text | | Lyric | | Speaker | |
| | Encoder | | Encoder | | Encoder | |
| |(mT5-base)| |(SongGen) | |(PLR-OSNet) | |
| | frozen | |trainable | | pre-trained | |
| | dim=768 | | | | dim=512 | |
| +----+-----+ +----+-----+ +------+-------+ |
+-------+------------+---------------+--------+
| | |
+------+-----+ |
| cross-attention |
v v
+-----------+ +----------------------------------------------+
| | | Linear Diffusion Transformer (DiT) |
| DCAE | | |
| Encoder |--->| +-------------------------------------+ |
| (f8c8) | | | 24 Transformer Blocks | |
| | | | - AdaLN-single (shared params) | |
| mel-spec | | | - Linear Attention | |
| to latent | | | - 1D Conv FeedForward | |
| ~10.77Hz | | | - Cross-Attention (text+lyric) | |
| | | | - REPA at layer 8 | |
+-----------+ | +-------------------------------------+ |
| |
+------------------+---------------------------+
|
v
+----------------------------------------------+
| DCAE Decoder |
| latent to mel-spectrogram to waveform |
| (Fish Audio Vocoder, 32kHz mono) |
+----------------------------------------------+
2.2 Deep Compression AutoEncoder (DCAE)
The first key innovation of ACE-Step is the application of Deep Compression AutoEncoder (DCAE), proposed by Sana (NVIDIA/MIT-HAN Lab), to the music domain. DCAE was originally designed for high-resolution image generation, achieving extremely high spatial compression ratios of 32x to 128x.
In ACE-Step, it takes mel-spectrograms as input and applies 8x compression (f8c8, channel=8):
[DCAE Compression Process]
Input: mel-spectrogram (44.1kHz/32kHz audio to mel conversion)
|
v
+---------------------------------------------+
| DCAE Encoder |
| - Residual Autoencoding |
| - Space-to-Channel Transform |
| - 8x temporal compression |
| |
| Output: latent space (~10.77Hz) |
| 4-minute music to ~2,584 latent tokens |
+---------------------------------------------+
|
v (Generated/transformed by DiT)
|
v
+---------------------------------------------+
| DCAE Decoder + Vocoder |
| - latent to mel-spectrogram reconstruction |
| - Fish Audio Universal Music Vocoder |
| - Output: 32kHz mono waveform |
+---------------------------------------------+
DCAE Training Details:
| Item | Details |
|---|---|
| Compression Config | f8c8 (8x compression, channel=8) |
| Temporal Resolution | ~10.77Hz in latent space |
| Training Hardware | 120 NVIDIA A100 GPUs |
| Training Steps | 140,000 steps |
| Global Batch Size | 480 (4 per GPU) |
| Training Duration | ~5 days |
| Discriminator | Patch-based, StyleGAN Disc2DRes, SwinDisc2D |
| Training Strategy | Phase 1: MSE only / Phase 2: frozen encoder + MSE + adversarial |
| Vocoder | Fish Audio universal music vocoder (32kHz mono) |
| Reconstruction FAD | 0.0224 |
The paper also experimented with 32x compression (f32), but it resulted in unacceptable quality degradation, leading to the adoption of 8x compression. This is because music audio is far more sensitive to temporal detail than images.
2.3 Conditioning Encoders: Multi-Condition Encoding
ACE-Step injects diverse conditioning information into the model through three specialized encoders:
2.3.1 Text Encoder (Style/Genre Prompt)
# Text Encoder: Google mT5-base (frozen)
# - Output dimension: 768
# - Max sequence length: 256 tokens
# - Multilingual support (100+ languages)
# - Kept frozen during training
# Prompt example:
prompt = "upbeat K-pop dance track with synth bass, 128 BPM, female vocal, major key"
The choice of mT5-base was driven by the necessity of multilingual support. Style prompts can be entered in various languages including English, Korean, Japanese, and Chinese.
2.3.2 Lyric Encoder (Lyrics Encoding)
[Lyric Encoder Processing Pipeline]
Raw lyrics input (Korean, English, Japanese, etc.)
|
v
Non-Roman scripts to Grapheme-to-Phoneme conversion to phoneme representation
|
v
XTTS VoiceBPE Tokenizer (multilingual support)
|
v
SongGen architecture-based Lyric Encoder (trainable)
|
v
Up to 4,096 tokens of lyric embeddings
The Lyric Encoder is based on the SongGen architecture and, unlike the Text Encoder, its parameters are updated during training. This is because lyric-music alignment is one of the most challenging tasks in music generation. Non-Roman scripts (Hangul, Chinese characters, Hiragana, etc.) are converted to phoneme representations through Grapheme-to-Phoneme (G2P) tools.
2.3.3 Speaker Encoder (Voice/Timbre Encoding)
# Speaker Encoder Configuration
# - Input: 10-second vocal segment with accompaniment removed (separated by demucs)
# - Architecture: PLR-OSNet (originally for face recognition, applied to vocal recognition)
# - Output dimension: 512
# - Training dropout: 50% (to prevent over-reliance on timbre)
# - Full song: average of embeddings from multiple segments
# Voice cloning scenario:
# 1. Input 10-second reference vocal segment
# 2. Separate accompaniment with demucs
# 3. Extract 512-dim embedding with Speaker Encoder
# 4. Inject embedding as condition to DiT during generation
The 50% dropout for the Speaker Encoder is an intentional design decision. By removing speaker information with 50% probability during training, the model is guided to focus sufficiently on musical structure and melody rather than excessively relying on timbre.
2.4 Linear Diffusion Transformer (DiT) Backbone
The core generation model of ACE-Step, the Linear Diffusion Transformer, consists of 24 blocks and uses linear attention instead of standard attention for efficient operation on long sequences.
[DiT Block Structure (x24)]
Input: noisy latent z_t + time embedding t
|
v
+---------------------------------+
| AdaLN-single |
| (Simplified Adaptive LayerNorm)|
| - Parameters shared across |
| all blocks |
| - Conditioned on time step t |
+------------+--------------------+
|
v
+---------------------------------+
| Linear Self-Attention |
| - O(n) complexity (vs O(n^2)) |
| - RoPE Position Encoding |
| - Up to 2,584 mel latent tokens|
+------------+--------------------+
|
v
+---------------------------------+
| Cross-Attention |
| - Text Encoder output (768-dim)|
| - Lyric Encoder output |
| - Speaker Encoder output(512-d)|
| - Concatenate and Attend |
+------------+--------------------+
|
v
+---------------------------------+
| 1D Convolutional FeedForward |
| - Adapted from 2D Conv to 1D |
| - Optimized for temporal audio |
| sequences |
+------------+--------------------+
|
v
Output: denoised prediction
(REPA semantic alignment extracted at Layer 8)
Key Architectural Decisions:
AdaLN-single: Shares Adaptive Layer Normalization parameters across all 24 blocks to maximize parameter efficiency. This technique, introduced by Sana, offers excellent performance efficiency relative to model size.
Linear Attention: Since music requires handling long sequences of up to 4 minutes, O(n) complexity linear attention was adopted instead of O(n^2) standard attention. This enables efficient processing of sequences up to 2,584 tokens.
RoPE (Rotary Position Embedding): Provides robust position information across various music lengths through relative position encoding.
1D Convolutional FeedForward: The original image-targeted 2D Conv was adapted to 1D for temporal audio sequences. This better captures the temporal continuity of audio.
2.5 Flow Matching Generation Process
ACE-Step adopts Flow Matching instead of score-based diffusion. Flow Matching learns a straight path (linear probability path) from Gaussian noise to data distribution, enabling faster convergence and stable training.
[Flow Matching Training Process]
Time t ~ U[0, 1]
|
v
Noise z ~ N(0, I) Data x_0 (DCAE latent)
| |
+-------- Linear Interpolation --------+
z_t = (1-t)*z + t*x_0
|
v
+------------------+
| DiT(z_t, t, c) | <- conditioning c (text, lyric, speaker)
| |
| Prediction |
| target: |
| v = x_0 - z |
| (negative |
| constant |
| velocity field)|
+--------+---------+
|
v
L_FM = MSE(v_predicted, v_target)
Inference:
z_0 ~ N(0, I) -> Solve ODE -> z_1 approx x_0 -> DCAE Decoder -> waveform
Loss Function:
L_Total = L_FM + lambda_SSL * L_SSL
Where:
- L_FM: Flow Matching loss (MSE)
- L_SSL: REPA Semantic Alignment loss
- lambda_SSL = 1.0 (during most of training)
-> mHuBERT component reduced to 0.01 (last 100K steps)
3. REPA: Semantic Representation Alignment Training
The second key innovation of ACE-Step is the REPA (Representation Alignment) technique. It directly leverages semantic representations from pre-trained Self-Supervised Learning (SSL) models in DiT training, achieving fast convergence and high semantic fidelity.
3.1 Roles of MERT and mHuBERT
[REPA Training Structure]
+-----------------------+
| DiT Layer 8 Output |
| (intermediate repr.)|
+-----------+-----------+
|
+-----------------+------------------+
| | |
v | v
+------------------+ | +------------------+
| MERT (frozen) | | | mHuBERT (frozen) |
| | | | |
| - Music repr. | | | - Multilingual |
| learning | | | speech repr. |
| - 1024xT_M dim | | | - 768xT_H dim |
| - 75Hz frame | | | - 50Hz frame |
| - Improves style/| | | - Improves lyric/|
| melody accuracy| | | pronunciation |
+--------+---------+ | | alignment |
| | +--------+---------+
v v v
+----------------------------------------------+
| L_SSL = avg(1 - cosine_sim(DiT_repr, SSL)) |
| |
| = 0.5 * L_MERT + 0.5 * L_mHuBERT |
+----------------------------------------------+
| SSL Model | Role | Dimension | Frame Rate | Contribution |
|---|---|---|---|---|
| MERT | Music understanding | 1024 x T_M | 75Hz | Style accuracy, melody coherence |
| mHuBERT-147 | Multilingual speech understanding | 768 x T_H | 50Hz | Lyric alignment, pronunciation naturalness |
MERT (Music Representation Transformer) is a music understanding model pre-trained with large-scale self-supervised learning, capturing high-level semantics such as musical style, melody, and harmony. mHuBERT-147 is a multilingual speech representation model supporting 147 languages, responsible for semantic alignment of lyrics and pronunciation.
By aligning representations from these two models with the DiT's 8th layer output, ACE-Step simultaneously learns musical semantics (MERT) and linguistic semantics (mHuBERT). This is particularly important for music generation with lyrics, as the synchronization (alignment) of melody and lyrics determines the naturalness of the music.
3.2 Conditional Dropout Strategy
Dropout is applied to conditioning information during training to enhance model robustness:
| Condition | Dropout Rate | Purpose |
|---|---|---|
| Text prompt | 15% | Support for Classifier-Free Guidance (CFG) |
| Lyric (lyrics) | 15% | Support for instrumental generation without lyrics |
| Speaker (voice) | 50% | Prevent timbre over-reliance, focus on musical structure |
4. ACE-Step v1 Training Details
4.1 Training Data
ACE-Step v1 was trained on a large-scale music dataset:
| Item | Details |
|---|---|
| Total Data | 1.8M unique tracks (~100,000 hours) |
| Languages | 19 languages (English majority) |
| Quality Filter | Audiobox aesthetics toolkit |
| Excluded | Low-quality recordings, live performances |
Automatic Annotation Pipeline:
[Data Annotation Pipeline]
Raw audio files
|
+-> Qwen-omini model -> Style/genre caption generation
|
+-> Whisper 3.0 -> Lyric transcription
| +-> LSH-based IPA-to-database mapping for lyric refinement
|
+-> "All-in-one" music understanding model -> Song structure (intro, verse, chorus, etc.)
|
+-> BeatThis -> BPM extraction
|
+-> Essentia -> Key/Scale, style tag extraction
|
+-> Demucs -> Vocal/accompaniment separation (for Speaker Encoder training)
4.2 Training Configuration
Training was conducted in two stages: Pre-training + Fine-tuning:
| Stage | Data | Steps | Notes |
|---|---|---|---|
| Pre-training | Full 100K hours | 460,000 | Foundation training on full dataset |
| Fine-tuning | High-quality 20K hours | 240,000 | Curated high-quality subset |
Hyperparameters:
# Training Environment
Hardware: 15 nodes x 8 NVIDIA A100 (120 GPUs total)
Global Batch Size: 120 (1 per GPU)
Training Duration: ~264 hours (approximately 11 days)
# Optimizer
Optimizer: AdamW
Weight Decay: 1e-2
Betas: (0.8, 0.9)
Learning Rate: 1e-4
LR Schedule: Linear warm-up (4,000 steps)
Gradient Clipping: max norm 0.5
# REPA Weights
lambda_SSL: 1.0 (full training)
mHuBERT lambda: 0.01 (reduced in last 100K steps)
5. ACE-Step v1.5: Hybrid LM + DiT Evolution
ACE-Step v1.5 (arXiv:2602.00744), released in January 2026, fundamentally redesigned the v1 architecture. It introduces a Language Model as a structural planner and dramatically reduces inference steps through Distribution Matching Distillation, among other innovations.
5.1 Hybrid LM + DiT Architecture
[ACE-Step v1.5 Architecture]
User Input (Text prompt + Lyrics)
|
v
+----------------------------------------------------------+
| Composer Agent (Language Model, Qwen-based ~1.7B) |
| |
| Chain-of-Thought reasoning: |
| 1. Metadata generation (BPM, Key, Duration, Structure) |
| 2. Lyrics refinement and structuring |
| 3. Caption/style directive generation |
| 4. YAML-format Song Blueprint output |
| |
| +----------------------------------------+ |
| | bpm: 128 | |
| | key: "C major" | |
| | duration: 210 | |
| | structure: | |
| | - intro: 0-15s | |
| | - verse1: 15-45s | |
| | - chorus1: 45-75s | |
| | - verse2: 75-105s ... | |
| | style: "energetic K-pop with synth" | |
| +----------------------------------------+ |
+---------------------+------------------------------------+
| Song Blueprint
v
+----------------------------------------------------------+
| 1D VAE (Self-Learning Tokenizer) |
| - 48kHz stereo audio processing |
| - 64-dimensional latent space @ 25Hz |
| - 1920x compression ratio |
| - FSQ: 25Hz to 5Hz discrete codes (~64K codebook) |
| - "Source Latent" generation (LM-DiT bridging) |
+---------------------+------------------------------------+
|
v
+----------------------------------------------------------+
| Diffusion Transformer (DiT, ~2B parameters) |
| - Acoustic rendering with Source Latent + Blueprint |
| conditions |
| - DMD2 distillation: 50 steps to 4-8 steps |
| - 200x speedup (240-second track in ~1 second, A100) |
+----------------------------------------------------------+
The most significant change in v1.5 is the separation of structural planning and acoustic rendering. The Language Model first designs the overall blueprint of the music, and the DiT only performs the role of generating actual audio according to this blueprint. This enables maintaining consistent structure for even songs longer than 10 minutes.
5.2 Self-Learning Tokenizer
v1.5 uses a 1D VAE instead of v1's mel-spectrogram-based DCAE to directly process 48kHz stereo audio:
[v1 vs v1.5 Audio Processing Comparison]
ACE-Step v1:
Audio -> mel-spectrogram -> DCAE Encoder -> latent (10.77Hz)
latent -> DCAE Decoder -> mel -> Fish Audio Vocoder -> 32kHz mono
ACE-Step v1.5:
Audio (48kHz stereo) -> 1D VAE Encoder -> latent (25Hz, 64-dim)
latent -> FSQ -> 5Hz discrete codes ("Source Latent")
DiT -> latent -> 1D VAE Decoder -> 48kHz stereo
Improvements:
- 32kHz mono -> 48kHz stereo (improved audio quality)
- Elimination of mel-spectrogram intermediate stage (reduced information loss)
- Near-lossless quality maintained with 1920x compression ratio
The 1D VAE's Finite Scalar Quantization (FSQ) quantizes continuous 25Hz latent into 5Hz discrete codes. These discrete codes serve as Source Latent, bridging the Language Model and DiT. The codebook size is approximately 64K, and this tokenizer is trained simultaneously with the DiT through a self-learning approach.
5.3 Distribution Matching Distillation (DMD2)
The key to v1.5's dramatic speed improvement is DMD2 (Distribution Matching Distillation):
[DMD2 Distillation Process]
Teacher Model (50-step DiT)
|
v Knowledge Distillation
Student Model (4-8 step DiT)
|
+-- Dynamic-shift Strategy: {1, 2, 3} step sampling
| -> Exposure to diverse denoising states to prevent overfitting
|
+-- Distribution Matching Loss
| -> Alignment of Teacher distribution with Student distribution
|
+-- Result: 200x speedup
- 50 steps to 4-8 steps
- 240-second music generated in ~1 second on A100
- Dramatic RTF (Real-Time Factor) improvement
5.4 Intrinsic Reinforcement Learning
v1.5 introduces reinforcement learning-based alignment to further improve generation quality:
[RL-Based Alignment Structure]
DiT Alignment:
+-- DiffusionNTF framework
+-- Attention Alignment Score (AAS)
| -> Measurement of cross-attention map consensus
+-- Improvement of acoustic quality and text condition adherence
LM Alignment:
+-- Pointwise Mutual Information (PMI)
| -> Measurement of semantic adherence
+-- Improvement of Song Blueprint accuracy
Final Reward Weights:
- Atmosphere: 50%
- Lyrics: 30%
- Metadata: 20%
5.5 Data and Training Infrastructure
v1.5 uses significantly larger-scale data and more sophisticated training strategies than v1:
RL-Driven Annotation Pipeline:
[v1.5 Data Annotation]
1. "Golden Set" construction (5M samples)
+-- Initial annotation with Gemini 2.5 Pro
2. Fine-tuning
+-- Fine-tune Qwen2.5-Omni with Golden Set
+-- GRPO optimization -> ACE-Captioner, ACE-Transcriber generation
3. Reward Models training
+-- Trained on 4M contrastive pairs
4. Progressive Curriculum (3 stages)
+-- Phase 1: Foundation Pre-training (20M samples)
+-- Phase 2: Omni-task Fine-tuning (17M, including stem-separated tracks)
+-- Phase 3: High-quality SFT (2M curated samples)
The 3-stage progressive curriculum spanning 27M samples in total is designed so the model starts with basic music generation capabilities and gradually learns specialized tasks.
5.6 Omni-Task Framework
Another key innovation of v1.5 is the Omni-Task framework that handles diverse music tasks with a single model:
| Task | Description | Use Scenario |
|---|---|---|
| Text-to-Music | Generate full song from text prompt | Composition, BGM |
| Cover Generation | Style/timbre conversion of existing songs | Cover song production |
| Repainting | Regenerate/modify specific sections | Partial remixing |
| Track Extraction | Separate vocal/accompaniment tracks | Mixing, remastering |
| Layering | Multi-track synthesis | Arrangement, producing |
| Completion | Continue unfinished compositions | Collaborative composition |
| Vocal-to-BGM | Generate accompaniment from vocals | Karaoke production |
All these tasks are implemented through combinations of Source Latent and Mask configurations, handled by a single model without separate model training.
6. Performance Evaluation and Benchmarks
6.1 Inference Speed Comparison
The most dramatic advantage of ACE-Step is its inference speed:
| Model | RTF (RTX 4090) | 4-min Song Gen Time | Notes |
|---|---|---|---|
| ACE-Step v1 | 15.63x | ~20s (A100) | 15.63x real-time |
| ACE-Step v1.5 | - | Under 2s (A100) | DMD2 distillation |
| DiffRhythm | 10.03x | ~30s | |
| Yue (LLM-based) | 0.083x | ~48 min | Slower than real-time |
ACE-Step v1 is approximately 188x faster than the LLM-based model Yue, and v1.5 is over 10x faster than v1 through distillation.
v1.5 Performance by Hardware:
| Hardware | Full Song Gen Time | VRAM Required |
|---|---|---|
| NVIDIA A100 | Under 2 seconds | - |
| RTX 3090 | Under 10 seconds | Under 4GB |
| RTX 4090 | Under 5 seconds (est.) | Under 4GB |
| AMD Radeon | Supported (official AMD partnership) | Under 4GB |
| Apple Silicon (Mac) | Supported | Under 4GB |
6.2 Music Quality Evaluation
ACE-Step achieved competitive results across various automatic evaluation metrics and human evaluations:
Automatic Evaluation (v1):
| Metric | ACE-Step v1 | Best Comparison Model | Description |
|---|---|---|---|
| DCAE FAD | 0.0224 | DiffRhythm VAE: 0.0059 | Waveform reconstruction quality |
| Style Alignment | Top tier | Udio v1 (best) | CLAP + Mulan based |
| Lyric Alignment | Strong | Hailuo (best) | Whisper Forced Alignment |
| SongEval Coherence | Competitive | Suno v3 (best) | Musical coherence |
| SongEval Memorability | Strong | - | Memorable melody |
Automatic Evaluation (v1.5):
| Metric | ACE-Step v1.5 | Suno v5 | MinMax 2.0 |
|---|---|---|---|
| AudioBox CU | 8.09 (best) | - | - |
| AudioBox PQ | 8.35 (best) | - | - |
| SongEval Coherence | 4.72 (tied best) | - | - |
| Style Alignment | 39.1 | 46.8 | 43.1 |
| Lyric Alignment | 26.3 | 34.2 | 29.5 |
v1.5 achieved the highest scores in AudioBox CU (8.09) and PQ (8.35), and tied for the best in SongEval Coherence (4.72). While it falls short of Suno v5 in Style/Lyric Alignment, it is overwhelmingly superior among open-source models, and ranks between Suno v4.5 and v5 in Music Arena human evaluations.
Human Evaluation (v1, 32 participants):
| Evaluation Item | Score (/100) |
|---|---|
| Emotional Expression | ~85 |
| Innovativeness | ~82 |
| Sound Quality | ~80 |
| Musicality | ~78 |
7. Comparative Analysis of AI Music Generation Models
7.1 Major Model Overview
A systematic comparison of major models in the current AI music generation field:
[AI Music Generation Model Classification]
+-------------------------------------------------------------+
| Open-Source Models |
+--------------+--------------+--------------+-----------------+
| ACE-Step | MusicGen | Stable Audio| Riffusion |
| (v1, v1.5) | (Meta) | Open | |
| | | (Stability) | |
| Diffusion | Autoregress | Latent | Image Diffusion|
| + DCAE/VAE | + EnCodec | Diffusion | -> Spectrogram |
| 3.5B params | 1.5B/3.3B | 1.1B | ~1B |
+--------------+--------------+--------------+-----------------+
| Commercial Models |
+--------------+--------------+--------------+-----------------+
| Suno | Udio | ElevenLabs | Google MusicLM |
| (v3->v5) | (v1->v2) | Eleven Music| |
| | | | |
| Full song | Segment-by | Licensed | Experimental/ |
| generation | -segment | commercial | Instrumental |
| pipeline | composition | use OK | focus |
+--------------+--------------+--------------+-----------------+
7.2 Detailed Comparison Table
| Model | Developer | Parameters | Generation Method | Audio Representation | Max Length | Lyric Support | Open Source |
|---|---|---|---|---|---|---|---|
| ACE-Step v1 | ACE Studio + StepFun | 3.5B | Flow Matching + DiT | Mel DCAE latent | 4 min | Yes (multilingual) | Yes |
| ACE-Step v1.5 | ACE Studio + StepFun | ~3.7B (LM+DiT) | Hybrid LM + DiT + DMD2 | 1D VAE latent | 10+ min | Yes (50+ languages) | Yes |
| MusicGen | Meta | 1.5B/3.3B | Autoregressive | EnCodec tokens | ~30s | No | Yes |
| Stable Audio Open | Stability AI | 1.1B | Latent Diffusion | VAE latent | 47s | No | Yes |
| Riffusion | Riffusion | ~1B | Image Diffusion | Spectrogram | A few seconds | No | Yes |
| JEN-1 | Jen Music | - | AR + Non-AR hybrid | Raw waveform | ~30s | No | Partial |
| Suno | Suno Inc. | Undisclosed | Undisclosed | Undisclosed | 4+ min | Yes | No |
| Udio | Udio | Undisclosed | Undisclosed | Undisclosed | Segment-based | Yes | No |
| MusicLM | Undisclosed | AR + SoundStream | SoundStream tokens | ~30s | No | No |
7.3 MusicGen (Meta)
Meta's MusicGen is a pioneer in open-source music generation models. It is an autoregressive transformer model based on the EnCodec tokenizer.
[MusicGen Architecture]
Text prompt -> T5 Encoder -> Conditioning
|
v
+--------------------------+
| Autoregressive Decoder |
| (Transformer LM) |
| |
| EnCodec 4 codebooks |
| 32kHz, 50Hz sampling |
| |
| Simultaneous multi- |
| codebook generation |
| via delay pattern |
+----------+---------------+
|
v
+--------------------------+
| EnCodec Decoder |
| tokens -> waveform |
+--------------------------+
Strengths: Stable instrumental generation, melody conditioning support Limitations: No lyric support, ~30-second limit, relatively slow autoregressive generation
7.4 Suno vs ACE-Step
Suno is currently the most commercially successful AI music generation platform:
| Comparison Item | ACE-Step v1.5 | Suno v5 |
|---|---|---|
| Accessibility | Local install (open source) | Cloud service |
| VRAM Required | Under 4GB | N/A (server) |
| Song Structure | LM-based Blueprint | End-to-end |
| Customization | LoRA training possible | Prompts only |
| Style Alignment | 39.1 | 46.8 |
| Lyric Alignment | 26.3 | 34.2 |
| Price | Free (local) | Subscription |
| Commercial Use | License check needed | Paid plans |
While Suno v5 still leads in absolute quality, ACE-Step v1.5 is a powerful alternative in terms of local deployment, customization, and cost efficiency.
7.5 Stable Audio Open
Stability AI's Stable Audio Open is a latent diffusion-based open-source model:
| Comparison Item | ACE-Step v1.5 | Stable Audio Open |
|---|---|---|
| Max Length | 10+ min | 47 seconds |
| Lyric Support | Yes (50+ languages) | No |
| Vocal Generation | Yes (including Voice Cloning) | No (instrumental only) |
| Parameters | ~3.7B | 1.1B |
| Audio Quality | 48kHz stereo | 44.1kHz stereo |
ACE-Step shows superiority in nearly all aspects including length, lyrics, and vocals.
8. Core Foundational Technologies for Music Generation
An in-depth analysis of the essential foundational technologies needed to understand AI music generation.
8.1 Audio Tokenization: Converting Audio to Discrete Tokens
The first challenge for music generation models is transforming continuous audio signals into a form the model can process. There are broadly three approaches:
[Audio Representation Method Comparison]
1. Spectrogram-Based
+--------------------------------------------+
| waveform -> STFT -> mel-spectrogram -> image |
| |
| Pros: Easy visualization, can leverage |
| image models |
| Cons: Phase information loss, vocoder needed|
| Used by: Riffusion, ACE-Step v1 (DCAE input)|
+--------------------------------------------+
2. Neural Audio Codec (Discrete Tokens)
+--------------------------------------------+
| waveform -> Encoder -> RVQ -> discrete tokens|
| tokens -> Decoder -> waveform |
| |
| Pros: End-to-end, high compression ratio |
| Cons: Weak long-range dependency |
| (acoustic tokens) |
| Used by: MusicGen (EnCodec), MusicLM |
| (SoundStream) |
+--------------------------------------------+
3. Continuous Latent (VAE)
+--------------------------------------------+
| waveform -> VAE Encoder -> continuous latent |
| latent -> VAE Decoder -> waveform |
| |
| Pros: Natural integration with Diffusion |
| Cons: Compression ratio vs quality tradeoff |
| Used by: ACE-Step v1.5 (1D VAE), |
| Stable Audio |
+--------------------------------------------+
8.2 EnCodec and SoundStream
EnCodec (Meta) and SoundStream (Google) are representative Neural Audio Codec models:
[EnCodec / SoundStream Architecture]
Input: raw waveform (24kHz/48kHz)
|
v
+---------------------------------+
| Encoder (1D Conv + LSTM) |
| -> continuous embeddings |
+------------+--------------------+
|
v
+---------------------------------+
| Residual Vector Quantization |
| (RVQ) |
| |
| Codebook 1 -> Most important |
| information |
| Codebook 2 -> Residual |
| Codebook 3 -> Finer residual |
| ... |
| Codebook N -> Final residual |
| |
| Each codebook: 1024 entries |
| sampling rate: 50Hz/75Hz |
+------------+--------------------+
|
v
+---------------------------------+
| Decoder (1D TransposeConv) |
| -> reconstructed waveform |
+---------------------------------+
Training: Reconstruction Loss + Adversarial Loss
(Multi-scale discriminator)
EnCodec vs SoundStream:
| Item | EnCodec | SoundStream |
|---|---|---|
| Developer | Meta | |
| Key Innovation | Multi-scale discriminator, loss balancing | RVQ introduction |
| Sample Rate | 24kHz/48kHz | 24kHz |
| Bitrate | 1.5~24 kbps | 3~18 kbps |
| Used In | MusicGen, AudioGen | AudioLM, MusicLM |
| Open Source | Yes | No |
8.3 Diffusion for Audio
Audio application of Diffusion models is built on the success in the image domain:
[Audio Diffusion Training]
Forward Process (Adding Noise):
x_0 (original audio latent)
-> x_1 -> x_2 -> ... -> x_T (pure Gaussian noise)
x_t = sqrt(alpha_bar_t) * x_0 + sqrt(1-alpha_bar_t) * epsilon, epsilon ~ N(0,I)
Reverse Process (Denoising, training target):
x_T (noise) -> x_{T-1} -> ... -> x_0 (generated audio latent)
p_theta(x_{t-1}|x_t) = N(x_{t-1}; mu_theta(x_t, t), sigma^2 I)
Loss: L = E_{t,x_0,epsilon} [||epsilon - epsilon_theta(x_t, t, c)||^2]
(c = conditioning: text, melody, etc.)
ACE-Step v1 uses Flow Matching instead of standard Diffusion, which uses straight paths for convergence with fewer steps and stable training. v1.5 adds DMD2 distillation on top to achieve high-quality generation with only 4-8 steps.
8.4 Classifier-Free Guidance (CFG)
CFG, a core technique in all conditional generation models, is also used in ACE-Step:
[CFG Application]
epsilon_guided = epsilon_uncond + w * (epsilon_cond - epsilon_uncond)
Where:
- epsilon_cond: prediction with conditions (text, lyric, speaker)
- epsilon_uncond: prediction without conditions (trained via dropout)
- w: guidance scale (higher = more condition adherence, less diversity)
ACE-Step's 15% text/lyric dropout, 50% speaker dropout
enables unconditional training for this CFG.
9. Practical Usage Guide
9.1 ACE-Step v1.5 Local Installation
ACE-Step v1.5 offers a remarkably simple installation process:
# 1. Install uv package manager
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. Clone repository and install dependencies
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync
# 3. Launch Gradio UI (web interface)
uv run acestep
# -> Access at http://localhost:7860
# 4. Or launch REST API server
uv run acestep-api
# -> Use API at http://localhost:8001
# 5. Environment configuration (optional)
cp .env.example .env
# Customize model paths, ports, GPU settings, etc. in .env file
Supported Hardware:
- NVIDIA GPU (CUDA): RTX 20xx or higher recommended
- AMD GPU (ROCm): Optimized through official AMD partnership
- Intel GPU: Supported
- Apple Silicon (Mac): MPS backend supported
Models are automatically downloaded on first run and operate with under 4GB of VRAM.
9.2 Basic Text-to-Music Usage
# Music generation example via API (conceptual code)
import requests
# Basic text-to-music generation
response = requests.post("http://localhost:8001/generate", json={
"prompt": "Bright and cheerful K-pop dance track, synth bass and electronic beats, "
"128 BPM, female vocal, C major",
"lyrics": """
[Verse 1]
Shining like stars tonight
Let's dance together
In this moment where music flows
We won't stop
[Chorus]
La la la shining night
La la la time together
May this moment last forever
""",
"duration": 180, # 3 minutes
"num_inference_steps": 8, # DMD2 distilled
"guidance_scale": 7.0,
"seed": 42
})
# Save output audio
with open("output.wav", "wb") as f:
f.write(response.content)
9.3 Prompt Writing Guide
Effective prompt writing directly impacts generation quality:
[Effective Prompt Structure]
1. Genre/Style : "indie folk ballad", "aggressive metal", "lo-fi hip-hop"
2. Instrumentation : "acoustic guitar, soft piano, light percussion"
3. Mood/Emotion : "melancholic", "uplifting", "dreamy"
4. Tempo (BPM) : "slow tempo 70 BPM", "fast 140 BPM"
5. Key : "minor key", "E flat major"
6. Vocal Character : "female vocal, breathy", "male baritone, powerful"
7. Production Style : "lo-fi with vinyl crackle", "clean studio production"
[Good Prompt Example]
"Dreamy shoegaze rock with layers of reverbed electric guitars,
ethereal female vocal, 90 BPM, D minor, lo-fi production
with tape saturation and subtle noise"
[Lyrics Format]
- Use [Verse], [Chorus], [Bridge], [Intro], [Outro] tags
- Clearly separate each section
- One phrase per line
9.4 LoRA Personalization Training
One of ACE-Step v1.5's powerful features is LoRA support that allows training your own style with a small number of songs:
[LoRA Training Process]
1. Data Preparation
+-- Minimum 3-5 reference music tracks
+-- Text prompt (caption) for each track
+-- (Optional) Lyrics files
2. Access LoRA Training tab in Gradio UI
+-- Upload audio files
+-- Enter captions
+-- Configure training parameters
| +-- Learning Rate: ~1e-4
| +-- Epochs: 50-200
| +-- LoRA Rank: 8-64
+-- Start training
3. Apply trained LoRA
+-- Load LoRA weights during generation
+-- Adjust LoRA Scale (0.0~1.0)
+-- Combine with existing prompts to apply style
This allows you to reflect a specific artist's production style, nuances of a specific genre, or your own composition style in the model.
9.5 ComfyUI Integration
ACE-Step 1.5 also supports integration with ComfyUI, enabling visual configuration of music generation in a node-based workflow:
[ComfyUI ACE-Step Workflow Example]
+----------+ +--------------+ +--------------+
| Text |---->| ACE-Step |---->| Audio |
| Prompt | | Generator | | Preview |
+----------+ | | +--------------+
| |
+----------+ | | +--------------+
| Lyrics |---->| |---->| Save WAV |
| Input | | | | Node |
+----------+ +--------------+ +--------------+
10. Ethical Considerations and Legal Issues
10.1 Copyright Status (2025-2026)
Copyright issues in AI music generation are currently one of the hottest legal topics:
Key Rulings and Trends:
| Date | Event | Impact |
|---|---|---|
| Jan 2025 | US Copyright Office: No copyright for 100% AI-generated content | Public domain ruling |
| Mar 2025 | US Appeals Court: Confirms denial of copyright for AI works | Legal precedent established |
| Sep 2025 | Warner Music + Suno settlement | Suno agrees to license-based model transition |
| Nov 2025 | UMG + Udio settlement | Similar license transition agreement |
| Aug 2025 | ElevenLabs Eleven Music launch | First legally licensed commercial AI music |
| Jan 2026 | UMG vs Anthropic ($3B) | Copyright lawsuit over 20,000+ songs in training data |
10.2 "Meaningful Human Authorship" Principle
The US Copyright Office released guidelines stating that copyright may be recognized for AI-assisted works when "meaningful human authorship" is present:
[Copyright Recognition Spectrum for AI Music]
Fully AI-Generated Fully Human-Created
<---------------------------------------->
| | |
No copyright Judgment needed Copyright recognized
|
Human actively:
- Modifying melody
- Writing lyrics
- Arranging structure
- Selecting/editing AI output
-> "Meaningful Human Authorship"
-> Copyright may be recognized
10.3 Ethical Considerations for Open-Source Models
Open-source models like ACE-Step require additional ethical considerations:
Training Data Sources: The copyright status of ACE-Step's training data of 1.8M songs (v1) / 27M samples (v1.5) is not clearly disclosed in the papers. Users should be aware of legal risks when commercially using generated music.
Voice Cloning Misuse: The voice cloning capability through the Speaker Encoder could be misused to replicate specific artists' voices without authorization. Cloning without consent from the reference vocal rights holder is both ethically and legally problematic.
Deepfake Music: Deepfake music where AI generates "new songs" by specific artists has already emerged as a social issue. ACE-Step's Cover Generation feature also requires responsible use in this context.
Impact on the Music Industry: The democratization of AI music generation technology can directly affect the livelihoods of professional musicians, composers, and producers. A balance between technological advancement and creator protection is needed.
10.4 Guidelines for Responsible Use
[Responsible Use Principles for AI Music Generation]
1. Transparency: Clearly state when music is AI-generated/assisted
2. Consent: Obtain original artist consent for Voice Cloning
3. Attribution: Clearly distinguish AI tool contributions from human contributions
4. Commercial Use: Comply with relevant regulations and license conditions
5. Education: Use AI tools as supplementary tools for music education/learning
6. Fair Use: Distinguish between style imitation and copying of existing music
11. Key Paper References
A compilation of key papers on ACE-Step and the AI music generation field:
11.1 ACE-Step Related
| Paper | Authors | Year | Key Contribution |
|---|---|---|---|
| ACE-Step: A Step Towards Music Generation Foundation Model | Gong et al. | 2025 | DCAE + Linear DiT + REPA |
| ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation | ACE-Step Team | 2026 | Hybrid LM+DiT, DMD2, RL alignment |
11.2 Foundational Technologies
| Paper | Key Contribution | Usage |
|---|---|---|
| Deep Compression Autoencoder (Chen et al., 2024) | High compression ratio AutoEncoder | ACE-Step DCAE |
| MERT (Li et al., 2024) | Self-supervised music representation learning | ACE-Step REPA |
| mHuBERT-147 (Lee et al., 2024) | Multilingual speech representation | ACE-Step REPA |
| Flow Matching (Lipman et al., 2023) | ODE-based generative model | ACE-Step generation process |
| DMD2 (Yin et al., 2024) | Distribution Matching Distillation | ACE-Step v1.5 speedup |
11.3 Competing Model Papers
| Paper | Author/Org | Year | Key Contribution |
|---|---|---|---|
| MusicGen: Simple and Controllable Music Generation | Copet et al. (Meta) | 2023 | EnCodec + AR Transformer |
| MusicLM: Generating Music from Text | Agostinelli et al. (Google) | 2023 | SoundStream + AR |
| Stable Audio Open | Evans et al. (Stability AI) | 2024 | Latent Diffusion for Audio |
| Riffusion | Forsgren & Martiros | 2022 | Spectrogram Image Diffusion |
| JEN-1: Text-Guided Universal Music Generation | Li et al. | 2023 | AR + Non-AR hybrid |
| DiffRhythm | - | 2025 | 1D VAE + Flow DiT |
| SongGen | - | 2025 | Lyric encoding architecture |
11.4 Audio Tokenization
| Paper | Author/Org | Year | Key Contribution |
|---|---|---|---|
| EnCodec: High Fidelity Neural Audio Compression | Defossez et al. (Meta) | 2022 | RVQ + Multi-scale Disc |
| SoundStream: An End-to-End Neural Audio Codec | Zeghidour et al. (Google) | 2021 | RVQ introduction |
| WavTokenizer | Peng et al. | 2025 | 40/75 tokens/sec SOTA |
| AudioLM: A Language Modeling Approach to Audio | Borsos et al. (Google) | 2023 | Semantic + Acoustic tokens |
12. Future Outlook
12.1 Technology Development Direction
AI music generation technology is expected to evolve in the following directions:
[AI Music Generation Technology Development Roadmap]
2026 Current 2027 Expected 2028+ Long-term
| | |
v v v
+--------------+ +--------------+ +------------------+
| Current State | | Short-term | | Long-term Vision |
| | | Development | | |
| - 4-min song | -> | - Album-level| -> | - Real-time |
| generation | | consistent | | interactive |
| - Text cond. | | generation | | music gen |
| - LoRA | | - Multi-track| | - Emotion-aware |
| personalize| | simultaneous| | adaptive music |
| - Voice Clone| | generation | | - Video-music |
| - 50+ langs | | - Real-time | | synchronization|
| | | streaming | | - Fully automated|
| | | generation | | production |
+--------------+ +--------------+ +------------------+
12.2 ACE-Step's Foundation Model Vision
The ultimate vision of the ACE-Step project is to become the "Stable Diffusion of Music AI." This means not just a simple text-to-music pipeline, but a general-purpose Foundation Model upon which various downstream tasks can be built:
[ACE-Step Foundation Model Ecosystem Vision]
+-------------------------+
| ACE-Step Foundation |
| Model (Base) |
+----------+--------------+
|
+--------------------+--------------------+
| | |
v v v
+--------------+ +--------------+ +------------------+
| Text-to- | | Audio | | Music |
| Music | | Editing | | Understanding |
| Generation | | & Remixing | | & Analysis |
+--------------+ +--------------+ +------------------+
| | |
v v v
+--------------+ +--------------+ +------------------+
| LoRA | | Voice | | Stem |
| Style | | Cloning | | Separation |
| Transfer | | & TTS | | & Transcription |
+--------------+ +--------------+ +------------------+
When this vision is realized, diverse users including music producers, video creators, game developers, and educators will be able to generate and edit commercial-quality music in local environments.
12.3 Industry Impact Outlook
Democratization of Music Production: The ability to generate commercial-quality music with 4GB VRAM means the barrier to entry for music production has been dramatically lowered.
Hybrid Workflows: AI-Human collaborative workflows where AI generates drafts and humans refine them will become standard. ACE-Step's Repainting, Completion, and Track Extraction features are optimized for such workflows.
Personalized Music Experiences: Personalization training through LoRA enables music generation tailored to each user's preferences. This will lead to dynamically generated custom music in games, meditation apps, fitness apps, and more.
Legal Framework Establishment: Through the lawsuits and settlements of 2025-2026, a clear legal framework for AI music generation will gradually be formed. ElevenLabs' license-based approach could serve as one model.
13. Conclusion
ACE-Step is a landmark model that has dramatically narrowed the gap between open-source and commercial models in AI music generation. The v1 DCAE + Linear DiT + REPA architecture achieved 188x faster inference than LLM-based models at 3.5B parameters, and the v1.5 Hybrid LM + DiT + DMD2 architecture realized remarkable efficiency of under 2 seconds on A100 and under 4GB VRAM.
Summarizing the key technical contributions:
- DCAE Application to Music Domain: Achieved high-quality reconstruction while maintaining 10.77Hz temporal resolution with 8x compression
- REPA Training: Fast convergence and high fidelity through musical/linguistic semantic alignment via MERT + mHuBERT
- Hybrid LM + DiT: Support for songs longer than 10 minutes through separation of structural planning and acoustic rendering
- DMD2 Distillation: Compressed 50 steps to 4-8 steps, 200x speed improvement
- Omni-Task Framework: Single model performs diverse tasks including text-to-music, cover, repainting, and track separation
Of course, gaps still exist with top-tier commercial models like Suno v5 in Style/Lyric Alignment. However, the values ACE-Step offers -- open-source, local deployment, and customizability -- are unique advantages that commercial models cannot provide. ACE-Step's journey toward music AI's "Stable Diffusion moment" has only just begun.
References
- Gong, J., Zhao, S., Wang, S., Xu, S., & Guo, J. (2025). ACE-Step: A Step Towards Music Generation Foundation Model. arXiv:2506.00045. https://arxiv.org/abs/2506.00045
- ACE-Step Team. (2026). ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation. arXiv:2602.00744. https://arxiv.org/abs/2602.00744
- Chen, J. et al. (2024). Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models. arXiv:2410.10733. https://arxiv.org/abs/2410.10733
- Copet, J. et al. (2023). Simple and Controllable Music Generation. NeurIPS 2023. https://arxiv.org/abs/2306.05284
- Agostinelli, A. et al. (2023). MusicLM: Generating Music From Text. arXiv:2301.11325. https://arxiv.org/abs/2301.11325
- Defossez, A. et al. (2022). High Fidelity Neural Audio Compression. arXiv:2210.13438. https://arxiv.org/abs/2210.13438
- Zeghidour, N. et al. (2021). SoundStream: An End-to-End Neural Audio Codec. arXiv:2107.03312. https://arxiv.org/abs/2107.03312
- Li, Y. et al. (2024). MERT: Acoustic Music Understanding Model with Large-Scale Self-Supervised Training. ICLR 2024.
- Lee, R. et al. (2024). mHuBERT-147: A Compact Multilingual HuBERT Model. Interspeech 2024.
- Lipman, Y. et al. (2023). Flow Matching for Generative Modeling. ICLR 2023.
- Yin, T. et al. (2024). One-step Diffusion with Distribution Matching Distillation. CVPR 2024.
- Evans, Z. et al. (2024). Stable Audio Open. arXiv:2407.14358.
- Li, P. et al. (2023). JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models. arXiv:2308.04729.
- ACE-Step GitHub (v1): https://github.com/ace-step/ACE-Step
- ACE-Step GitHub (v1.5): https://github.com/ace-step/ACE-Step-1.5
- ACE-Step Hugging Face: https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
Quiz
Q1: What is the main topic covered in "ACE-Step: A New Paradigm in AI Music Generation — Complete Analysis of Architecture, Training Methods, and Practical Applications"?
An in-depth analysis of the ACE-Step music generation model covering its architecture, training methodology, and text-to-music generation principles, with comparisons against competing models like MusicGen, Suno, and Udio, examining the present and future of AI music generation.
Q2: Describe the ACE-Step v1: In-Depth Architecture Analysis.
ACE-Step v1 (arXiv:2506.00045) was designed to overcome the fundamental limitations of existing music generation models.
Q3: Explain the core concept of REPA: Semantic Representation Alignment Training.
The second key innovation of ACE-Step is the REPA (Representation Alignment) technique. It directly leverages semantic representations from pre-trained Self-Supervised Learning (SSL) models in DiT training, achieving fast convergence and high semantic fidelity.
Q4: What are the key aspects of ACE-Step v1 Training Details?
4.1 Training Data ACE-Step v1 was trained on a large-scale music dataset: Automatic Annotation Pipeline: 4.2 Training Configuration Training was conducted in two stages: Pre-training + Fine-tuning: Hyperparameters:
Q5: How does ACE-Step v1.5: Hybrid LM + DiT Evolution work?
ACE-Step v1.5 (arXiv:2602.00744), released in January 2026, fundamentally redesigned the v1 architecture. It introduces a Language Model as a structural planner and dramatically reduces inference steps through Distribution Matching Distillation, among other innovations.