Skip to content

필사 모드: ACE-Step: AI 음악 생성의 새로운 패러다임 — 아키텍처, 학습 방법, 실전 활용 완벽 분석

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.
원문 렌더가 준비되기 전까지 텍스트 가이드로 표시합니다.

1. 서론: AI 음악 생성의 전환점

AI 음악 생성(AI Music Generation) 분야는 2024~2025년을 기점으로 폭발적인 발전을 이루었다. Meta의 MusicGen, Google의 MusicLM, 그리고 Suno와 Udio 같은 상업 서비스가 대중에게 AI 작곡의 가능성을 보여주었지만, **오픈소스 진영에서 상업 모델에 필적하는 품질을 달성한 모델**은 드물었다.

2025년 5월, ACE Studio와 StepFun이 공동 개발한 **ACE-Step**이 공개되면서 이 판도가 바뀌었다. ACE-Step은 텍스트 프롬프트와 가사로부터 최대 4분 길이의 고품질 음악을 약 20초 만에 생성하는 Foundation Model로, 3.5B 파라미터 규모에서 **LLM 기반 모델 대비 15배 이상 빠른 추론 속도**와 우수한 음악적 일관성을 달성했다. 2026년 1월에는 후속 버전인 **ACE-Step 1.5**가 출시되어, A100에서 2초 미만, RTX 3090에서 10초 미만이라는 경이적인 속도로 상업 모델 수준의 품질을 로컬 환경에서 구현할 수 있게 되었다.

[AI 음악 생성 모델 발전 타임라인]

2023 2024 2025 2026

| | | |

v v v v

┌──────────┐ ┌──────────────┐ ┌───────────────┐ ┌──────────────────┐

│ MusicGen │ │ Stable Audio │ │ ACE-Step v1 │ │ ACE-Step v1.5 │

│ MusicLM │ │ Suno v3 │ │ (3.5B, DCAE │ │ (Hybrid LM+DiT, │

│ AudioLDM │ │ Udio v1 │ │ + Linear DiT)│ │ DMD2, 4GB 미만) │

│ Riffusion│ │ JEN-1 │ │ DiffRhythm │ │ Suno v5 │

└──────────┘ └──────────────┘ └───────────────┘ └──────────────────┘

핵심 전환: 상업화 시작: 오픈소스 도약: 로컬 배포 시대:

- Autoregressive - Text-to-Song - Diffusion + DCAE - 4-8 step 생성

- Spectrogram - Vocal + BGM - Flow Matching - LoRA 개인화

기반 생성 - 다국어 가사 - REPA 학습 - 50+ 언어 지원

이 글에서는 ACE-Step의 아키텍처를 논문 기반으로 심층 분석하고, v1에서 v1.5로의 진화 과정, 경쟁 모델 비교, 핵심 기반 기술, 그리고 실전 활용법까지 포괄적으로 다룬다.

2. ACE-Step v1: 아키텍처 심층 분석

ACE-Step v1(arXiv:2506.00045)은 기존 음악 생성 모델의 근본적 한계를 극복하기 위해 설계되었다. LLM 기반 모델은 가사 정렬에 뛰어나지만 추론 속도가 느리고 구조적 아티팩트가 발생하며, Diffusion 모델은 빠른 합성이 가능하지만 장거리 구조적 일관성이 부족하다. ACE-Step은 이 두 접근법의 장점을 통합하는 **Diffusion + DCAE + Linear Transformer** 아키텍처를 채택했다.

2.1 전체 아키텍처 개요

ACE-Step v1의 핵심 구성 요소는 다음과 같다:

[ACE-Step v1 아키텍처]

┌─────────────────────────────────────────────┐

│ Conditioning Encoders │

│ │

│ ┌──────────┐ ┌──────────┐ ┌──────────────┐│

│ │ Text │ │ Lyric │ │ Speaker ││

│ │ Encoder │ │ Encoder │ │ Encoder ││

│ │(mT5-base)│ │(SongGen) │ │(PLR-OSNet) ││

│ │ frozen │ │trainable │ │ pre-trained ││

│ │ dim=768 │ │ │ │ dim=512 ││

│ └────┬─────┘ └────┬─────┘ └──────┬───────┘│

└───────┼────────────┼───────────────┼────────┘

│ │ │

└──────┬─────┘ │

│ cross-attention │

v v

┌───────────┐ ┌──────────────────────────────────────────────┐

│ │ │ Linear Diffusion Transformer (DiT) │

│ DCAE │ │ │

│ Encoder │───>│ ┌─────────────────────────────────────┐ │

│ (f8c8) │ │ │ 24 Transformer Blocks │ │

│ │ │ │ - AdaLN-single (shared params) │ │

│ mel-spec │ │ │ - Linear Attention │ │

│ → latent │ │ │ - 1D Conv FeedForward │ │

│ ~10.77Hz │ │ │ - Cross-Attention (text+lyric) │ │

│ │ │ │ - REPA at layer 8 │ │

└───────────┘ │ └─────────────────────────────────────┘ │

│ │

└──────────────────┬───────────────────────────┘

v

┌──────────────────────────────────────────────┐

│ DCAE Decoder │

│ latent → mel-spectrogram → waveform │

│ (Fish Audio Vocoder, 32kHz mono) │

└──────────────────────────────────────────────┘

2.2 Deep Compression AutoEncoder (DCAE)

ACE-Step의 첫 번째 핵심 혁신은 Sana(NVIDIA/MIT-HAN Lab)에서 제안된 **Deep Compression AutoEncoder(DCAE)**를 음악 도메인에 적용한 것이다. DCAE는 원래 고해상도 이미지 생성을 위해 설계되었으며, 32x~128x의 극도로 높은 공간 압축률을 달성하는 AutoEncoder 아키텍처다.

ACE-Step에서는 mel-spectrogram을 입력으로 받아 **8배 압축(f8c8, channel=8)**을 적용한다:

[DCAE 압축 과정]

Input: mel-spectrogram (44.1kHz/32kHz 오디오 → mel 변환)

┌─────────────────────────────────────────┐

│ DCAE Encoder │

│ - Residual Autoencoding │

│ - Space-to-Channel Transform │

│ - 8x temporal compression │

│ │

│ Output: latent space (~10.77Hz) │

│ 4분 음악 → ~2,584 latent tokens │

└─────────────────────────────────────────┘

▼ (DiT에서 생성/변환)

┌─────────────────────────────────────────┐

│ DCAE Decoder + Vocoder │

│ - latent → mel-spectrogram 복원 │

│ - Fish Audio Universal Music Vocoder │

│ - 출력: 32kHz mono waveform │

└─────────────────────────────────────────┘

**DCAE 학습 세부사항:**

| 항목 | 상세 |

| ------------------ | --------------------------------------------------------------- |

| 압축 설정 | f8c8 (8x compression, channel=8) |

| Temporal 해상도 | ~10.77Hz in latent space |

| 학습 하드웨어 | 120 NVIDIA A100 GPU |

| 학습 스텝 | 140,000 steps |

| 글로벌 배치 사이즈 | 480 (GPU당 4) |

| 학습 기간 | ~5일 |

| Discriminator | Patch-based, StyleGAN Disc2DRes, SwinDisc2D |

| 학습 전략 | Phase 1: MSE only / Phase 2: frozen encoder + MSE + adversarial |

| Vocoder | Fish Audio universal music vocoder (32kHz mono) |

| 재구성 FAD | 0.0224 |

논문에서는 32배 압축(f32)도 실험했으나 **허용 불가능한 품질 저하**가 발생하여 8배 압축을 최종 채택했다. 이는 음악 오디오가 이미지보다 시간적 디테일에 훨씬 민감하기 때문이다.

2.3 Conditioning Encoders: 다중 조건 인코딩

ACE-Step은 세 가지 전문 인코더를 통해 다양한 조건 정보를 모델에 주입한다:

2.3.1 Text Encoder (스타일/장르 프롬프트)

Text Encoder: Google mT5-base (frozen)

- 출력 차원: 768

- 최대 시퀀스 길이: 256 tokens

- 다국어 지원 (100+ 언어)

- 학습 중 동결(frozen) 상태 유지

프롬프트 예시:

prompt = "upbeat K-pop dance track with synth bass, 128 BPM, female vocal, major key"

mT5-base를 선택한 이유는 다국어 지원이 필수적이기 때문이다. 영어뿐 아니라 한국어, 일본어, 중국어 등 다양한 언어로 스타일 프롬프트를 입력할 수 있다.

2.3.2 Lyric Encoder (가사 인코딩)

[Lyric Encoder 처리 파이프라인]

원본 가사 입력 (한국어, 영어, 일본어 등)

비로마자 스크립트 → Grapheme-to-Phoneme 변환 → 음소 표현

XTTS VoiceBPE Tokenizer (다국어 지원)

SongGen 아키텍처 기반 Lyric Encoder (학습 가능)

최대 4,096 tokens의 가사 임베딩

Lyric Encoder는 **SongGen 아키텍처**를 기반으로 하며, Text Encoder와 달리 **학습 중 파라미터가 업데이트**된다. 이는 가사-음악 정렬(lyric alignment)이 음악 생성에서 가장 어려운 과제 중 하나이기 때문이다. 비로마자 스크립트(한글, 한자, 히라가나 등)는 Grapheme-to-Phoneme(G2P) 도구를 통해 음소 표현으로 변환된다.

2.3.3 Speaker Encoder (화자/음색 인코딩)

Speaker Encoder 구성

- 입력: 10초 분량의 반주 제거된 보컬 세그먼트 (demucs로 분리)

- 아키텍처: PLR-OSNet (원래 얼굴 인식용, 보컬 인식에 적용)

- 출력 차원: 512

- 학습 dropout: 50% (음색 과의존 방지)

- 전체 곡: 여러 세그먼트의 임베딩 평균화

Voice cloning 시나리오:

1. 레퍼런스 보컬 10초 세그먼트 입력

2. demucs로 반주 분리

3. Speaker Encoder로 512-dim 임베딩 추출

4. 생성 시 임베딩을 DiT에 조건으로 주입

Speaker Encoder의 50% dropout은 의도적인 설계 결정이다. 학습 중 절반의 확률로 화자 정보를 제거함으로써, 모델이 음색에 과도하게 의존하지 않고 **음악적 구조와 멜로디에도 충분히 집중**하도록 유도한다.

2.4 Linear Diffusion Transformer (DiT) 백본

ACE-Step의 생성 모델 핵심인 **Linear Diffusion Transformer**는 24개 블록으로 구성되며, 표준 attention 대신 **linear attention**을 사용하여 긴 시퀀스에서도 효율적으로 동작한다.

[DiT Block 구조 (x24)]

Input: noisy latent z_t + time embedding t

┌─────────────────────────────────┐

│ AdaLN-single │

│ (Simplified Adaptive LayerNorm)│

│ - 모든 블록에서 파라미터 공유 │

│ - time step t로 조건화 │

└────────────┬────────────────────┘

┌─────────────────────────────────┐

│ Linear Self-Attention │

│ - O(n) 복잡도 (표준 O(n²) 대비)│

│ - RoPE Position Encoding │

│ - 최대 2,584 mel latent tokens │

└────────────┬────────────────────┘

┌─────────────────────────────────┐

│ Cross-Attention │

│ - Text Encoder 출력 (768-dim) │

│ - Lyric Encoder 출력 │

│ - Speaker Encoder 출력 (512-d) │

│ → Concatenate & Attend │

└────────────┬────────────────────┘

┌─────────────────────────────────┐

│ 1D Convolutional FeedForward │

│ - 2D Conv에서 1D로 적응 │

│ - 시간축 오디오 시퀀스에 최적화 │

└────────────┬────────────────────┘

Output: denoised prediction

(Layer 8에서 REPA semantic alignment 추출)

**주요 아키텍처 결정:**

1. **AdaLN-single**: 모든 24개 블록에서 Adaptive Layer Normalization 파라미터를 공유하여 파라미터 효율성을 극대화한다. 이는 Sana에서 도입된 기법으로, 모델 크기 대비 성능 효율이 뛰어나다.

2. **Linear Attention**: 음악은 최대 4분까지의 긴 시퀀스를 다뤄야 하므로, O(n^2) 복잡도의 standard attention 대신 O(n) 복잡도의 linear attention을 채택했다. 이를 통해 2,584 tokens까지의 시퀀스를 효율적으로 처리한다.

3. **RoPE(Rotary Position Embedding)**: 상대적 위치 인코딩으로 다양한 길이의 음악에 대해 강건한 위치 정보를 제공한다.

4. **1D Convolutional FeedForward**: 원래 이미지용 2D Conv를 시간축 오디오 시퀀스에 맞게 1D로 적응시켰다. 이는 오디오의 시간적 연속성을 더 잘 포착한다.

2.5 Flow Matching 생성 프로세스

ACE-Step은 score-based diffusion 대신 **Flow Matching**을 채택했다. Flow Matching은 가우시안 노이즈에서 데이터 분포까지의 직선 경로(linear probability path)를 학습하여 더 빠른 수렴과 안정적인 학습을 가능하게 한다.

[Flow Matching 학습 과정]

시간 t ~ U[0, 1]

노이즈 z ~ N(0, I) 데이터 x₀ (DCAE latent)

│ │

└──────── 선형 보간 ─────────┘

z_t = (1-t)·z + t·x₀

┌──────────────────┐

│ DiT(z_t, t, c) │ ← conditioning c (text, lyric, speaker)

│ │

│ 예측 목표: │

│ v = x₀ - z │

│ (음의 상수 속도장)│

└────────┬─────────┘

L_FM = MSE(v_predicted, v_target)

추론 시:

z_0 ~ N(0, I) → ODE 풀기 → z_1 ≈ x₀ → DCAE Decoder → waveform

**손실 함수:**

L_Total = L_FM + λ_SSL × L_SSL

여기서:

- L_FM: Flow Matching 손실 (MSE)

- L_SSL: REPA Semantic Alignment 손실

- λ_SSL = 1.0 (학습 대부분)

→ mHuBERT 컴포넌트만 0.01로 감소 (마지막 100K 스텝)

3. REPA: 의미적 표현 정렬 학습

ACE-Step의 두 번째 핵심 혁신은 **REPA(Representation Alignment)** 기법이다. 사전 학습된 Self-Supervised Learning(SSL) 모델의 의미적 표현을 DiT 학습에 직접 활용하여, 빠른 수렴과 높은 의미적 충실도를 달성한다.

3.1 MERT와 mHuBERT의 역할

[REPA 학습 구조]

┌───────────────────────┐

│ DiT Layer 8 출력 │

│ (intermediate repr.) │

└───────────┬───────────┘

┌─────────────────┼─────────────────┐

│ │ │

▼ │ ▼

┌──────────────────┐ │ ┌──────────────────┐

│ MERT (frozen) │ │ │ mHuBERT (frozen) │

│ │ │ │ │

│ - 음악 표현 학습 │ │ │ - 다국어 음성 표현 │

│ - 1024×T_M dim │ │ │ - 768×T_H dim │

│ - 75Hz frame │ │ │ - 50Hz frame │

│ - 스타일/멜로디 │ │ │ - 가사/발음 정렬 │

│ 정확도 향상 │ │ │ 정확도 향상 │

└────────┬─────────┘ │ └────────┬─────────┘

│ │ │

▼ ▼ ▼

┌──────────────────────────────────────────────┐

│ L_SSL = avg(1 - cosine_sim(DiT_repr, SSL)) │

│ │

│ = 0.5 × L_MERT + 0.5 × L_mHuBERT │

└──────────────────────────────────────────────┘

| SSL 모델 | 역할 | 차원 | Frame Rate | 기여 |

| ----------- | ---------------- | ---------- | ---------- | ---------------------------- |

| MERT | 음악 이해 | 1024 x T_M | 75Hz | 스타일 정확도, 멜로디 일관성 |

| mHuBERT-147 | 다국어 음성 이해 | 768 x T_H | 50Hz | 가사 정렬, 발음 자연스러움 |

**MERT(Music Representation Transformer)**는 대규모 자기지도 학습으로 사전 훈련된 음악 이해 모델로, 음악의 스타일, 멜로디, 하모니 등의 고수준 의미를 포착한다. **mHuBERT-147**은 147개 언어를 지원하는 다국어 음성 표현 모델로, 가사와 발음의 의미적 정렬을 담당한다.

이 두 모델의 표현을 DiT의 8번째 레이어 출력과 정렬시킴으로써, ACE-Step은 음악적 의미(MERT)와 언어적 의미(mHuBERT)를 동시에 학습한다. 이는 **가사가 포함된 음악 생성에서 특히 중요**한데, 멜로디와 가사의 동기화(alignment)가 음악의 자연스러움을 결정하기 때문이다.

3.2 Conditional Dropout 전략

학습 중 조건 정보에 대한 dropout을 적용하여 모델의 강건성을 높인다:

| 조건 | Dropout 비율 | 목적 |

| -------------- | ------------ | ---------------------------------- |

| Text 프롬프트 | 15% | Classifier-Free Guidance(CFG) 지원 |

| Lyric (가사) | 15% | 가사 없는 인스트루멘탈 생성 지원 |

| Speaker (화자) | 50% | 음색 과의존 방지, 음악 구조에 집중 |

4. ACE-Step v1 학습 상세

4.1 학습 데이터

ACE-Step v1은 대규모 음악 데이터셋에서 학습되었다:

| 항목 | 상세 |

| ----------- | ----------------------------- |

| 총 데이터 | 1.8M 고유 악곡 (~100,000시간) |

| 언어 | 19개 언어 (영어 다수) |

| 품질 필터링 | Audiobox aesthetics toolkit |

| 제외 항목 | 저품질 녹음, 라이브 공연 |

**자동 어노테이션 파이프라인:**

[데이터 어노테이션 파이프라인]

원본 오디오 파일

├──> Qwen-omini 모델 → 스타일/장르 캡션 생성

├──> Whisper 3.0 → 가사 전사(transcription)

│ └──> LSH 기반 IPA-to-database 매핑으로 가사 정제

├──> "All-in-one" 음악 이해 모델 → 곡 구조(intro, verse, chorus 등)

├──> BeatThis → BPM 추출

├──> Essentia → Key/Scale, 스타일 태그 추출

└──> Demucs → 보컬/반주 분리 (Speaker Encoder 학습용)

4.2 학습 구성

학습은 **Pre-training + Fine-tuning** 2단계로 진행된다:

| 단계 | 데이터 | 스텝 수 | 특이사항 |

| ------------ | --------------- | ------- | --------------------------- |

| Pre-training | 전체 100K 시간 | 460,000 | 전체 데이터셋으로 기초 학습 |

| Fine-tuning | 고품질 20K 시간 | 240,000 | 큐레이션된 고품질 서브셋 |

**하이퍼파라미터:**

학습 환경

Hardware: 15 노드 × 8 NVIDIA A100 (총 120 GPU)

Global Batch Size: 120 (GPU당 1)

학습 기간: ~264시간 (약 11일)

옵티마이저

Optimizer: AdamW

Weight Decay: 1e-2

Betas: (0.8, 0.9)

Learning Rate: 1e-4

LR Schedule: Linear warm-up (4,000 steps)

Gradient Clipping: max norm 0.5

REPA 가중치

λ_SSL: 1.0 (전체 학습)

mHuBERT λ: 0.01 (마지막 100K 스텝에서 감소)

5. ACE-Step v1.5: Hybrid LM + DiT 진화

2026년 1월 공개된 ACE-Step v1.5(arXiv:2602.00744)는 v1의 아키텍처를 근본적으로 재설계했다. **Language Model을 구조적 플래너로 도입**하고, **Distribution Matching Distillation**으로 추론 스텝을 극적으로 줄이는 등 여러 혁신을 담고 있다.

5.1 Hybrid LM + DiT 아키텍처

[ACE-Step v1.5 아키텍처]

사용자 입력 (텍스트 프롬프트 + 가사)

┌──────────────────────────────────────────────────────────┐

│ Composer Agent (Language Model, Qwen 기반 ~1.7B) │

│ │

│ Chain-of-Thought 추론: │

│ 1. 메타데이터 생성 (BPM, Key, Duration, Structure) │

│ 2. 가사 정제 및 구조화 │

│ 3. 캡션/스타일 지시문 생성 │

│ 4. YAML 형식의 Song Blueprint 출력 │

│ │

│ ┌────────────────────────────────────────┐ │

│ │ bpm: 128 │ │

│ │ key: "C major" │ │

│ │ duration: 210 │ │

│ │ structure: │ │

│ │ - intro: 0-15s │ │

│ │ - verse1: 15-45s │ │

│ │ - chorus1: 45-75s │ │

│ │ - verse2: 75-105s ... │ │

│ │ style: "energetic K-pop with synth" │ │

│ └────────────────────────────────────────┘ │

└─────────────────────┬────────────────────────────────────┘

│ Song Blueprint

┌──────────────────────────────────────────────────────────┐

│ 1D VAE (Self-Learning Tokenizer) │

│ - 48kHz 스테레오 오디오 처리 │

│ - 64차원 latent space @ 25Hz │

│ - 1920x 압축률 │

│ - FSQ: 25Hz → 5Hz discrete codes (~64K codebook) │

│ - "Source Latent" 생성 (LM-DiT bridging) │

└─────────────────────┬────────────────────────────────────┘

┌──────────────────────────────────────────────────────────┐

│ Diffusion Transformer (DiT, ~2B parameters) │

│ - Source Latent + Blueprint 조건으로 acoustic rendering │

│ - DMD2 distillation: 50 steps → 4-8 steps │

│ - 200x speedup (240초 트랙을 ~1초에 생성, A100 기준) │

└──────────────────────────────────────────────────────────┘

v1.5의 가장 큰 변화는 **구조적 계획(structural planning)과 음향 렌더링(acoustic rendering)의 분리**다. Language Model이 음악의 전체 청사진을 먼저 설계하고, DiT는 이 청사진에 따라 실제 오디오를 생성하는 역할만 수행한다. 이를 통해 10분 이상의 장편 곡까지 일관된 구조를 유지할 수 있게 되었다.

5.2 Self-Learning Tokenizer

v1.5는 v1의 mel-spectrogram 기반 DCAE 대신 **1D VAE**를 사용하여 48kHz 스테레오 오디오를 직접 처리한다:

[v1 vs v1.5 오디오 처리 비교]

ACE-Step v1:

오디오 → mel-spectrogram → DCAE Encoder → latent (10.77Hz)

latent → DCAE Decoder → mel → Fish Audio Vocoder → 32kHz mono

ACE-Step v1.5:

오디오(48kHz stereo) → 1D VAE Encoder → latent (25Hz, 64-dim)

latent → FSQ → 5Hz discrete codes ("Source Latent")

DiT → latent → 1D VAE Decoder → 48kHz stereo

개선점:

- 32kHz mono → 48kHz stereo (음질 향상)

- mel-spectrogram 중간 단계 제거 (정보 손실 감소)

- 1920x 압축률로 near-lossless 품질 유지

1D VAE의 **Finite Scalar Quantization(FSQ)**은 연속적인 25Hz latent를 5Hz discrete code로 양자화한다. 이 discrete code가 **Source Latent**로서 Language Model과 DiT 사이의 다리 역할을 한다. Codebook 크기는 약 64K이며, 이 tokenizer는 DiT 학습과 함께 동시에 학습되는 self-learning 방식이다.

5.3 Distribution Matching Distillation (DMD2)

v1.5의 극적인 속도 향상의 핵심은 **DMD2(Distribution Matching Distillation)**다:

[DMD2 Distillation 과정]

Teacher Model (50-step DiT)

▼ Knowledge Distillation

Student Model (4-8 step DiT)

├── Dynamic-shift Strategy: {1, 2, 3} 스텝 샘플링

│ → 다양한 denoising 상태 노출로 과적합 방지

├── Distribution Matching Loss

│ → Teacher의 분포와 Student의 분포 정렬

└── 결과: 200x 속도 향상

- 50 steps → 4-8 steps

- A100에서 240초 음악을 ~1초에 생성

- RTF(Real-Time Factor) 극적 개선

5.4 Intrinsic Reinforcement Learning

v1.5는 생성 품질을 더욱 향상시키기 위해 **강화학습 기반 정렬(alignment)**을 도입했다:

[RL 기반 정렬 구조]

DiT 정렬:

├── DiffusionNTF 프레임워크

├── Attention Alignment Score (AAS)

│ → Cross-attention map의 합의도(consensus) 측정

└── 음향 품질과 텍스트 조건 준수 향상

LM 정렬:

├── Pointwise Mutual Information (PMI)

│ → 의미적 준수도(semantic adherence) 측정

└── Song Blueprint의 정확도 향상

최종 보상 가중치:

- 분위기(Atmosphere): 50%

- 가사(Lyrics): 30%

- 메타데이터(Metadata): 20%

5.5 데이터 및 학습 인프라

v1.5는 v1보다 훨씬 대규모의 데이터와 정교한 학습 전략을 사용한다:

**RL-Driven Annotation 파이프라인:**

[v1.5 데이터 어노테이션]

1. "Golden Set" 구축 (5M 샘플)

└── Gemini 2.5 Pro로 초기 어노테이션

2. Fine-tuning

└── Golden Set으로 Qwen2.5-Omni 파인튜닝

└── GRPO 최적화 → ACE-Captioner, ACE-Transcriber 생성

3. Reward Models 학습

└── 4M contrastive pairs로 학습

4. Progressive Curriculum (3단계)

├── Phase 1: Foundation Pre-training (20M 샘플)

├── Phase 2: Omni-task Fine-tuning (17M, stem-separated tracks 포함)

└── Phase 3: High-quality SFT (2M 큐레이션 샘플)

총 **27M 샘플**에 걸친 3단계 점진적 커리큘럼 학습은 모델이 기본적인 음악 생성 능력에서 시작하여 점차 전문적인 태스크를 학습하도록 설계되었다.

5.6 Omni-Task 프레임워크

v1.5의 또 다른 핵심 혁신은 **단일 모델로 다양한 음악 작업을 처리**하는 Omni-Task 프레임워크다:

| 태스크 | 설명 | 활용 시나리오 |

| ---------------- | ------------------------------ | ---------------- |

| Text-to-Music | 텍스트 프롬프트로 전체 곡 생성 | 작곡, 배경음악 |

| Cover Generation | 기존 곡의 스타일/음색 변환 | 커버곡 제작 |

| Repainting | 특정 구간 재생성/수정 | 부분 리미스 |

| Track Extraction | 보컬/반주 트랙 분리 | 믹싱, 리마스터링 |

| Layering | 다중 트랙 합성 | 편곡, 프로듀싱 |

| Completion | 미완성 곡 이어 작곡 | 공동 작곡 |

| Vocal-to-BGM | 보컬에서 반주 생성 | 카라오케 제작 |

이 모든 태스크는 **Source Latent와 Mask** 설정의 조합으로 구현되며, 별도의 모델 학습 없이 단일 모델에서 처리된다.

6. 성능 평가 및 벤치마크

6.1 추론 속도 비교

ACE-Step의 가장 극적인 장점은 **추론 속도**다:

| 모델 | RTF (RTX 4090) | 4분 곡 생성 시간 | 비고 |

| ----------------- | -------------- | ---------------- | ----------------- |

| **ACE-Step v1** | 15.63x | ~20초 (A100) | 실시간의 15.63배 |

| **ACE-Step v1.5** | - | 2초 미만 (A100) | DMD2 distillation |

| DiffRhythm | 10.03x | ~30초 | |

| Yue (LLM 기반) | 0.083x | ~48분 | 실시간보다 느림 |

ACE-Step v1은 LLM 기반 모델인 Yue 대비 **약 188배 빠르며**, v1.5는 distillation을 통해 v1 대비 추가로 **10배 이상** 빨라졌다.

**v1.5 하드웨어별 성능:**

| 하드웨어 | 전체 곡 생성 시간 | VRAM 요구량 |

| ------------------- | -------------------- | ----------- |

| NVIDIA A100 | 2초 미만 | - |

| RTX 3090 | 10초 미만 | 4GB 미만 |

| RTX 4090 | 5초 미만 (추정) | 4GB 미만 |

| AMD Radeon | 지원 (AMD 공식 협력) | 4GB 미만 |

| Apple Silicon (Mac) | 지원 | 4GB 미만 |

6.2 음악 품질 평가

ACE-Step은 다양한 자동 평가 메트릭과 인간 평가에서 경쟁력 있는 결과를 달성했다:

**자동 평가 (v1):**

| 메트릭 | ACE-Step v1 | 비교 모델(최고) | 설명 |

| --------------------- | ----------- | ---------------------- | ------------------------ |

| DCAE FAD | 0.0224 | DiffRhythm VAE: 0.0059 | 파형 재구성 품질 |

| Style Alignment | 상위권 | Udio v1 (최고) | CLAP + Mulan 기반 |

| Lyric Alignment | 강함 | Hailuo (최고) | Whisper Forced Alignment |

| SongEval Coherence | 경쟁적 | Suno v3 (최고) | 음악적 일관성 |

| SongEval Memorability | 강함 | - | 기억에 남는 멜로디 |

**자동 평가 (v1.5):**

| 메트릭 | ACE-Step v1.5 | Suno v5 | MinMax 2.0 |

| ------------------ | -------------------- | ------- | ---------- |

| AudioBox CU | **8.09** (최고) | - | - |

| AudioBox PQ | **8.35** (최고) | - | - |

| SongEval Coherence | **4.72** (공동 최고) | - | - |

| Style Alignment | 39.1 | 46.8 | 43.1 |

| Lyric Alignment | 26.3 | 34.2 | 29.5 |

v1.5는 AudioBox CU(8.09)와 PQ(8.35)에서 최고 점수를, SongEval Coherence(4.72)에서 공동 최고를 달성했다. Style/Lyric Alignment에서는 Suno v5에 미치지 못하지만, **오픈소스 모델 중에서는 압도적**이며, Music Arena 인간 평가에서는 Suno v4.5와 v5 사이에 위치한다.

**인간 평가 (v1, 32명 참여자):**

| 평가 항목 | 점수 (/100) |

| -------------------- | ----------- |

| Emotional Expression | ~85 |

| Innovativeness | ~82 |

| Sound Quality | ~80 |

| Musicality | ~78 |

7. AI 음악 생성 모델 비교 분석

7.1 주요 모델 개요

현재 AI 음악 생성 분야의 주요 모델들을 체계적으로 비교한다:

[AI 음악 생성 모델 분류]

┌─────────────────────────────────────────────────────────────────┐

│ 오픈소스 모델 │

├──────────────┬──────────────┬──────────────┬───────────────────┤

│ ACE-Step │ MusicGen │ Stable Audio│ Riffusion │

│ (v1, v1.5) │ (Meta) │ Open │ │

│ │ │ (Stability) │ │

│ Diffusion │ Autoregress │ Latent │ Image Diffusion │

│ + DCAE/VAE │ + EnCodec │ Diffusion │ → Spectrogram │

│ 3.5B params │ 1.5B/3.3B │ 1.1B │ ~1B │

├──────────────┴──────────────┴──────────────┴───────────────────┤

│ 상업 모델 │

├──────────────┬──────────────┬──────────────┬───────────────────┤

│ Suno │ Udio │ ElevenLabs │ Google MusicLM │

│ (v3→v5) │ (v1→v2) │ Eleven Music│ │

│ │ │ │ │

│ Full song │ Segment-by │ Licensed │ Experimental/ │

│ generation │ -segment │ commercial │ Instrumental │

│ pipeline │ composition │ use OK │ focus │

└──────────────┴──────────────┴──────────────┴───────────────────┘

7.2 상세 비교표

| 모델 | 개발사 | 파라미터 | 생성 방식 | 오디오 표현 | 최대 길이 | 가사 지원 | 오픈소스 |

| --------------------- | -------------------- | -------------- | ---------------------- | ------------------ | ------------- | ----------- | -------- |

| **ACE-Step v1** | ACE Studio + StepFun | 3.5B | Flow Matching + DiT | Mel DCAE latent | 4분 | O (다국어) | O |

| **ACE-Step v1.5** | ACE Studio + StepFun | ~3.7B (LM+DiT) | Hybrid LM + DiT + DMD2 | 1D VAE latent | 10분+ | O (50+언어) | O |

| **MusicGen** | Meta | 1.5B/3.3B | Autoregressive | EnCodec tokens | ~30초 | X | O |

| **Stable Audio Open** | Stability AI | 1.1B | Latent Diffusion | VAE latent | 47초 | X | O |

| **Riffusion** | Riffusion | ~1B | Image Diffusion | Spectrogram | 수 초 | X | O |

| **JEN-1** | Jen Music | - | AR + Non-AR hybrid | Raw waveform | ~30초 | X | X (부분) |

| **Suno** | Suno Inc. | 비공개 | 비공개 | 비공개 | 4분+ | O | X |

| **Udio** | Udio | 비공개 | 비공개 | 비공개 | 세그먼트 기반 | O | X |

| **MusicLM** | Google | 비공개 | AR + SoundStream | SoundStream tokens | ~30초 | X | X |

7.3 MusicGen (Meta)

Meta의 **MusicGen**은 오픈소스 음악 생성 모델의 선구자다. **EnCodec** 토크나이저를 기반으로 한 autoregressive transformer 모델이다.

[MusicGen 아키텍처]

텍스트 프롬프트 → T5 Encoder → Conditioning

┌──────────────────────────┐

│ Autoregressive Decoder │

│ (Transformer LM) │

│ │

│ EnCodec 4 codebooks │

│ 32kHz, 50Hz sampling │

│ │

│ Delay pattern으로 │

│ 다중 codebook 동시 생성 │

└──────────┬───────────────┘

┌──────────────────────────┐

│ EnCodec Decoder │

│ tokens → waveform │

└──────────────────────────┘

**장점:** 안정적인 인스트루멘탈 생성, 멜로디 컨디셔닝 지원

**한계:** 가사 지원 없음, ~30초 제한, 상대적으로 느린 autoregressive 생성

7.4 Suno vs ACE-Step

Suno는 현재 **상업적으로 가장 성공적인** AI 음악 생성 플랫폼이다:

| 비교 항목 | ACE-Step v1.5 | Suno v5 |

| --------------- | -------------------- | --------------- |

| 접근성 | 로컬 설치 (오픈소스) | 클라우드 서비스 |

| VRAM 요구 | 4GB 미만 | N/A (서버) |

| 곡 구조 | LM 기반 Blueprint | 엔드투엔드 |

| 커스터마이징 | LoRA 학습 가능 | 프롬프트만 |

| Style Alignment | 39.1 | 46.8 |

| Lyric Alignment | 26.3 | 34.2 |

| 가격 | 무료 (로컬) | 구독제 |

| 상업적 사용 | 라이선스 확인 필요 | 유료 플랜 |

Suno v5가 절대적 품질에서는 여전히 앞서지만, ACE-Step v1.5는 **로컬 배포, 커스터마이징, 비용 효율** 측면에서 강력한 대안이다.

7.5 Stable Audio Open

Stability AI의 **Stable Audio Open**은 latent diffusion 기반의 오픈소스 모델이다:

| 비교 항목 | ACE-Step v1.5 | Stable Audio Open |

| ----------- | ---------------------- | ------------------ |

| 최대 길이 | 10분+ | 47초 |

| 가사 지원 | O (50+언어) | X |

| 보컬 생성 | O (Voice Cloning 포함) | X (인스트루멘탈만) |

| 파라미터 | ~3.7B | 1.1B |

| 오디오 품질 | 48kHz stereo | 44.1kHz stereo |

ACE-Step이 길이, 가사, 보컬 등 거의 모든 면에서 우위를 보인다.

8. 음악 생성의 핵심 기반 기술

AI 음악 생성을 이해하기 위해 필수적인 기반 기술들을 심층 분석한다.

8.1 Audio Tokenization: 오디오를 이산 토큰으로

음악 생성 모델의 첫 번째 과제는 연속적인 오디오 신호를 모델이 처리할 수 있는 형태로 변환하는 것이다. 크게 세 가지 접근법이 있다:

[오디오 표현 방식 비교]

1. Spectrogram 기반

┌────────────────────────────────────────────┐

│ waveform → STFT → mel-spectrogram → 이미지 │

│ │

│ 장점: 시각화 용이, 이미지 모델 활용 가능 │

│ 단점: Phase 정보 손실, vocoder 필요 │

│ 사용: Riffusion, ACE-Step v1 (DCAE 입력) │

└────────────────────────────────────────────┘

2. Neural Audio Codec (이산 토큰)

┌────────────────────────────────────────────┐

│ waveform → Encoder → RVQ → discrete tokens │

│ tokens → Decoder → waveform │

│ │

│ 장점: 엔드투엔드, 높은 압축률 │

│ 단점: 장거리 의존성 약함 (acoustic tokens) │

│ 사용: MusicGen (EnCodec), MusicLM (SStream) │

└────────────────────────────────────────────┘

3. Continuous Latent (VAE)

┌────────────────────────────────────────────┐

│ waveform → VAE Encoder → continuous latent │

│ latent → VAE Decoder → waveform │

│ │

│ 장점: Diffusion과 자연스럽게 결합 │

│ 단점: 압축률과 품질의 트레이드오프 │

│ 사용: ACE-Step v1.5 (1D VAE), Stable Audio │

└────────────────────────────────────────────┘

8.2 EnCodec과 SoundStream

**EnCodec**(Meta)과 **SoundStream**(Google)은 Neural Audio Codec의 대표 모델이다:

[EnCodec / SoundStream 아키텍처]

Input: raw waveform (24kHz/48kHz)

┌─────────────────────────────────┐

│ Encoder (1D Conv + LSTM) │

│ → continuous embeddings │

└────────────┬────────────────────┘

┌─────────────────────────────────┐

│ Residual Vector Quantization │

│ (RVQ) │

│ │

│ Codebook 1 → 가장 중요한 정보 │

│ Codebook 2 → 잔차(residual) │

│ Codebook 3 → 더 세밀한 잔차 │

│ ... │

│ Codebook N → 최종 잔차 │

│ │

│ 각 codebook: 1024 entries │

│ sampling rate: 50Hz/75Hz │

└────────────┬────────────────────┘

┌─────────────────────────────────┐

│ Decoder (1D TransposeConv) │

│ → reconstructed waveform │

└─────────────────────────────────┘

학습: Reconstruction Loss + Adversarial Loss

(Multi-scale discriminator)

**EnCodec vs SoundStream:**

| 항목 | EnCodec | SoundStream |

| ----------- | ----------------------------------------- | ---------------- |

| 개발사 | Meta | Google |

| 핵심 혁신 | Multi-scale discriminator, loss balancing | RVQ 도입 |

| 샘플 레이트 | 24kHz/48kHz | 24kHz |

| 비트레이트 | 1.5~24 kbps | 3~18 kbps |

| 활용 모델 | MusicGen, AudioGen | AudioLM, MusicLM |

| 오픈소스 | O | X |

8.3 Diffusion for Audio

Diffusion 모델의 오디오 적용은 이미지 도메인에서의 성공을 기반으로 한다:

[오디오 Diffusion 학습]

Forward Process (노이즈 추가):

x₀ (원본 오디오 latent)

→ x₁ → x₂ → ... → x_T (순수 가우시안 노이즈)

x_t = √(ᾱ_t) · x₀ + √(1-ᾱ_t) · ε, ε ~ N(0,I)

Reverse Process (노이즈 제거, 학습 대상):

x_T (노이즈) → x_{T-1} → ... → x₀ (생성된 오디오 latent)

p_θ(x_{t-1}|x_t) = N(x_{t-1}; μ_θ(x_t, t), σ²I)

Loss: L = E_{t,x₀,ε} [||ε - ε_θ(x_t, t, c)||²]

(c = conditioning: text, melody, etc.)

ACE-Step v1은 표준 Diffusion 대신 **Flow Matching**을 사용하는데, 이는 직선 경로를 사용하여 더 적은 스텝으로 수렴하고 학습이 안정적이라는 장점이 있다. v1.5는 여기에 **DMD2 distillation**을 추가하여 4~8 스텝만으로 고품질 생성을 달성한다.

8.4 Classifier-Free Guidance (CFG)

모든 조건부 생성 모델에서 핵심적인 기법인 **CFG**는 ACE-Step에서도 사용된다:

[CFG 적용]

ε_guided = ε_uncond + w × (ε_cond - ε_uncond)

여기서:

- ε_cond: 조건(text, lyric, speaker) 포함 예측

- ε_uncond: 조건 제거 예측 (dropout으로 학습)

- w: guidance scale (높을수록 조건 준수, 다양성 감소)

ACE-Step의 15% text/lyric dropout, 50% speaker dropout은

바로 이 CFG를 위한 unconditional 학습을 가능하게 한다.

9. 실전 활용 가이드

9.1 ACE-Step v1.5 로컬 설치

ACE-Step v1.5는 놀라울 정도로 간단한 설치 과정을 제공한다:

1. uv 패키지 매니저 설치

curl -LsSf https://astral.sh/uv/install.sh | sh

2. 저장소 클론 및 의존성 설치

git clone https://github.com/ACE-Step/ACE-Step-1.5.git

cd ACE-Step-1.5

uv sync

3. Gradio UI 실행 (웹 인터페이스)

uv run acestep

→ http://localhost:7860 에서 접속

4. 또는 REST API 서버 실행

uv run acestep-api

→ http://localhost:8001 에서 API 사용

5. 환경 설정 (선택)

cp .env.example .env

.env 파일에서 모델 경로, 포트, GPU 설정 등 커스터마이징

**지원 하드웨어:**

- NVIDIA GPU (CUDA): RTX 20xx 이상 권장

- AMD GPU (ROCm): AMD 공식 협력으로 최적화

- Intel GPU: 지원

- Apple Silicon (Mac): MPS 백엔드 지원

모델은 **첫 실행 시 자동 다운로드**되며, 4GB 미만의 VRAM으로 동작한다.

9.2 텍스트-투-뮤직 기본 사용법

API를 통한 음악 생성 예시 (개념적 코드)

기본 텍스트-투-뮤직 생성

response = requests.post("http://localhost:8001/generate", json={

"prompt": "밝고 경쾌한 K-pop 댄스 트랙, 신스 베이스와 일렉트로닉 비트, "

"128 BPM, 여성 보컬, C 메이저",

"lyrics": """

[Verse 1]

오늘 밤 빛나는 별처럼

우리 함께 춤을 춰요

음악이 흐르는 이 순간

멈추지 않을 거예요

[Chorus]

라라라 빛나는 밤

라라라 함께하는 시간

이 순간이 영원하길

""",

"duration": 180, # 3분

"num_inference_steps": 8, # DMD2 distilled

"guidance_scale": 7.0,

"seed": 42

})

결과 오디오 저장

with open("output.wav", "wb") as f:

f.write(response.content)

9.3 프롬프트 작성 가이드

효과적인 프롬프트 작성은 생성 품질에 직접적인 영향을 미친다:

[효과적인 프롬프트 구조]

1. 장르/스타일 : "indie folk ballad", "aggressive metal", "lo-fi hip-hop"

2. 악기 구성 : "acoustic guitar, soft piano, light percussion"

3. 분위기/감정 : "melancholic", "uplifting", "dreamy"

4. 템포(BPM) : "slow tempo 70 BPM", "fast 140 BPM"

5. 조성 : "minor key", "E flat major"

6. 보컬 특성 : "female vocal, breathy", "male baritone, powerful"

7. 프로덕션 스타일 : "lo-fi with vinyl crackle", "clean studio production"

[좋은 프롬프트 예시]

"Dreamy shoegaze rock with layers of reverbed electric guitars,

ethereal female vocal, 90 BPM, D minor, lo-fi production

with tape saturation and subtle noise"

[가사 포맷]

- [Verse], [Chorus], [Bridge], [Intro], [Outro] 태그 사용

- 각 섹션을 명확히 구분

- 한 줄에 한 프레이즈

9.4 LoRA 개인화 학습

ACE-Step v1.5의 강력한 기능 중 하나는 **소량의 곡으로 자신만의 스타일을 학습**할 수 있는 LoRA 지원이다:

[LoRA 학습 과정]

1. 데이터 준비

├── 최소 3-5곡의 레퍼런스 음악

├── 각 곡의 텍스트 프롬프트(캡션)

└── (선택) 가사 파일

2. Gradio UI에서 LoRA Training 탭 접근

├── 오디오 파일 업로드

├── 캡션 입력

├── 학습 파라미터 설정

│ ├── Learning Rate: ~1e-4

│ ├── Epochs: 50-200

│ └── LoRA Rank: 8-64

└── 학습 시작

3. 학습된 LoRA 적용

├── 생성 시 LoRA 가중치 로드

├── LoRA Scale 조절 (0.0~1.0)

└── 기존 프롬프트와 결합하여 스타일 적용

이를 통해 특정 아티스트의 프로덕션 스타일, 특정 장르의 뉘앙스, 또는 자신만의 작곡 스타일을 모델에 반영할 수 있다.

9.5 ComfyUI 통합

ACE-Step 1.5는 **ComfyUI**와의 통합도 지원하여, 노드 기반 워크플로우에서 음악 생성을 시각적으로 구성할 수 있다:

[ComfyUI ACE-Step 워크플로우 예시]

┌──────────┐ ┌──────────────┐ ┌──────────────┐

│ Text │────>│ ACE-Step │────>│ Audio │

│ Prompt │ │ Generator │ │ Preview │

└──────────┘ │ │ └──────────────┘

│ │

┌──────────┐ │ │ ┌──────────────┐

│ Lyrics │────>│ │────>│ Save WAV │

│ Input │ │ │ │ Node │

└──────────┘ └──────────────┘ └──────────────┘

10. 윤리적 고려사항과 법적 문제

10.1 저작권 현황 (2025~2026)

AI 음악 생성의 저작권 문제는 현재 가장 뜨거운 법적 이슈 중 하나다:

**주요 판결 및 동향:**

| 시기 | 사건 | 영향 |

| ----------- | ------------------------------------------------------ | ------------------------------------ |

| 2025년 1월 | US Copyright Office: 100% AI 생성 콘텐츠 저작권 불인정 | Public domain 판정 |

| 2025년 3월 | US 항소법원: AI 생성 작품 저작권 보호 거부 확정 | 법적 선례 확립 |

| 2025년 9월 | Warner Music + Suno 합의 | Suno, 라이선스 기반 모델로 전환 합의 |

| 2025년 11월 | UMG + Udio 합의 | 유사한 라이선스 전환 합의 |

| 2025년 8월 | ElevenLabs Eleven Music 출시 | 최초 합법적 상업 라이선스 AI 음악 |

| 2026년 1월 | UMG vs Anthropic (\$3B) | 20,000+곡 학습 데이터 저작권 소송 |

10.2 "의미 있는 인간 저작성(Meaningful Human Authorship)" 원칙

US Copyright Office는 AI 보조 작품에 대해 **"의미 있는 인간 저작성"**이 있는 경우 저작권을 인정할 수 있다는 가이드라인을 발표했다:

[AI 음악의 저작권 인정 가능성 스펙트럼]

완전 AI 생성 완전 인간 창작

←──────────────────────────────────────→

│ │ │

저작권 불인정 판단 필요 영역 저작권 인정

인간이 능동적으로:

- 멜로디 수정

- 가사 작성

- 구조 편곡

- AI 출력 선별/편집

→ "의미 있는 인간 저작성"

→ 저작권 인정 가능

10.3 오픈소스 모델의 윤리적 고려

ACE-Step 같은 오픈소스 모델은 추가적인 윤리적 고려가 필요하다:

1. **학습 데이터 출처**: ACE-Step의 학습 데이터 1.8M곡(v1) / 27M 샘플(v1.5)의 저작권 상태는 논문에서 명확히 공개되지 않았다. 사용자는 생성된 음악의 상업적 활용 시 법적 리스크를 인지해야 한다.

2. **Voice Cloning 남용**: Speaker Encoder를 통한 보이스 클로닝 기능은 특정 아티스트의 음성을 무단으로 복제하는 데 악용될 수 있다. 레퍼런스 보컬의 권리자 동의 없는 클로닝은 윤리적, 법적으로 문제가 된다.

3. **딥페이크 음악**: AI가 특정 아티스트의 "새 곡"을 생성하는 딥페이크 음악은 이미 사회적 문제로 대두되고 있다. ACE-Step의 Cover Generation 기능도 이러한 맥락에서 책임 있는 사용이 요구된다.

4. **음악 산업 영향**: AI 음악 생성 기술의 대중화는 직업 음악가, 작곡가, 프로듀서의 생계에 직접적 영향을 미칠 수 있다. 기술 발전과 창작자 보호의 균형이 필요하다.

10.4 책임 있는 사용을 위한 가이드라인

[AI 음악 생성 책임 있는 사용 원칙]

1. 투명성: AI가 생성/보조한 음악임을 명시

2. 동의: Voice Cloning 시 원 아티스트 동의 확보

3. 귀속: AI 도구와 인간 기여를 명확히 구분

4. 상업적 사용: 관련 법규와 라이선스 조건 준수

5. 교육: AI 도구를 음악 교육/학습의 보조 도구로 활용

6. 공정 사용: 기존 음악의 스타일 모방과 복제의 구분

11. 주요 논문 레퍼런스

ACE-Step과 AI 음악 생성 분야의 핵심 논문들을 정리한다:

11.1 ACE-Step 관련

| 논문 | 저자 | 연도 | 핵심 기여 |

| -------------------------------------------------------------------- | ------------- | ---- | --------------------------------- |

| ACE-Step: A Step Towards Music Generation Foundation Model | Gong et al. | 2025 | DCAE + Linear DiT + REPA |

| ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation | ACE-Step Team | 2026 | Hybrid LM+DiT, DMD2, RL alignment |

11.2 기반 기술

| 논문 | 핵심 기여 | 활용 |

| ------------------------------------------------ | ---------------------------------- | ---------------------- |

| Deep Compression Autoencoder (Chen et al., 2024) | 고압축률 AutoEncoder | ACE-Step DCAE |

| MERT (Li et al., 2024) | 자기지도 음악 표현 학습 | ACE-Step REPA |

| mHuBERT-147 (Lee et al., 2024) | 다국어 음성 표현 | ACE-Step REPA |

| Flow Matching (Lipman et al., 2023) | ODE 기반 생성 모델 | ACE-Step 생성 프로세스 |

| DMD2 (Yin et al., 2024) | Distribution Matching Distillation | ACE-Step v1.5 speedup |

11.3 경쟁 모델 논문

| 논문 | 저자/기관 | 연도 | 핵심 기여 |

| -------------------------------------------------- | --------------------------- | ---- | --------------------------- |

| MusicGen: Simple and Controllable Music Generation | Copet et al. (Meta) | 2023 | EnCodec + AR Transformer |

| MusicLM: Generating Music from Text | Agostinelli et al. (Google) | 2023 | SoundStream + AR |

| Stable Audio Open | Evans et al. (Stability AI) | 2024 | Latent Diffusion for Audio |

| Riffusion | Forsgren & Martiros | 2022 | Spectrogram Image Diffusion |

| JEN-1: Text-Guided Universal Music Generation | Li et al. | 2023 | AR + Non-AR hybrid |

| DiffRhythm | - | 2025 | 1D VAE + Flow DiT |

| SongGen | - | 2025 | 가사 인코딩 아키텍처 |

11.4 Audio Tokenization

| 논문 | 저자/기관 | 연도 | 핵심 기여 |

| ----------------------------------------------- | ------------------------- | ---- | -------------------------- |

| EnCodec: High Fidelity Neural Audio Compression | Defossez et al. (Meta) | 2022 | RVQ + Multi-scale Disc |

| SoundStream: An End-to-End Neural Audio Codec | Zeghidour et al. (Google) | 2021 | RVQ 도입 |

| WavTokenizer | Peng et al. | 2025 | 40/75 tokens/sec SOTA |

| AudioLM: A Language Modeling Approach to Audio | Borsos et al. (Google) | 2023 | Semantic + Acoustic tokens |

12. 미래 전망

12.1 기술 발전 방향

AI 음악 생성 기술은 다음과 같은 방향으로 발전할 것으로 전망된다:

[AI 음악 생성 기술 발전 로드맵]

2026 현재 2027 예상 2028+ 장기

│ │ │

▼ ▼ ▼

┌──────────────┐ ┌──────────────┐ ┌──────────────────┐

│ 현재 상태 │ │ 단기 발전 │ │ 장기 비전 │

│ │ │ │ │ │

│ • 4분 곡 생성 │ → │ • 앨범 단위 │ → │ • 실시간 인터랙티브│

│ • 텍스트 조건 │ │ 일관된 생성 │ │ 음악 생성 │

│ • LoRA 개인화 │ │ • 멀티트랙 │ │ • 감정 인식 기반 │

│ • Voice Clone│ │ 동시 생성 │ │ 적응형 음악 │

│ • 50+ 언어 │ │ • 실시간 │ │ • 영상-음악 동기 │

│ │ │ 스트리밍 생성 │ │ • 완전 자동 프로덕션│

└──────────────┘ └──────────────┘ └──────────────────┘

12.2 ACE-Step의 Foundation Model 비전

ACE-Step 프로젝트의 궁극적 비전은 "**음악 AI의 Stable Diffusion**"이 되는 것이다. 이는 단순한 텍스트-투-뮤직 파이프라인이 아니라, 다양한 하위 태스크를 그 위에 구축할 수 있는 **범용 Foundation Model**을 의미한다:

[ACE-Step Foundation Model 생태계 비전]

┌─────────────────────────┐

│ ACE-Step Foundation │

│ Model (Base) │

└──────────┬──────────────┘

┌────────────────────┼────────────────────┐

│ │ │

▼ ▼ ▼

┌──────────────┐ ┌──────────────┐ ┌──────────────────┐

│ Text-to- │ │ Audio │ │ Music │

│ Music │ │ Editing │ │ Understanding │

│ Generation │ │ & Remixing │ │ & Analysis │

└──────────────┘ └──────────────┘ └──────────────────┘

│ │ │

▼ ▼ ▼

┌──────────────┐ ┌──────────────┐ ┌──────────────────┐

│ LoRA │ │ Voice │ │ Stem │

│ Style │ │ Cloning │ │ Separation │

│ Transfer │ │ & TTS │ │ & Transcription │

└──────────────┘ └──────────────┘ └──────────────────┘

이 비전이 실현되면, 음악 프로듀서, 영상 제작자, 게임 개발자, 교육자 등 다양한 사용자가 **로컬 환경에서 상업 품질의 음악을 생성하고 편집**할 수 있게 된다.

12.3 산업 영향 전망

1. **음악 프로듀싱의 민주화**: 4GB VRAM으로 상업 품질 음악을 생성할 수 있다는 것은 음악 제작의 진입 장벽이 극적으로 낮아짐을 의미한다.

2. **하이브리드 워크플로우**: AI가 초안을 생성하고 인간이 정제하는 **AI-Human 협업** 워크플로우가 표준이 될 것이다. ACE-Step의 Repainting, Completion, Track Extraction 기능은 이러한 워크플로우에 최적화되어 있다.

3. **개인화된 음악 경험**: LoRA를 통한 개인화 학습은 각 사용자의 취향에 맞춘 음악 생성을 가능하게 한다. 이는 게임, 명상 앱, 피트니스 앱 등에서 **동적으로 생성되는 맞춤형 음악**으로 이어질 것이다.

4. **법적 프레임워크 정립**: 2025~2026년의 소송과 합의를 거쳐, AI 음악 생성에 대한 **명확한 법적 프레임워크**가 점차 형성될 것이다. ElevenLabs의 라이선스 기반 접근법이 하나의 모델이 될 수 있다.

13. 결론

ACE-Step은 AI 음악 생성 분야에서 **오픈소스와 상업 모델의 격차를 극적으로 줄인** 이정표적 모델이다. v1의 DCAE + Linear DiT + REPA 아키텍처는 3.5B 파라미터에서 LLM 기반 모델 대비 188배 빠른 추론을 달성했고, v1.5의 Hybrid LM + DiT + DMD2 아키텍처는 A100에서 2초 미만, 4GB 미만 VRAM이라는 경이적인 효율성을 실현했다.

핵심적인 기술적 기여를 요약하면:

1. **DCAE의 음악 도메인 적용**: 8배 압축으로 10.77Hz 시간 해상도를 유지하면서 고품질 재구성 달성

2. **REPA 학습**: MERT + mHuBERT를 통한 음악적/언어적 의미 정렬로 빠른 수렴과 높은 충실도

3. **Hybrid LM + DiT**: 구조적 계획과 음향 렌더링의 분리로 10분 이상의 장편 곡 지원

4. **DMD2 Distillation**: 50 스텝을 4~8 스텝으로 압축, 200배 속도 향상

5. **Omni-Task 프레임워크**: 단일 모델로 텍스트-투-뮤직, 커버, 리페인팅, 트랙 분리 등 다양한 태스크 수행

물론 Style/Lyric Alignment에서 Suno v5 같은 최상위 상업 모델과의 격차는 여전히 존재한다. 그러나 ACE-Step이 제시하는 **오픈소스, 로컬 배포, 개인화 가능**이라는 가치는 상업 모델이 제공할 수 없는 고유한 장점이다. 음악 AI의 "Stable Diffusion 모멘트"를 향한 ACE-Step의 여정은 이제 막 시작되었다.

References

- Gong, J., Zhao, S., Wang, S., Xu, S., & Guo, J. (2025). ACE-Step: A Step Towards Music Generation Foundation Model. _arXiv:2506.00045_. https://arxiv.org/abs/2506.00045

- ACE-Step Team. (2026). ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation. _arXiv:2602.00744_. https://arxiv.org/abs/2602.00744

- Chen, J. et al. (2024). Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models. _arXiv:2410.10733_. https://arxiv.org/abs/2410.10733

- Copet, J. et al. (2023). Simple and Controllable Music Generation. _NeurIPS 2023_. https://arxiv.org/abs/2306.05284

- Agostinelli, A. et al. (2023). MusicLM: Generating Music From Text. _arXiv:2301.11325_. https://arxiv.org/abs/2301.11325

- Defossez, A. et al. (2022). High Fidelity Neural Audio Compression. _arXiv:2210.13438_. https://arxiv.org/abs/2210.13438

- Zeghidour, N. et al. (2021). SoundStream: An End-to-End Neural Audio Codec. _arXiv:2107.03312_. https://arxiv.org/abs/2107.03312

- Li, Y. et al. (2024). MERT: Acoustic Music Understanding Model with Large-Scale Self-Supervised Training. _ICLR 2024_.

- Lee, R. et al. (2024). mHuBERT-147: A Compact Multilingual HuBERT Model. _Interspeech 2024_.

- Lipman, Y. et al. (2023). Flow Matching for Generative Modeling. _ICLR 2023_.

- Yin, T. et al. (2024). One-step Diffusion with Distribution Matching Distillation. _CVPR 2024_.

- Evans, Z. et al. (2024). Stable Audio Open. _arXiv:2407.14358_.

- Li, P. et al. (2023). JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models. _arXiv:2308.04729_.

- ACE-Step GitHub (v1): https://github.com/ace-step/ACE-Step

- ACE-Step GitHub (v1.5): https://github.com/ace-step/ACE-Step-1.5

- ACE-Step Hugging Face: https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B

현재 단락 (1/801)

AI 음악 생성(AI Music Generation) 분야는 2024~2025년을 기점으로 폭발적인 발전을 이루었다. Meta의 MusicGen, Google의 MusicLM, 그...

작성 글자: 0원문 글자: 29,133작성 단락: 0/801