Skip to content

✍️ 필사 모드: AI 음악 생성 2026 — Suno · Udio · Stable Audio · MusicGen · Mubert · ElevenLabs · Lyria, 어디까지 왔나

한국어
0%
정확도 0%
💡 왼쪽 원문을 읽으면서 오른쪽에 따라 써보세요. Tab 키로 힌트를 받을 수 있습니다.

프롤로그 — 2년 만에 무엇이 바뀌었나

2023년 여름, AI로 만든 음악은 장난감이었다. 한 줄짜리 멜로디, 어색한 박자, 보컬은 없거나 아예 알아들을 수 없었다. Meta의 MusicGen이 오픈소스로 공개됐을 때 사람들은 "재밌네"라고 말했지 "이걸로 곡을 쓰겠다"고 말하진 않았다.

2024년 봄, Suno가 v3를 내고 Udio가 베타를 열었을 때 분위기가 달라졌다. 텍스트 한 줄로 보컬이 있는 2분짜리 곡이 나왔다. 어색한 곳이 있었지만 "어, 이거 진짜네" 소리가 처음 나왔다. 같은 해 6월, RIAA(미국음반산업협회)는 Suno와 Udio를 상대로 대규모 저작권 침해 소송을 제기했다. 산업이 진지하게 본다는 증거였다.

2026년 5월 지금, 풍경이 다시 바뀌었다. Suno는 v5.5에서 사용자의 목소리를 클로닝하고 개인화 모델을 제공한다. Udio는 Universal · Warner · Kobalt · Merlin과 차례로 라이선싱 합의를 했다. Google은 Riffusion의 후신 ProducerAI를 인수해 Lyria 3로 통합했다. ElevenLabs는 음성 대신 음악으로 카테고리를 확장했다. 오픈소스 쪽에서는 YuE, ACE-Step, DiffRhythm처럼 보컬까지 다루는 풀송 모델이 4090 한 장으로 돌아간다.

그런데도 — 보컬은 여전히 가장 어렵다. 한국어 가사는 영어보다 어색하다. 4분 이상은 일관성이 무너진다. 상업적으로 안전한 출력을 보장하는 모델은 아직 손에 꼽는다. 그리고 RIAA의 Suno 소송은 2026년 7월에 약식 판결 심리가 잡혀 있다.

이 글은 그 풍경을 정리한다. 어떤 도구가 어떤 일에 맞는지, 보컬이 왜 어려운지, 오픈소스가 어디까지 왔는지, 소송이 어떻게 흘러가는지, 인디 게임 사운드트랙·팟캐스트 인트로·유튜브 BGM·작곡 아이디에이션에서 실제로 어떻게 쓰는지를 본다. AI가 음악을 망친다는 식의 글도, AI가 음악을 구원한다는 식의 글도 아니다.

핵심 한 줄: 2026년의 AI 음악은 "사람을 대체"가 아니라 "이전엔 못 만들던 사람이 만들기 시작"의 도구다. 그 경계를 알면 선택이 쉬워진다.


1장 · 카테고리의 탄생 — 2023~2024년 사이에 무슨 일이 있었나

1.1 두 갈래의 기원

AI 음악 생성은 두 갈래의 기술 계보가 합쳐진 결과다.

갈래 1: 자기회귀 토큰 모델. 텍스트 LLM처럼 오디오를 토큰화해 다음 토큰을 예측한다. Meta의 MusicGen(2023년), Google의 MusicLM(2023년), Suno의 초기 버전이 이 계열이다. 학습은 EnCodec 같은 뉴럴 오디오 코덱으로 오디오를 압축해 토큰으로 만든 뒤, 트랜스포머가 그 시퀀스를 학습한다.

갈래 2: 디퓨전 기반 오디오. 이미지 디퓨전(Stable Diffusion)의 아키텍처를 오디오에 적용한다. Stable Audio(Stability AI)가 대표적이다. Riffusion은 더 영리한 트릭을 썼다 — 오디오를 스펙트로그램(주파수 이미지)으로 바꾼 뒤 이미지 디퓨전을 돌렸다. 결과 이미지를 다시 오디오로 되돌리면 음악이 나온다.

2024년 들어 두 갈래가 섞이고 보컬 합성이 결합된다. Suno와 Udio의 진짜 도약은 "텍스트에서 보컬과 가사가 있는 풀송"을 만들었다는 점이다. 그 이전까지는 거의 모두 인스트루멘털(반주)이었다.

1.2 왜 갑자기 좋아졌나

세 가지 변수가 동시에 움직였다.

  1. 데이터. 라이선싱된 대형 음악 카탈로그(혹은 — 소송이 주장하는 대로 — 스크래핑된 카탈로그)를 학습에 쓸 수 있게 됐다. MusicGen은 약 20,000시간의 라이선싱된 음악으로 학습됐다.
  2. 컴퓨트. H100/H200 클러스터로 멀티빌리언 파라미터 오디오 모델을 합리적 시간 안에 학습할 수 있게 됐다.
  3. 아키텍처. 뉴럴 오디오 코덱(EnCodec, SoundStream)이 오디오를 LLM처럼 다룰 수 있는 토큰으로 압축하는 길을 열었다.

이 셋이 갖춰지자 텍스트 LLM이 한 일 — "그럴듯한 다음 토큰 예측" — 이 음악에도 가능해졌다.

1.3 RIAA의 폭탄 — 2024년 6월

2024년 6월 24일, 미국음반산업협회(RIAA)는 Universal · Warner · Sony를 대리해 Suno(매사추세츠 연방 지방법원)와 Udio(뉴욕 남부 지방법원)를 상대로 두 건의 저작권 침해 소송을 제기했다. 핵심 주장은 "허가 없이 저작권 보호된 음반을 학습 데이터로 썼다"는 것이다. 양사의 변호는 "변혁적 공정 이용(transformative fair use)"이다.

이 소송은 단순한 분쟁이 아니다. AI 음악 카테고리 전체의 상업적 운명을 결정한다. 학습 데이터가 위법이라는 판결이 나오면 모델 재학습이 필요해지고, 출력의 라이선싱 구조 자체가 바뀐다. 그래서 2025년 말부터 합의의 물결이 시작됐다.


2장 · 컨슈머 도구 — Suno · Udio · Lyria · ElevenMusic

2.1 Suno — 카테고리 리더

2026년 5월 시점에서 가장 많이 쓰이는 텍스트-투-송 도구는 Suno다. v3(2024 초), v4(2025), v5(2025 말), v5.5(2026년 3월 26일)로 빠르게 진화했다.

v5.5의 핵심은 세 가지다.

  • Voices. 사용자가 자기 목소리를 30초 정도 녹음해 등록하면 AI가 그 음색으로 노래한다. Pro · Premier 구독자 한정. 기본은 비공개.
  • Custom Models. 자기 카탈로그(예: 본인이 만든 곡들)를 업로드해 v5.5를 그 스타일로 파인튠한다. 최대 3개까지.
  • Studio. 보컬 · 베이스 · 드럼 · 하모니 · 인스트루멘트의 스템(stem)을 분리 트랙으로 받는다. DAW로 들고 가서 후처리할 수 있다.

품질은? 영어 가사, 팝/록/일렉트로닉/포크 같은 메인스트림 장르라면 처음 듣는 사람은 사람이 만들었다고 믿을 수준이다. 한국어 가사는 발음과 운율이 어색해진다(2025년부터 꾸준히 좋아지지만 영어보단 약하다). 재즈 솔로 즉흥이나 클래식 오케스트레이션처럼 구조가 복잡한 장르는 아직 약하다.

상업적 라이선싱은 Pro 구독 이상에서 명시적으로 허용된다. 다만 RIAA 소송이 진행 중인 이상 "100% 안전"을 광고하긴 어렵다.

2.2 Udio — 사운드의 다른 미학

Udio는 Google DeepMind 출신 연구자들이 2023년 12월에 창업한 회사다. CEO는 David Ding. 시드 라운드($10M, 2024년 4월)에 Andreessen Horowitz가 리드했고, Instagram 공동창업자 Mike Krieger, will.i.am, Common 같은 음악계 인사가 참여했다.

Udio의 결과물은 Suno와 미묘하게 다르다. 일반적으로 Suno가 더 "팝적"이고 매끈하다면, Udio는 좀 더 "프로듀서가 다듬은 트랙" 같은 느낌을 준다. 힙합, R&B, 라틴, 일렉트로닉 분야에서 더 좋은 평가를 받았다.

2025년 10월 29일, Universal Music Group이 Udio와 합의했다. 합의금 + 2026년 출시 예정인 공동 AI 음악 플랫폼 라이선싱 딜이 포함됐다. 11월 25일에는 Warner도 합의했다(수백만 달러 + Songkick의 Suno로의 매각이 포함된 패키지). 이후 Kobalt, Merlin도 차례로 라이선싱 합의를 했다. 2026년 5월 시점에 Udio를 상대로 적극적으로 소송 중인 메이저는 Sony뿐이다.

2.3 Lyria 3 (Google DeepMind)

Google은 두 갈래로 움직였다.

Lyria 자체 모델. Lyria 2(2025년 5월)에서 Lyria 3(2026년 2월 18일)으로 갔다. 48kHz 스테레오, 최대 3분, 스펙트로그램이 아니라 오디오 토큰을 직접 다룬다. SynthID 워터마킹 의무 적용. Vertex AI · Gemini API로 접근한다.

Riffusion 인수. 2026년 2월 24일, Google은 ProducerAI(이전 Riffusion)를 인수했다. ProducerAI는 1백만 사용자를 보유한 대화형 음악 생성 에이전트였다. 인수 후 Lyria 3와 통합됐다. 즉 Riffusion이라는 스펙트로그램 디퓨전 계보는 Lyria 3 안으로 흡수됐다.

2.4 Lyria RealTime — 다른 사용 모델

Lyria RealTime은 별도로 봐야 한다. "한 곡을 생성"이 아니라 "스트리밍 오디오를 라이브로 컨트롤"하는 모델이다. 스타일, 박자, 분위기를 실시간으로 조정하면서 무한 음악을 만든다. 라이브 스트리밍, 게임 BGM, 인터랙티브 인스털레이션이 주 용도다. Gemini API로 접근.

2.5 ElevenMusic (ElevenLabs)

음성 합성으로 알려진 ElevenLabs는 2025년 8월 5일 Eleven Music을 출시했고, 2026년 4월 1일 iOS 앱과 함께 ElevenMusic으로 정식 플랫폼화했다.

차별점은 라이선싱이다. Merlin Network, Kobalt Music Group, SourceAudio와 학습 데이터 라이선스를 사전에 체결했다. 즉 "상업적 사용에 깨끗하다"고 마케팅한다. RIAA 진영의 메이저 카탈로그를 학습에 쓰지 않았다는 점이 핵심이다.

기능적으로는 길이 조절, 가사 유무 선택, 기존 곡 리믹스(장르 · 템포 변경)가 된다. 무료 티어는 하루 7곡까지. ElevenLabs의 보이스 합성과 결합하면 보컬 음색을 더 세밀히 제어할 수 있다.

2.6 비교 — 컨슈머 도구

도구보컬 품질인스트루멘털한국어 가사길이상업 라이선스주 사용처
Suno v5.5매우 높음높음보통최대 8분Pro 이상 명시 허용송라이팅, 콘텐츠
Udio높음매우 높음보통최대 4분+Standard 이상 허용프로듀싱, 힙합/R&B
Lyria 3중간(라이언 위주)매우 높음약함최대 3분Vertex AI 약관엔터프라이즈 통합
ElevenMusic높음높음미평가최대 5분명시적 클리어콘텐츠 크리에이터
Lyria RealTime미지원높음해당 없음무한 스트리밍API 약관게임/라이브

3장 · 오픈소스 / 로컬 옵션 — MusicGen · Stable Audio · YuE · ACE-Step

3.1 왜 오픈소스인가

세 가지 이유다.

  1. 비용. 구독료 없이 무제한 생성. 로컬 4090 한 장으로 돌아간다.
  2. 프라이버시. 가사나 콘셉트가 외부 서버에 안 올라간다. 미공개 프로젝트에 중요.
  3. 통제. 파인튜닝, 시드 고정, 배치 생성, 자동화 파이프라인이 가능하다.

대신 — 품질은 컨슈머 도구보다 한 박자 뒤다. 그리고 라이선스를 잘 봐야 한다.

3.2 MusicGen (Meta, 2023)

오픈소스 AI 음악의 시작점. 2023년 8월에 AudioCraft 프레임워크의 일부로 공개됐다. 텍스트 → 인스트루멘털 음악.

  • 파라미터. 300M, 1.5B, 3.3B의 세 가지 크기. 3.3B는 16GB 이상 VRAM 권장.
  • 데이터. Meta가 소유하거나 라이선싱한 약 20,000시간의 음악.
  • 라이선스. 모델 가중치는 CC BY-NC 4.0 — 비상업적 사용만. 이 점이 자주 오해된다. 자가 호스팅한다고 상업적으로 쓸 수 있는 게 아니다.
  • 2026년 상태. 2024년 이후 의미 있는 업데이트가 없다. 품질이 Suno/Udio에 명확히 뒤진다. 그리고 보컬은 못 만든다.

여전히 가치는 있다. "공부용", "오프라인 실험", "비상업 프로젝트", "다른 모델의 비교 베이스라인"으로 좋다.

3.3 Stable Audio 2.5 / Stable Audio Open

Stability AI의 두 라인을 구별해야 한다.

Stable Audio 2.5. 상업 SaaS. 최대 3분, 복잡한 구조(인트로 · 전개 · 아웃트로) 지원. 무드 프롬프트("uplifting", "lush synthesizers")에 더 잘 반응한다. 사운드 효과, 광고 음악, 영상 트랙에 강점이 있다.

Stable Audio Open. 오픈소스. 일반 버전은 최대 47초. Stable Audio Open Small(341M, Arm과 협업)은 스마트폰 CPU에서 8초 이하로 11초 오디오를 생성한다. 라이선스는 Stability AI Community License — 상업/비상업 모두 허용된다.

Stable Audio Open은 풀송보다는 사운드 디자인(짧은 효과음, 루프, 텍스처, 폴리)에 강하다.

3.4 YuE — 오픈소스 풀송 모델

YuE는 2025년에 등장한 오픈소스 풀송 보컬 모델이다. 라이선스는 Apache 2.0(상업 가능). MusicGen에는 없는 "텍스트와 가사 → 보컬이 있는 풀송"이 된다.

  • 하드웨어. 24GB VRAM 권장. 양자화 버전은 8~16GB도 가능. 4090에서 30초 생성에 약 360초.
  • 최적화 분기. DeepBeepMeep 등의 GPU-poor 분기가 있어 1분 곡을 4090에서 4분에 만든다.
  • 라이선스. Apache 2.0 — 상업적 사용 가능. 오픈소스 음악 모델 중에서 라이선스가 가장 깨끗한 편.

품질은 Suno v5와 어깨를 나란히 하진 않지만, "오픈소스 + 상업 가능 + 보컬"이라는 삼박자가 처음으로 갖춰진 모델이다.

3.5 ACE-Step 1.5 — 또 다른 로컬 강자

ACE-Step 1.5는 Mac, AMD, Intel, CUDA 디바이스를 모두 지원한다는 점이 차별점이다. M-시리즈 Mac에서도 돌아간다는 게 크다. 음악 생성 + 보컬 + 적당한 품질의 균형이 좋아 "2026년 로컬 음악 출발점"으로 자주 추천된다.

3.6 비교 — 오픈소스 / 로컬

모델보컬라이선스최소 VRAM길이강점
MusicGen 3.3B미지원CC BY-NC 4.0(비상업)16GB30초학습용, 베이스라인
Stable Audio Open미지원Stability Community8GB47초사운드 디자인
YuE지원Apache 2.024GB(권장)1~5분풀송, 상업 가능
ACE-Step 1.5지원오픈소스12~24GB풀송멀티 플랫폼
DiffRhythm지원오픈소스16GB풀송빠른 추론

4장 · 사용처 — AI 음악이 실제로 통하는 곳

4.1 인디 게임 사운드트랙

가장 잘 작동하는 분야 중 하나다. 이유는 단순하다 — 인디 게임은 보통 10~30곡이 필요한데, 작곡가에게 다 의뢰하면 10,000 10,000~50,000이고, 라이선싱 라이브러리로 채우면 다른 게임과 음악이 겹친다.

AI 음악의 강점이 정확히 여기에 들어맞는다.

  • 양. 한 시간에 수십 곡 생성, 마음에 드는 것만 골라 쓴다.
  • 고유성. 라이브러리 음악과 달리 다른 게임에 같은 트랙이 안 깔린다.
  • 반복 가능성. 같은 무드의 변주가 필요할 때 시드 · 프롬프트를 살짝 바꿔 비슷한 곡을 더 만든다.
  • 루프 친화. 게임 BGM은 어차피 루프된다. 4분 풀송이 필요 없다.

워크플로우(실제 인디 스튜디오 사례).

1. 게임의 무드 시트 작성: "neon-lit cyberpunk alley, tense but melancholy, 100 BPM"
2. Suno/Udio에서 10~20곡 생성, 후보 추리기
3. 마음에 드는 트랙 1~2개의 스템(stem) 분리
4. DAW에서 BPM/키 맞춤, 루프 포인트 만들기
5. 게임 엔진(Unity/Unreal)에 .ogg/.wav로 임포트
6. 적응형 음악 시스템(FMOD/Wwise)에 인터랙티브 레이어 구성

주의점: AI 출력의 라이선스가 게임 배포(스팀, 콘솔)에 맞는지 반드시 확인한다. Suno Pro 이상이거나 ElevenMusic 같은 클리어 모델을 쓰는 게 안전하다.

4.2 팟캐스트 인트로 · 아웃트로

15초~30초 분량의 시그니처 사운드. AI 음악의 단점(긴 일관성)이 거의 안 드러나는 영역이다.

워크플로우.

  1. 프롬프트로 무드와 장르 지정("upbeat tech podcast intro, synth-driven, 20 seconds, fade-out")
  2. 10~20개 생성, 1개 선택
  3. 보이스오버에 맞춰 다듬기
  4. 모든 에피소드에 동일 트랙 사용 — "브랜드 사운드"가 된다

비용: Suno Pro 10/월이면충분히커버된다.작곡가외주(10/월이면 충분히 커버된다. 작곡가 외주(300~$1,000)와 비교하면 미세한 비용.

4.3 YouTube · 숏폼 BGM

여기서는 Mubert가 특히 강하다. Mubert는 텍스트-투-송이 아니라 무드 기반 무한 트랙 생성이다. 25분짜리 백그라운드 음악, 25개 변주 등을 빠르게 만든다. 로열티-프리 라이선스가 명확하다. 음악가가 자기 샘플 팩을 업로드하면 80%를 분배받는 구조라 학습 데이터의 소스도 비교적 깨끗하다.

YouTuber 입장에서 Mubert의 이점은 "Content ID 클레임 안 걸린다"는 점이다. 보컬이 들어간 Suno 트랙도 클레임은 잘 안 걸리지만, Mubert는 그 부분이 가장 분명하다.

4.4 작곡 아이디에이션

프로 작곡가/송라이터가 의외로 가장 적극적이다. 사용법은 두 가지다.

모티프 생성. "이런 코드 진행에 이런 보컬 멜로디가 어떨까"를 빠르게 시도한다. 결과물을 그대로 쓰지 않고, 아이디어만 가져다 자기 곡에 녹인다.

가이드 트랙. 가사를 먼저 쓰고 AI로 데모를 만든다. 그 데모를 들으면서 "이 부분은 좋고 이 부분은 다르게" 같은 판단을 한다. 그러고 나서 진짜 곡으로 다시 만든다. 즉 AI 음악이 MVP처럼 작동한다.

핵심 마인드셋: AI 출력을 최종 결과물이 아니라 디자인 도구로 쓴다. 거장 곡이 안 나오는 게 당연하고, "아이디어 발생기"라는 위치가 정확하다.

4.5 작동하지 않는 영역

같은 정도로 솔직하게.

  • 고급 클래식 작곡. 4성부 푸가, 소나타 형식 같은 구조적 음악은 아직 약하다.
  • 실시간 라이브 공연 대체. 라이브의 에너지를 못 만든다.
  • 재즈 임프로비제이션. 일관된 모티프 발전이 안 된다.
  • 상업적으로 큰 IP. 메이저 영화 사운드트랙, 상업광고 메인 트랙에는 아직 무리(품질이 아니라 법적 안전성 때문).
  • 개성 있는 보컬 캐릭터. 사용자의 목소리를 클로닝하는 Suno Voices 정도가 한계.

5장 · 품질의 현실 — 보컬이 가장 어렵다

5.1 왜 보컬이 어려운가

오디오 생성에서 가장 어려운 두 가지는 (a) 길이 일관성, (b) 보컬이다. 보컬은 특히 어렵다 — 이유는 여러 층에 걸쳐 있다.

음운 · 발음. 사람 목소리는 50ms 단위로 음운(phoneme)이 바뀐다. 모델이 가사 텍스트를 받아 그걸 오디오 토큰의 발음 시퀀스로 매핑해야 한다. 영어는 학습 데이터가 풍부하니 잘 되지만, 한국어, 일본어, 아랍어 같은 언어는 오디오 데이터가 비교적 적다.

프로소디(억양). "사랑해"라는 단어를 슬프게 vs 신나게 부르면 다르다. 모델이 가사 의미와 곡 분위기를 결합해 억양 곡선을 만들어야 한다.

음정 안정성. 사람 가수는 음정을 ±10센트 정도로 안정시킨다. AI는 가끔 ±50센트까지 흔들린다. 듣기에 "어색"하다.

발음 인텔리지빌리티. 가사를 알아들을 수 있어야 한다. 보컬은 멜로디만 만들면 끝이 아니라, 글자가 들려야 한다. 어려운 자음 클러스터(예: "strengths")에서 모델이 자주 흐릿해진다.

5.2 한국어 가사의 추가 문제

한국어는 영어 학습 데이터의 1/10~1/20 수준이다. 결과:

  • 받침 발음이 어색하다(특히 ㄹ, ㅇ).
  • 영어식 보컬 스타일이 한국어에 강제된다(자음을 끊지 않고 흘려보냄).
  • 가사의 자연스러운 운율을 못 살린다.

대응법: (a) Suno의 v5.5에서 한국어 출력이 v4보다 명확히 좋아졌다. (b) "korean ballad", "k-pop", "trot" 같은 명시적 스타일 태그가 도움이 된다. (c) 정 어색하면 영어 가사로 만든 뒤 후처리에서 보컬을 한국어로 다시 녹음한다.

5.3 인스트루멘털은 의외로 잘 된다

반대로 인스트루멘털은 2025년 후반부터 거의 사람 수준이다. 일렉트로닉, 신스 팝, 로파이, 시네마틱 스코어, 앰비언트 — 이 분야는 듣고 구별이 거의 불가능하다. 그래서 게임/팟캐스트/유튜브 BGM에서 가장 먼저 폭발했다.

5.4 길이 일관성

3분이 넘어가면 모델이 "이 곡이 어디로 가는지"를 잃기 시작한다. 정확히는:

  • 모티프 망각. 1분에 등장한 멜로디 후크가 3분에 사라진다.
  • 구조 흐려짐. verse-chorus-bridge 구조가 길이가 늘수록 무너진다.
  • 퀄리티 드리프트. 4분 이후 갑자기 보컬이 거칠어지거나 믹스가 변한다.

대응: (a) 짧게 만들어 DAW에서 이어 붙이기, (b) Suno의 "Extend" 기능으로 부분씩 연장, (c) 5분 이상은 그냥 인스트루멘털로 가기.


6장 · 소송과 저작권 논쟁 — 정직하게

6.1 무엇이 쟁점인가

RIAA 소송의 핵심은 두 가지다.

  1. 학습 데이터 사용. "허가 없이 저작권 음반을 학습에 썼다." 양사는 "변혁적 공정 이용"으로 변호.
  2. 출력의 유사성. Suno와 Udio가 학습 데이터의 특정 곡을 거의 그대로 재현할 수 있는 사례가 있다는 주장.

법적 쟁점은 결국 "AI 학습이 저작권법의 공정 이용 4요소(목적, 성격, 양, 시장 영향)를 통과하는가"다.

6.2 2026년 5월 현재 상태

Suno. Universal · Warner · Sony 모두와 매사추세츠 연방 지방법원에서 공정 이용을 다투고 있다. Suno는 2026년 3월 약식 판결 신청을 냈고, 핵심 심리가 2026년 7월로 예정돼 있다. 인용한 선례는 2024년 제2순회법원의 Bartz v. SoundAI 결정(AI 학습을 변혁적 사용으로 인정한 판례)이다.

Udio. Universal(2025년 10월), Warner(2025년 11월), Kobalt, Merlin과 차례로 라이선싱 합의했다. Sony만 적극 소송 중. Universal과는 2026년에 출시할 공동 AI 음악 플랫폼 계약이 포함됐다.

독립 아티스트. 2025년 10월, 메이저와는 별도로 독립 음악가 집단이 Suno와 Udio를 상대로 클래스 액션을 제기했다.

6.3 결과가 어떻게 나오든

세 가지 시나리오를 본다.

시나리오 A — Suno 승소(공정 이용 인정). AI 학습이 합법화된다. 모든 AI 모델이 비슷한 방어를 쓴다. 음악 산업은 별도 라이선싱 시장(예: Universal-Udio 합작 플랫폼)으로 옮겨간다. 사용자 입장에서는 가장 자유롭다.

시나리오 B — Suno 패소(라이선스 필요 판결). Suno는 라이선스 합의를 강제당하거나 모델 재학습이 필요해진다. 비용이 폭증하고 구독료가 오른다. 신규 진입자는 라이선스 없이는 시작 자체가 어려워진다. ElevenMusic 같은 "사전 라이선싱" 모델이 우위에 선다.

시나리오 C — 합의로 끝남. 가장 가능성 높은 시나리오. Universal-Udio 모델처럼 메이저와 합의 + 라이선싱 + 수익 공유 구조가 표준이 된다. 산업 전체가 그 방향으로 정렬된다.

6.4 사용자가 할 일

무엇을 해도 안전한 사용: Suno/Udio Pro 이상 구독, 출력에 대한 상업 사용권 명시된 플랜, 가능하면 메이저 아티스트 스타일을 명시적으로 흉내내지 않기.

더 안전한 사용: ElevenMusic처럼 "사전 라이선싱된 데이터로 학습됐다"는 입증이 있는 모델, 또는 YuE/ACE-Step 같은 Apache 2.0 오픈소스 모델 + 로컬 실행.

피할 것: 특정 아티스트의 목소리를 흉내내려는 프롬프트("in the style of [유명 가수]"), 그 출력을 상업적으로 배포. 이건 명백한 위험.


7장 · 의사결정 프레임 — 무엇을 골라야 하나

7.1 "내 상황 → 추천 도구" 표

상황1순위2순위메모
송라이팅 데모 만들기Suno v5.5Udio보컬 품질 우선
인디 게임 BGMSuno ProMubert스템 분리 가능한 곳
팟캐스트 인트로SunoElevenMusic30초면 어디든 됨
YouTube 백그라운드MubertStable Audio 2.5무드 기반 무한 트랙
광고 트랙(상업)ElevenMusicStable Audio 2.5라이선스 클린 우선
게임 라이브 BGMLyria RealTime(대안 거의 없음)실시간 컨트롤
로컬/프라이빗 실험YuEACE-Step데이터 외부 유출 X
사운드 디자인(짧은 효과음)Stable Audio Open(DAW 플러그인)11초~47초
학생 학습/연구MusicGenYuE비상업 OK
한국어 가사 곡Suno v5.5Udio어쩔 수 없이 보컬 후처리

7.2 결정 트리

시작
 ├─ 보컬이 필요한가?
 │   ├─ 아니오 → Mubert / Stable Audio / MusicGen / Lyria RealTime
 │   └─ 예 ↓
 ├─ 상업적으로 쓸 건가?
 │   ├─ 아니오(연구/학습) → 무엇이든 OK, MusicGen 포함
 │   └─ 예 ↓
 ├─ 라이선스 클린함이 최우선인가?
 │   ├─ 예 → ElevenMusic 또는 YuE/ACE-Step 자가 호스팅
 │   └─ 아니오 ↓
 ├─ 한국어/영어 외 가사인가?
 │   ├─ 예 → Suno v5.5 우선, 결과 후처리 예상
 │   └─ 아니오 ↓
 ├─ 어떤 미학을 원하나?
 │   ├─ 팝/일렉트로닉 매끈함 → Suno
 │   ├─ 힙합/R&B/프로듀서 톤 → Udio
 │   └─ 엔터프라이즈/Vertex AI 통합 → Lyria 3

7.3 예산별 가이드

예산추천
$0/월MusicGen + 4090 또는 클라우드 GPU. Suno 무료 티어 일 5곡.
$10/월Suno Pro 단독. 대부분의 콘텐츠 크리에이터에게 충분.
$30/월Suno Pro + Udio Standard + Mubert. 풍부한 미학 선택.
$100+/월Suno Premier + ElevenMusic + Stable Audio 2.5. 상업 프로덕션.
$1,000+자체 4090 박스 + YuE 자가 호스팅 + 구독 조합. 스튜디오/게임팀.

에필로그 — 체크리스트, 안티패턴, 다음 글 예고

AI 음악은 2023년의 "재밌네"에서 2026년의 "이걸로 작품을 만든다"로 갔다. 그 변화의 핵심은 보컬이 보컬처럼 들리기 시작했고, 길이가 노래처럼 길어졌고, 미학이 장르마다 다르게 익숙해졌다는 점이다. 동시에 — 한국어 보컬, 4분 이상 일관성, 상업적 라이선스의 안전성은 아직 풀리지 않은 문제로 남아 있다. 2026년 7월의 Suno 약식 판결 심리가 카테고리 전체의 다음 1년을 결정할 가능성이 크다.

도구 선택 체크리스트

  1. 보컬이 필요한가? — 필요 없으면 Mubert/Stable Audio가 훨씬 안전한 선택
  2. 상업적으로 쓰는가? — Pro 이상 구독, 명시적 라이선스, 영구권 확인
  3. 언어가 영어인가? — 다른 언어면 후처리 단계 + 보컬 재녹음 예산을 잡아둠
  4. 길이는 몇 분인가? — 3분 이상은 Extend/조합으로 풀거나 인스트루멘털만
  5. 장르 미학이 무엇인가? — Suno(팝), Udio(힙합/R&B), Lyria(엔터프라이즈)
  6. 출력에 스템 분리가 필요한가? — Suno Studio가 거의 유일하게 강함
  7. 온라인 의존이 부담인가? — YuE/ACE-Step 로컬 실행 검토
  8. 워크플로우가 반복적인가? — Mubert API, Suno API, Lyria RealTime API 활용
  9. 저작권 안전성 우선인가? — ElevenMusic 또는 자가 학습 데이터 명시 모델
  10. AI 출력을 최종이 아닌 초안으로 쓸 준비가 됐는가? — 가장 본질적인 질문

안티패턴

안티패턴왜 나쁜가대신
첫 번째 생성을 그대로 쓰기평균 품질이 낮음10~20개 생성 후 큐레이션
유명 아티스트 이름을 프롬프트에 직접라이선스 회색지대, Content ID 위험"in the style of late-80s synth-pop" 같은 추상 묘사
한국어 곡을 영어 학습 가정대로 평가발음 어색함을 모르고 출시모국어 화자 1명 이상 검수
무료 티어로 상업 출시라이선스 위반최소 Pro 구독
4분 풀송을 한 번에 받기후반 일관성 무너짐짧게 받아 이어 붙이거나 Extend
MusicGen 출력을 상업 광고에 사용CC BY-NC 4.0 위반YuE/ACE-Step 또는 컨슈머 도구
보컬 인텔리지빌리티 안 점검가사 안 들리는 곡 출시외부 청자 3명에게 가사 듣게 함
Lyria 3을 무료 도구로 기대Vertex AI 비용 구조 모름단가 계산기로 분당 비용 확인
AI 출력에 "내가 작곡"이라고 표기표시 의무/저작권 논쟁 위험"AI 보조 작곡" 명시
단일 모델만 의존한 모델 출력의 한계가 곧 작품의 한계2~3 모델을 미학별로 분리 사용

다음 글 예고

다음 글은 **"AI 비디오 생성 2026 — Sora · Veo · Runway · Pika · Kling, 그리고 그것들이 실제 어떻게 다른가"**다. 음악과 같은 패턴으로, 카테고리의 폭발(2024 Sora 데모)과 성숙(2026의 상용 도구들), 보컬에 해당하는 가장 어려운 영역(긴 일관성, 캐릭터 동일성, 손가락), 오픈소스 옵션(Open-Sora, Mochi, Wan 등), 사용처(광고, 짧은 영상, 콘셉트 비주얼), 그리고 저작권 논쟁(NYT-OpenAI, Disney 라이선싱 모델)을 같은 깊이로 다룰 예정이다.


참고 / References

현재 단락 (1/236)

2023년 여름, AI로 만든 음악은 장난감이었다. 한 줄짜리 멜로디, 어색한 박자, 보컬은 없거나 아예 알아들을 수 없었다. Meta의 MusicGen이 오픈소스로 공개됐을 때 ...

작성 글자: 0원문 글자: 15,491작성 단락: 0/236