- Published on
AI音楽生成 2026 完全ガイド — Suno v4・Udio・Stable Audio 2・MusicGen・AIVA・Mubert・Soundraw 徹底分析
- Authors

- Name
- Youngju Kim
- @fjvbn20031
はじめに — なぜ2026年がAI音楽生成の転換点か
2024年春、Suno v3とUdioベータがテキスト一文から2分のボーカルトラックを生成し始めたとき、音楽業界は初めて真剣に反応しました。RIAAは同年6月に両社を相手取って著作権侵害訴訟を起こし、ほぼ同時期にStability AIはStable Audio 2.0を公開し、3分のフルトラックを生成できるオープンモデルを世に出しました。2025年末、SunoはMicrosoft Copilotとのパートナーシップを結び、一般消費者に音楽生成機能を提供しました。2026年春時点ではSuno v4 / v4.5がCover、Stems、Remaster、Personas、Lyricsといった機能を順次リリースし、カテゴリリーダーとしての地位を確固たるものにしています。
しかし風景は単一ではありません。UdioはUniversalおよびWarnerとのライセンス和解後も独自の美学的アイデンティティを維持しており、Meta MusicGenはaudiocraftライブラリで研究者が自由にファインチューンできるオープンな選択肢を提供します。AIVAはオーケストラ作曲に特化し、MubertはAPIとジェネレーティブ・ストリーミングでBGM市場を制し、東京に本社を置くSoundrawは日本のコンテンツ産業向けに構造制御可能なロイヤリティフリー音楽を提供しています。その隣でAdobe Project Music GenAI Control、Google MusicFX DJ、Riffusion(Beat-N)といった新規参入が、インタラクティブな音楽生成という新しい使用モデルを提示しています。
本記事は、プロデューサー、映像制作者、開発者、音楽愛好家が2026年に「AI音楽生成をどう活用するか」を判断するために知っておくべきすべての軸を整理します。モデル構造、機能差、ライセンス、価格、ワークフロー、法的リスク、韓国/日本語コンテキストまで可能な限り具体的に扱います。
1. 2026年AI音楽生成マップ — 4つのカテゴリ
AI音楽生成ツールは次の4カテゴリに分けると全体像が明確になります。
| カテゴリ | 主要ユースケース | 代表的な製品 |
|---|---|---|
| フルソング生成(ボーカル付き) | テキスト → ボーカル+伴奏のフルトラック | Suno v4.5、Udio v2、Riffusion |
| インストゥルメンタル/サウンド | BGM、ゲーム/映像音楽、効果音 | Stable Audio 2.0、Mubert、Soundraw、AIVA |
| オープン/研究モデル | セルフホスト、ファインチューニング | MusicGen 3.3B、AudioLM、NaturalSpeech 3、OpenMusic |
| インタラクティブ/DJ | リアルタイム制御、ライブ | MusicFX DJ、Lyria RealTime、Project Music GenAI Control |
これら4カテゴリは使用方法が異なります。フルソング生成器は「0から1を作るツール」、インストゥルメンタル/サウンドツールは「コンテンツ制作の部品供給者」、オープンモデルは「研究とカスタマイズの基盤」、インタラクティブツールは「ライブ消費のための新しい使用モデル」です。2026年の本当の競争力は、これら4カテゴリから適切なツールを選んでワークフローに織り込む能力で決まります。
2. Suno v4 / v4.5 — カテゴリリーダーとMicrosoft Copilotパートナーシップ
Sunoはマサチューセッツ州ケンブリッジを本拠地とする会社で、2022年に創業しました。2024年3月のv3公開以降、最も早く進化したテキスト・トゥ・ソング・ツールであり、2026年春時点で市場シェア1位です。2025年12月にv4.0がリリースされ、2026年4月にはv4.5が追加機能とともに公開されました。
2.1 Microsoft Copilotパートナーシップ
2025年11月、SunoはMicrosoft Copilotとの公式パートナーシップを発表しました。Copilotユーザーは自然言語で音楽生成をリクエストすると、Suno APIがこれを処理して結果を返します。これは一般消費者にAI音楽を露出させた最大の配布チャネルであり、Sunoの無料プランユーザー数を短期間に爆発的に増加させました。
2.2 v4.5の主要機能
- フルソング長の拡張: 標準4分、Extendで8分まで延長。2025年v3時代に1分30秒だったのに比べると約4倍に伸びました。
- Cover: 既存曲のメロディとコード構造を維持しつつ、ボーカルの音色、スタイル、歌詞を新たに生成。
- Stems: ボーカル、ベース、ドラム、メロディ、その他楽器のステム分離トラックをダウンロード。DAWに持ち込んで後処理可能。
- Remaster: 既存出力をより高い音質で再生成。ラウドネス、低音の応答、ボーカルの明瞭度を調整。
- Lyrics: 自社の歌詞生成器。トピック、ムード、バース構造の指定が可能。
- Personas: 特定アーティストのボーカル音色と表現スタイルを学習したペルソナ(ライセンス済みカタログをベース)。
2.3 価格とライセンス
| プラン | 価格 | 月間クレジット | 商用利用 |
|---|---|---|---|
| Free | 0 USD | 50クレジット/日(~10曲) | 不可 |
| Pro | 約10 USD/月 | 2,500クレジット/月(~500曲) | 可 |
| Premier | 約30 USD/月 | 10,000クレジット/月(~2,000曲) | 可 |
Pro以上では出力に対する商用利用権が付与されます。ただしRIAA訴訟が進行中である以上「100%安全」と謳うのは難しい状況です。
2.4 強みと弱み
- 強み: 英語の歌詞、ポップ/ロック/EDM/フォークのようなメインストリームジャンルで最も自然なボーカル。UI/UXが直感的で参入障壁が低い。
- 弱み: 韓国語/日本語の歌詞は依然として発音と韻律が不自然。ジャズの即興演奏、クラシックのオーケストレーションのような複雑なジャンルは弱い。4分以上では一貫性が崩れる。
3. Udio v1.5 / v2 — Uncharted Labsの美学的差別化
UdioはGoogle DeepMind出身の研究者が2023年12月に創業したUncharted Labsの製品です。CEOはDavid Dingで、Andreessen Horowitzがシードラウンド(約10M USD、2024年4月)をリードしました。Instagram共同創業者のMike Krieger、will.i.am、Commonといった音楽業界の人々が投資に参加したと報じられています。
3.1 v2の機能
- フルソング長: 標準1分30秒生成、Extendで最大15分まで延長可能。Sunoより一度に長い出力を作れる点が差別化です。
- Audio Inpainting: 既存トラックの特定区間を再生成。ボーカル一行、ドラム一小節だけを変更可能。
- Stem Separation: ボーカル/楽器の分離。DAW互換のWAVダウンロード。
- Genre / Lyrics Style Tags: より細かいジャンルタグ指定。
style of jazz、style of bossa novaといった形式。
3.2 ライセンス和解
2025年10月29日にUniversal Music GroupがUdioと和解し、11月25日にはWarnerも和解しました。その後Kobalt、Merlin Networkも順次ライセンス和解しました。2026年5月時点でUdioを相手に積極的に訴訟中のメジャーレーベルはSonyのみです。和解の一部としてUniversalとWarnerは共同AI音楽プラットフォームの立ち上げに参加する予定と報じられています。
3.3 生成物の美的特徴
一般的な評価ではSunoがより「ポップ的でなめらか」とされるのに対し、Udioはより「プロデューサーが仕上げたトラック」のような質感です。ヒップホップ、R&B、ラテン、エレクトロニックの分野でより高い評価を受けます。ボーカルはSunoよりやや粗い傾向ですが、これがジャンルによっては長所となります。
4. Stable Audio 2.0 — Stability AIの3分トラックモデル
Stability AIは2024年4月にStable Audio 2.0を公開しました。Stable Diffusionで知られる同社のオーディオラインアップで、フルトラック(最大3分、44.1kHzステレオ)生成、audio-to-audio変換、そしてARC(Audio Research Collective)ライセンスモデルを提供しています。
4.1 モデル構造
Stable Audio 2.0は潜在拡散(latent diffusion)モデルです。画像拡散と同じ系譜ですがオーディオドメインに適用しています。テキストエンコーダ、オートエンコーダ(オーディオを潜在空間に圧縮)、そして拡散トランスフォーマで構成されます。学習データはAudioSparxからライセンスを受けた800K曲+メタデータです。
4.2 主要機能
- Text-to-Audio: テキストプロンプトから3分のフルトラックを生成。
- Audio-to-Audio: アップロードしたオーディオをテキストプロンプトで変換。例えばボーカルラインをアップロードすると潜在空間に送られて新しいジャンルで再合成されます。
- Sound Effects: 非音楽的な音(雨音、足音、爆発音など)の生成。ゲームのサウンドデザインに活用されます。
- Stable Audio Open: オープンソース版。4096サンプルレベルの短い効果音/ループに特化。
4.3 ライセンスと価格
- 個人利用: Stable Audio無料ティア — 月20曲まで。
- 商用利用: Proプラン約12 USD/月 — 500曲/月。出力に対する商用権。
- API: 別途価格 — 1秒あたり約0.05 USDレベルの従量課金。
- ARCライセンス: Audio Research Collective — 学習データ提供者と収益を共有するライセンスモデル。
5. Meta MusicGen 3.3B — オープンソースの標準
Meta(旧Facebook)のAI Researchが2023年6月に公開したMusicGenは、オープンソース音楽生成モデルの標準になりました。2024年には3.3B(33億パラメータ)バージョンが追加され、メロディ条件付き生成をサポートするMusicGen-Melodyとステレオ出力版MusicGen-Stereoも併せて公開されました。
5.1 モデルラインアップ
| モデル | パラメータ | 特徴 | 推奨GPU |
|---|---|---|---|
| musicgen-small | 300M | 最速、品質低 | RTX 3060 12GB |
| musicgen-medium | 1.5B | バランス | RTX 4070 |
| musicgen-large | 3.3B | 最高品質 | RTX 4090 24GB |
| musicgen-melody | 1.5B | メロディ条件付き | RTX 4070 |
| musicgen-stereo | 1.5B / 3.3B | ステレオ出力 | RTX 4080 |
5.2 使用方法
Metaのaudiocraftライブラリでアクセスします。インストール後はPythonスクリプトで呼び出すか、Hugging FaceのTransformersと統合されたインターフェイスを使えます。
# audiocraftでMusicGenを使う例
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write
model = MusicGen.get_pretrained('facebook/musicgen-large')
model.set_generation_params(duration=30)
descriptions = ['80s pop track with bassy drums and synth']
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate)
5.3 ライセンス — CC-BY-NC
MusicGenのモデル重みはCC-BY-NC 4.0(非商用利用)で公開されています。つまり出力を商用利用するには別途ライセンスが必要です。学習データは約20,000時間のライセンス済み音楽(ShutterStock、Pond5など)とされています。
6. AIVA — オーケストラ作曲の強者
AIVA(Artificial Intelligence Virtual Artist)は2016年にルクセンブルクで創業した会社で、AI音楽生成器の中でも最も古い部類に入ります。SACEMに登録された最初のAI作曲家として認められたことがあります。2026年時点ではオーケストラ/シネマティック/ゲーム音楽の作曲に特化しています。
6.1 機能
- スタイル選択: Cinematic、Modern Cinematic、Tango、Sea Shanty、Symphonic、Electronic、Pop、Rock、Folkなど30以上のプリセット。
- MIDI編集: 生成された曲のMIDIを直接編集して再レンダリング。
- Influence Mode: アップロードした音楽(MIDIまたはオーディオ)から着想を得て新曲を生成。
- Step Time / Pencil Tool: コード進行とメロディを直接描き、AIVAが残りを埋める。
6.2 価格とライセンス
| プラン | 価格 | 月の生成 | 商用利用 |
|---|---|---|---|
| Free | 0 USD | 3曲/月(MP3のみ) | 不可(個人非商用) |
| Standard | 約15 USD/月 | 15曲/月(MP3、MIDI) | 可(AIVAクレジット必要) |
| Pro | 約49 USD/月 | 300曲/月(全フォーマット) | 完全所有権 |
Proプランでは出力に対する完全な著作権所有が可能です(ロイヤリティフリー)。映画、広告、ゲームでよく使われる理由がここにあります。
7. Mubert — APIとジェネレーティブ・ストリーミング
Mubertは2016年にロシアで始まった会社で、本社を米国に移した後、2026年時点ではAPIとストリーミング音楽の市場に地位を築いています。他のツールが「1曲生成」に集中する中、Mubertは「無限に流れる音楽ストリーム」という別の使用モデルを作り出しました。
7.1 使用モデル
- Mubert Studio: テキストプロンプトからトラックを生成(他のツールと類似)。
- Mubert Render: 映像の長さに合わせてBGMを自動生成。
- Mubert API: アプリ/ゲーム/Webに統合。ユーザー別、ムード別、コンテキスト別の無限BGMストリーム。
- Mubert Streaming: Spotifyのようにユーザーが聴くライブストリーム。AIが終わりなく新トラックを作り続けます。
7.2 価格
| プラン | 価格 | ユースケース |
|---|---|---|
| Free | 0 USD | 25曲/月、非商用 |
| Creator | 約14 USD/月 | コンテンツクリエイター、無制限ダウンロード |
| Pro | 約39 USD/月 | 商用利用、より長いトラック |
| Business / API | カスタム見積もり | API統合、ホワイトラベル |
MubertはNFT音楽、メタバースBGM、ゲーム動的サウンドトラック市場を主要ターゲットとしています。
8. Soundraw — 東京発の構造制御音楽生成
Soundrawは東京に本社を置く会社で、日本の音楽コンテンツ産業のコンテキストを深く反映したAI音楽生成器です。2020年創業で、他のツールとの最大の違いは「構造制御」です。ユーザーは曲の長さ、イントロ/バース/コーラス/ブリッジ/アウトロの位置、各セクションの強度(Energy)を直接調整できます。
8.1 構造制御インターフェイス
生成された曲はタイムライン形式で表示され、ユーザーが各セクションの強度をクリックで調整します。例えばコーラスをより爆発的にしたり、アウトロをフェードアウトではなく急に終わらせたりすることが可能です。これは映像編集でカットに合わせて音楽を正確にはめ込む必要があるユースケースで特に有用です。
8.2 価格とライセンス
| プラン | 価格 | ダウンロード | 商用利用 |
|---|---|---|---|
| Free | 0 USD | プレビューのみ | 不可 |
| Creator | 約17 USD/月 | 無制限 | 可(永続) |
| Artist | 約30 USD/月 | 無制限 | 可+音源配信権利 |
Soundrawは永続的なロイヤリティフリーライセンスを提供しています。一度ダウンロードした曲は購読解除後も永続的に使用できます。日本のYouTubeクリエイターと映像制作会社に人気が高いです。
9. Boomy / Anthemic / Riffusion — より小さな参入者
9.1 Boomy
Boomyは2018年にカリフォルニアで始まった会社で、「30秒で曲を作ってSpotifyに配信する」というコンセプトで成長しました。2022年には一時Spotifyの新規アップロードの10%がBoomyからだったという統計が話題になりました。2023年春にSpotifyが大量のBoomyトラックを不正ストリーミング疑惑で削除し一部後退しましたが、2026年時点でも無料・参入しやすいツールとして使われています。
9.2 Anthemic
Anthemicは2025年に登場した比較的新しい参入者で、ボーカルと歌詞の統合に焦点を当てています。小さなチームですがボーカル表現(emoting)で差別化を見せ、「私が歌った鼻歌からフルソングを作る」という使用モデルが話題になりました。
9.3 Riffusion (Beat-N)
Riffusionは2022年12月に公開されたオープンソースプロジェクトで、始まりはシンプルでした — オーディオをスペクトログラム(周波数画像)に変換し、Stable Diffusionで画像を生成した後、それを再びオーディオに変換するというトリックです。2024年に法人化されてProducerAIに改名し、2026年2月にGoogleが買収してLyria 3に統合されました。Riffusionという名前のオープンソースデモは依然としてGitHubでアクセス可能です。
10. Google MusicLMとMusicFX DJ — インタラクティブな音楽
Google DeepMindのMusicLMは2023年1月に論文として発表され、2023年5月にAI Test Kitchenで限定公開されました。その後Lyriaに改名して進化し、2026年時点のラインアップは次の通りです。
10.1 MusicLM系譜
- MusicLM(2023): 最初のテキスト・トゥ・ミュージックモデル。AudioLMベース。
- MusicLM-Hum: ユーザーが歌ったメロディ(鼻歌)からフルトラックを生成。
- Lyria 1/2/3: 徐々に長い出力と高い品質。48kHzステレオ。
- Lyria RealTime: リアルタイム・ストリーミング音楽の制御。
10.2 MusicFX DJ
2024年12月にGoogle Labsから登場したMusicFX DJは、インタラクティブな音楽生成の新しい使用モデルです。ユーザーは複数のプロンプトスライダーを持っており、各スライダーの値をリアルタイムで調整すると音楽が即座に変形します。例えば「Jazz」スライダーを上げるとジャズ要素が強まり、「Drums」スライダーを下げるとドラムが消えます。これはDJがライブセットでトラックをミックスする方法をAI音楽に適用したものです。
10.3 Lyria RealTime
Lyria RealTimeは別に見るべきです。「1曲生成」ではなく「ストリーミングオーディオをライブで制御」するモデルで、Gemini APIでアクセスします。スタイル、テンポ、ムードをリアルタイムで調整しながら無限の音楽を作ることができ、ライブストリーミング/ゲームBGM/インタラクティブインスタレーションが主な用途です。
11. Adobe Project Music GenAI Control
Adobeは2024年2月にProject Music GenAI Controlという研究プロトタイプを公開しました。Adobe Research、UCサンタバーバラ、カーネギーメロン大学の共同研究です。中心となるアイデアは「オーディオをテキストのように編集」です。
11.1 主要機能(プロトタイプ)
- テキストプロンプトから曲を生成。
- 生成された曲の強度、構造、繰り返しパターンを直接調整。
- ビートマッチング、オーディオ拡張、変換のような後処理を統合。
- Premiere Pro/After EffectsのようなAdobe製品群との統合予定。
2026年5月時点で公式製品としてはリリースされていませんが、Adobe Fireflyの音楽生成機能の中核技術として統合されると予想されます。
12. オープンモデル — AudioLM / AudioCraft / NaturalSpeech 3 / OpenMusic / F5-TTS
研究コミュニティ側では次のモデルが2026年時点の標準です。
12.1 AudioLM (Google)
2022年9月に公開されたAudioLMは、オーディオをLLMのように扱う最初のモデルの一つです。SoundStreamコーデックでオーディオをトークン化した後、トランスフォーマで次のトークンを予測します。このアーキテクチャは後にMusicLM、AudioCraftの基盤となりました。
12.2 AudioCraft (Meta)
Metaが2023年8月に公開したAudioCraftは、音楽とサウンド生成のための統合フレームワークです。MusicGen、AudioGen、EnCodecを一緒に含みます。PyTorchベースで、GitHubで自由にアクセス可能です。
12.3 NaturalSpeech 3 (Microsoft)
NaturalSpeech 3は音声合成モデルですが、音楽生成にも活用されます。Factorized Codec構造で音声の音色、韻律、発音を分離して学習します。Singing Voice Synthesisに直接応用されます。
12.4 OpenMusic
OpenMusicは2024年に公開されたオープンソース・テキスト・トゥ・ミュージック・モデルです。MusicGenの系譜を継ぎつつ、より小さいモデルで類似品質を追求します。CPUでも推論が可能な点が特徴です。
12.5 F5-TTS
F5-TTSは2024年10月に公開された音声合成モデルで、「5秒の音声サンプルから任意の音色をクローン」できます。音楽生成器と結合するとボーカル音色を精密に制御できます。ライセンスはCC-BY-NC。
13. 歌詞生成 — Suno Lyrics対Udio対ChatGPT
AI音楽ツールは通常自社の歌詞生成器を内蔵していますが、ChatGPTやClaudeで歌詞を直接書いて音楽ツールに入れる使用パターンも多いです。
13.1 歌詞生成オプションの比較
| オプション | 強み | 弱み |
|---|---|---|
| Suno Lyrics | 音楽構造(verse/chorus/bridge)に合わせる | ボーカル韻律はモデル自体が処理 |
| Udio Lyrics | より自由な歌詞スタイル | 韻律の一貫性がやや劣る |
| ChatGPT-4 / GPT-5 | 一般的な作詞能力が最強 | 音楽韻律を知らない |
| Claude 4 / Opus 4 | 詩的、隠喩的な表現 | 同じ弱点 |
| 人間の作詞家 | 感情的な深み | 時間/コスト |
実際のワークフローは通常以下の通りです。
- ChatGPTで歌詞ドラフトを生成(テーマ、ムード、韻律パターンを指定)。
- 人がボーカル韻律に合わせて推敲。
- 歌詞をSuno/Udioに貼り付けて音楽生成。
- 気に入らなければ1番に戻る。
13.2 韓国語の歌詞の特殊性
韓国語の歌詞は英語と音節構造が異なります。英語はストレス音節(stressed syllable)にメロディの強拍が落ちますが、韓国語は音節数が均等です。そのため英語の学習データで訓練されたモデルは韓国語をぎこちなく発音します。2026年時点でSuno v4.5は韓国語の音節発音をある程度真似ますが、パッチム(末子音)と連音処理は依然として不自然です。
14. ステム分離 — Demucs / Spleeter / Stable Audio Tools
AI音楽生成器で作った曲や既存の曲からボーカル/ドラム/ベース/メロディを分離するツールです。
14.1 Demucs v4 (Meta)
DemucsはMetaが公開したオープンソースのステム分離モデルで、2026年時点で最も広く使われています。v4はHybrid Transformer Demucs(HT-Demucs)でトランスフォーマと畳み込みを組み合わせた構造です。4ステム(ボーカル、ドラム、ベース、その他)と6ステム(+ピアノ、ギター)のモデルがあります。
# Demucsのインストールと使用
pip install demucs
# 4ステム分離
demucs my_song.mp3
# 6ステム分離(ピアノ、ギターを分離)
demucs --six-stems my_song.mp3
14.2 Spleeter (Deezer)
SpleeterはDeezerが2019年に公開したモデルで、速い処理速度が強みです。2ステム(ボーカル/伴奏)、4ステム、5ステムのモデルがあります。品質はDemucsよりやや低いですがCPUでもリアルタイム処理が可能です。
14.3 Stable Audio Tools
Stability AIが公開したオープンソースのツール群です。Stable Audioの潜在空間モデルを活用したステム分離、トラック拡張、オーディオ変換機能を提供します。
14.4 商用オプション — LALAL.AI / Moises AI / UVR
- LALAL.AI: 1パック約10 USDで音源1曲を分離。ボーカル、ドラム、ベース、ギター、ピアノ、シンセなど10ステムまで。
- Moises AI: 約4 USD/月 — 無制限分離、モバイルアプリ。
- UVR (Ultimate Vocal Remover): オープンソースのGUIツール。複数のモデルを統合提供。
15. MIDI生成 — MagentaとAnticipatory Music Transformer
オーディオではなくMIDI(楽譜データ)を生成するツールもあります。作曲家がDAWで直接編集できるという長所があります。
15.1 Magenta (Google)
MagentaはGoogle Brainが2016年に始めた音楽+機械学習研究プロジェクトです。2026年時点ではMagenta StudioというAbleton Liveプラグインを提供しています。機能は次の通りです。
- Continue: 入力MIDIクリップを自動的に続ける。
- Generate: 空のクリップに新しいメロディを生成。
- Interpolate: 2つのMIDIクリップ間をモーフィング。
- Drumify: 入力リズムにドラムパターンを追加。
15.2 Anticipatory Music Transformer (Stanford)
スタンフォードCRFMが2024年に公開したモデルで、MIDIシーケンスをトランスフォーマで学習します。特徴は「条件付き生成」が自由な点です。ユーザーが特定のノートを未来の時点に「固定」すると、モデルがそのノートに向かって自然に進行します。
16. 音楽用ボイスクローニング — RVC / So-Vits-SVC
既存のボーカルトラックの音色を他人の音色に変えるツールです。カバー(モナ歌)や仮想歌手を作るのに使われます。
16.1 RVC (Retrieval-based Voice Conversion)
RVCは2023年に公開されたオープンソースのボイス変換モデルです。学習データとして10分程度のボーカルサンプルがあれば、その音色で他の曲をカバーできます。韓国と日本のV-tuberコミュニティで爆発的に使われました。
16.2 So-Vits-SVC
So-Vits-SVCはSoft-VITS Singing Voice Conversionの略で、RVCの前身的モデルです。音色変換以外にピッチ調整とビブラート制御も可能です。
16.3 法的グレーゾーン
RVCやSo-Vits-SVCで有名な歌手の音色を複製することはグレーゾーンです。2023年にDrakeとThe Weekndをカバーした「Heart on My Sleeve」が話題になり、米国と英国で音声権/パブリシティ権の立法議論が始まりました。
17. 法的問題 — RIAA対Suno/Udio訴訟
17.1 訴訟の背景
2024年6月24日、米国レコード協会(RIAA)はUniversal/Warner/Sonyを代理してSuno(マサチューセッツ連邦地方裁判所)とUdio(ニューヨーク南部地方裁判所)を相手に著作権侵害訴訟を起こしました。中心となる主張は「許可なく著作権保護されたレコードを学習データに使った」というものです。
17.2 両者の主張
- RIAA側: SunoとUdioがメジャーレーベルのカタログを無断でスクレイピングして学習に使った。その証拠としてモデルが特定の曲をほぼそのまま復元する例を提出。
- Suno/Udio側: 学習行為は変革的フェアユース(transformative fair use)に該当。Google Booksの判例などを引用。
17.3 和解の波 (2025-2026)
- 2025年10月29日: Universal Music GroupがUdioと和解。
- 2025年11月25日: Warner Music GroupがUdioと和解。
- 2026年1月: Kobalt Music GroupがUdioと和解。
- 2026年3月: Merlin Network(インディレーベル連合)がSuno/Udio両方と和解。
2026年5月時点でSuno訴訟は進行中で、サマリージャッジメント審理が2026年7月に予定されています。
17.4 Sony Musicデータスクレイピング事件
2024年5月、Sony Musicは700以上のAI企業に「私たちのカタログを学習に使うな」というオプトアウト通知を送りました。この通知はAI音楽産業全体に学習データの出所を再検討させる契機でした。
17.5 フェアユースの限界
米国著作権法の変革的フェアユース原則は「原作と異なる目的/表現」を作る場合に適用されます。AI音楽生成器が特定の曲をほぼそのまま復元できるという事実は、この原則の適用を難しくします。2026年時点で米国裁判所の一貫した判例はまだなく、業界はライセンス和解への道を選んでいます。
18. 韓国のサービス — SKT MetaSpace MusicとNaver Clova Music
18.1 SKテレコム MetaSpace Music
SKテレコムは2024年にメタバース戦略の一環としてMetaSpace Musicベータを公開しました。韓国語の歌詞処理に強みを持つテキスト・トゥ・ミュージック・モデルで、2026年時点ではifland(SKTのメタバース・プラットフォーム)内でユーザー生成音楽として活用されています。
18.2 Naver Clova Music
NaverのClova AIラインアップの一つで、BGM生成とボーカル合成に特化しています。Naver自身の歌手のボーカルデータで学習された韓国語ボーカル合成モデルが核心的差別点です。
18.3 K-pop業界のAI活用
SMエンターテインメントは2024年にバーチャルアーティストnævisを公開し、HYBEは2024年に米国子会社MIN Musicを通じてAI音楽ツール開発に投資しました。JYPはボーカルガイドとデモ制作にAIを活用していると公式に発言しました。
19. 日本のサービス — Sound CatalystとVocaloid AI
19.1 NTT Sound Catalyst
NTTグループの音楽AIラインアップで、2025年時点でライブ公演用のリアルタイム音楽生成に特化しています。東京ドームのような大規模公演場で観客の反応を入力に取ってBGMを動的に生成するデモが話題になりました。
19.2 Yamaha Vocaloid AI ユイ / アオイ
YamahaはVocaloid 6で新しいライブラリ「ユイ」と「アオイ」を公開しました。どちらも人工知能学習ベースのボーカル合成ライブラリで、既存Vocaloidのピクチャー/ルールベース合成とは異なります。日本語の歌詞に最も自然な結果を生みます。
19.3 Synthesizer V (Dreamtonics)
Synthesizer Vは東京のDreamtonicsで開発されたAIボーカル合成ツールです。SynthV Studio Proで2026年時点で日本語/英語/中国語/韓国語のボーカル合成すべてをサポートします。日本のコンテンツ制作現場で最も広く使われます。
19.4 日本のプロデューサーのAI活用
三浦大知のような日本のJ-popアーティストのプロデューサーがAIをデモ制作、ボーカルガイド、BGMスケッチに活用していると、インタビューで言及されています。
20. ワークフロー — Prompt → Generate → Extend → Stems → DAW
実際のプロダクションでAI音楽を活用するワークフローは次のようになります。
20.1 標準ワークフロー(5ステップ)
- Prompt: ジャンル、ムード、テンポ、キー、楽器を明示したテキストプロンプトを作成。例:
lofi hip hop, 70 BPM, A minor, piano + jazz drums, melancholic。 - Generate: Suno/Udio/Stable Audioで曲を生成。通常2~4個のバリエーションを受け取る。
- Extend: 気に入ったバリエーションを8分まで延長。イントロ/バース/コーラス/アウトロを追加。
- Stems: 完成した曲をステム分離。Suno/Udio内蔵またはDemucsで。
- DAW: ステムをDAWにインポートして後処理。ボーカルの再録音、ビート交換、マスタリング。
20.2 プロンプト作成のコツ
- ジャンル明示:
style of jazz、genre: synthwaveといった形。 - 楽器明示:
featuring acoustic guitar and harmonica。 - ムード明示:
melancholic、uplifting、tense。 - リファレンス:
style of Miles Davis(グレーゾーン — ライセンス済みモデルでのみ安全)。 - 技法明示:
lo-fi production、analog tape saturation、vinyl crackle。
20.3 韓国語/日本語の歌詞ワークフロー
- 英語の歌詞でまず生成 → 満足できれば歌詞だけを韓国語/日本語に置換 → 再生成。
- このようにすると音楽的構造は英語で学習されたデータの強みを生かし、歌詞だけを母国語に持ち込めます。
- Suno v4.5は韓国語/日本語の歌詞をある程度処理しますが、4分以上になると一貫性が崩れます。
21. 比較表 — 7大ツールを一目で
| ツール | カテゴリ | フルソング長 | 価格 | 強み | 弱み | ライセンス |
|---|---|---|---|---|---|---|
| Suno v4.5 | フルソング(ボーカル+伴奏) | 4分(Extend 8分) | 10 USD/月~ | UI/UX、メインストリーム | 韓国語/日本語 | Pro以上で商用可 |
| Udio v2 | フルソング(ボーカル+伴奏) | 1分30秒(Extend 15分) | 10 USD/月~ | ヒップホップ/R&B/ラテン | やや粗いボーカル | Pro以上で商用可 |
| Stable Audio 2.0 | インストゥルメンタル | 3分 | 12 USD/月~ | サウンドデザイン、audio-to-audio | ボーカル不可 | ARCライセンス |
| MusicGen 3.3B | オープン、インストゥルメンタル | 30秒~(拡張可) | 無料(セルフホスト) | オープン、ファインチューン | CC-BY-NC、ボーカル不可 | 非商用 |
| AIVA | オーケストラ/シネマティック | 5分+ | 15 USD/月~ | MIDI編集、映画/ゲーム | ボーカル不可 | Proで完全所有 |
| Mubert | API/ストリーミング | 無限ストリーム | 14 USD/月~ | API、ゲーム統合 | 曲単位の制御が弱い | Creator以上で商用 |
| Soundraw | 構造的BGM | ユーザー指定 | 17 USD/月~ | 映像編集の正確なカット | ボーカル不可 | 永続ロイヤリティフリー |
22. よくある質問 — FAQ
22.1 AI音楽をSpotifyにアップロードしてもいいですか?
AIツールのライセンスに依存します。Suno Pro、Udio Pro、AIVA Pro、Soundraw Creator以上では商用利用が明示的に許可されており、SpotifyやApple Musicもこれを受け入れます。ただしSpotifyは「異常なストリーミング」と疑われるトラック(例: Boomy事件)を一括削除したことがあります。
22.2 著作権は誰にありますか?
AIツールの規約に依存します。AIVA ProとSoundrawはユーザーに完全な著作権を付与します。SunoとUdioはユーザーに使用権を付与しつつ、ツール会社も一定の権利を維持します。米国著作権局は「AIが生成したコンテンツには人間の創作的寄与があってこそ著作権登録が可能」という立場です。
22.3 どのツールから始めるべきですか?
- 趣味/実験: Suno無料プラン。
- YouTube BGM: Mubert、Soundraw、AIVA。
- インディゲームのサウンドトラック: Mubert API、Soundraw、MusicGen(セルフホスト)。
- 商用音源リリース: Udio Pro、Suno Premier(法的リスクを認識した上で)。
- 映画/広告: AIVA Pro、Stable Audio 2.0。
22.4 AI音楽は本物の音楽ですか?
この問いには答えがありません。しかし一つ確かなことは — 2026年のAI音楽は「人を置き換える」ものではなく「これまで音楽を作れなかった人も作り始める」ためのツールだということです。その境界を認めれば、どのツールをどう使うかが明確になります。
23. 参考資料
- Suno公式 — https://suno.com/
- Udio公式 — https://www.udio.com/
- Stable Audio (Stability AI) — https://stability.ai/stable-audio
- Stable Audio 2.0発表 — https://stability.ai/news/stable-audio-2-0
- Meta MusicGen GitHub — https://github.com/facebookresearch/audiocraft
- AudioCraft公式 — https://audiocraft.metademolab.com/
- MusicGen論文 — https://arxiv.org/abs/2306.05284
- AIVA — https://www.aiva.ai/
- Mubert公式 — https://mubert.com/
- Soundraw公式 — https://soundraw.io/
- Boomy公式 — https://boomy.com/
- Riffusion (Beat-N) — https://www.riffusion.com/
- Google MusicLM — https://google-research.github.io/seanet/musiclm/examples/
- MusicFX DJ (Google Labs) — https://labs.google/fx/tools/music-fx-dj
- Google Lyria発表 — https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/
- Adobe Project Music GenAI Control — https://research.adobe.com/news/project-music-genai-control/
- AudioLM論文 — https://google-research.github.io/seanet/audiolm/examples/
- Demucs (Meta) GitHub — https://github.com/facebookresearch/demucs
- Spleeter (Deezer) GitHub — https://github.com/deezer/spleeter
- Ultimate Vocal Remover GitHub — https://github.com/Anjok07/ultimatevocalremovergui
- LALAL.AI — https://www.lalal.ai/
- Moises AI — https://moises.ai/
- Magenta (Google) — https://magenta.tensorflow.org/
- Anticipatory Music Transformer — https://crfm.stanford.edu/2023/06/16/anticipatory-music-transformer.html
- RIAAのSuno / Udio訴訟報道 — https://www.riaa.com/news/
- Yamaha Vocaloid公式 — https://www.vocaloid.com/en/
- Dreamtonics Synthesizer V — https://dreamtonics.com/synthesizerv/
- NaturalSpeech 3 (Microsoft) — https://speechresearch.github.io/naturalspeech3/
- F5-TTS GitHub — https://github.com/SWivid/F5-TTS