- Published on
AI音楽生成 2026 — Suno・Udio・Stable Audio・MusicGen・Mubert・ElevenLabs・Lyria、いまどこまで来たのか
- Authors

- Name
- Youngju Kim
- @fjvbn20031
プロローグ — 2年で何が変わったのか
2023年夏、AIで作った音楽は玩具だった。一小節のメロディ、ぎこちないリズム、ボーカルは無いか、あっても聞き取れない。MetaがMusicGenをオープンソースで公開したとき、人々は「面白いね」とは言ったが、「これで曲を書く」とは言わなかった。
2024年春、Sunoがv3をリリースし、Udioがベータを開けた頃、空気が変わる。テキスト一行で、ボーカルのある2分の曲が出てきた。ぎこちない箇所はあるが、初めて「あれ、これ本物だ」という声が出た。同年6月、米国のRIAA(レコード業界協会)はSunoとUdioを相手取り、大規模な著作権侵害訴訟を提起した。業界が本気で見始めた証拠だ。
2026年5月のいま、風景はまた変わった。Sunoはv5.5でユーザーの声をクローンし、個人モデルのファインチューニングを提供する。UdioはUniversal・Warner・Kobalt・Merlinと順次ライセンス合意を結んだ。GoogleはRiffusionの後継ProducerAIを買収し、Lyria 3に統合した。ElevenLabsは音声から音楽へカテゴリを拡張した。オープンソース側ではYuE、ACE-Step、DiffRhythmといったボーカル付きフルソングモデルが4090一枚で動く。
それでも — ボーカルは依然として一番難しい。日本語の歌詞は英語より不自然に聞こえる。4分を超えると一貫性が崩れる。商用に安全な出力を担保するモデルは数えるほど。そしてRIAAのSuno訴訟は、2026年7月に略式判決の審理が予定されている。
この記事はその風景を整理する。どの道具がどの仕事に向くか、なぜボーカルが難しいか、オープンソースはどこまで来たか、訴訟はどう動くか、インディゲームのサウンドトラックやポッドキャストのイントロ、YouTubeのBGM、作曲のアイデア出しで実際にどう使うか — を見る。AIが音楽を壊すという話でもなく、AIが音楽を救うという話でもない。実務者が暮らす中間地点を書く。
ひとことで言えば: 2026年のAI音楽は「人間の代替」ではなく「これまで作れなかった人が作り始める」道具だ。その境界を知れば道具選びは簡単になる。
1章 · カテゴリの誕生 — 2023〜2024年に何が起きたか
1.1 二つの技術系譜
AI音楽生成は二つの技術系譜が合流した結果だ。
系譜1: 自己回帰トークンモデル。 テキストLLMのようにオーディオをトークン化し、次のトークンを予測する。MetaのMusicGen(2023年)、GoogleのMusicLM(2023年)、Sunoの初期版はこの系列。学習は、EnCodecのようなニューラルオーディオコーデックでオーディオを圧縮しトークンにし、その系列をTransformerが学習する。
系譜2: 拡散ベースのオーディオ。 画像拡散(Stable Diffusion)のアーキテクチャをオーディオに応用する。Stability AIのStable Audioが代表例。Riffusionはもっと巧妙な手を使った — オーディオをスペクトログラム(周波数の画像)に変換し、画像拡散をかけ、結果の画像をオーディオに戻す。
2024年に入ると二つが混ざり、ボーカル合成が結合する。SunoとUdioの本当のジャンプは「テキストからボーカルと歌詞のあるフルソング」を作ったことだ。それまではほぼすべてインストゥルメンタル(伴奏)だった。
1.2 なぜ突然良くなったのか
三つの変数が同時に動いた。
- データ。 ライセンス済みの大規模な音楽カタログ(あるいは — 訴訟が主張するように — スクレイピングされたカタログ)を学習に使えるようになった。MusicGenは約20,000時間のライセンス済み音楽で学習されている。
- 計算資源。 H100/H200のクラスタで、数十億パラメータのオーディオモデルを合理的な時間で学習できるようになった。
- アーキテクチャ。 ニューラルオーディオコーデック(EnCodec、SoundStream)が、オーディオをLLMのように扱えるトークンへ圧縮する道を開いた。
この三つが揃ったとたん、テキストLLMでうまくいったこと — 「もっともらしい次のトークンを予測する」 — が音楽でも動き始めた。
1.3 RIAAの爆弾 — 2024年6月
2024年6月24日、米国RIAAはUniversal・Warner・Sonyを代理し、Sunoをマサチューセッツ連邦地方裁判所、Udioをニューヨーク南部地方裁判所で訴えた。中心的主張は「許可なく著作権保護されたレコーディングを学習に用いた」。両社の弁護は「変革的フェアユース(transformative fair use)」だ。
この訴訟は単なる紛争ではない。AI音楽カテゴリ全体の商業的運命を決める。学習データが違法と判決されればモデルの再学習が必要になり、出力のライセンス構造そのものが変わる。だから2025年末からは和解の波が来た。
2章 · コンシューマツール — Suno・Udio・Lyria・ElevenMusic
2.1 Suno — カテゴリリーダー
2026年5月時点で、もっとも使われているテキスト→ソング道具はSunoだ。v3(2024年初)→ v4(2025年)→ v5(2025年末)→ v5.5(2026年3月26日)と進化してきた。
v5.5の核は三つ。
- Voices. ユーザーが30秒ほど自分の歌声を録音して登録すると、AIがその音色で歌う。Pro・Premier加入者限定。デフォルトでプライベート。
- Custom Models. 自分のカタログ(自作曲など)をアップロードしてv5.5をそのスタイルにファインチューンする。最大3つまで。
- Studio. ボーカル・ベース・ドラム・ハーモニー・楽器のステム(stem)を分離トラックで受け取る。DAWに持ち込んで後処理ができる。
品質は? 英語の歌詞、ポップ/ロック/エレクトロニック/フォークといったメインストリームのジャンルなら、初めて聴く人は人間が作ったと信じるレベルだ。日本語の歌詞は発音と韻律がぎこちなくなる(2025年から着実に良くなっているが、英語よりは弱い)。ジャズの即興や、構造の複雑なクラシックのオーケストレーションはまだ弱い。
商用ライセンスはPro以上で明示的に許諾される。ただしRIAA訴訟が進行中である以上、「100%安全」と謳うのは難しい。
2.2 Udio — もう一つの美学
UdioはGoogle DeepMindの元研究者たちが2023年12月に創業した。CEOはDavid Ding。シードラウンド($10M、2024年4月)はAndreessen Horowitzがリードし、Instagramの共同創業者Mike Krieger、will.i.am、Common、ほか音楽業界の著名人が参加した。
Udioの結果物はSunoと微妙に異なる。Sunoが「ポップ的」で滑らかな寄りなら、Udioは「プロデューサが仕上げたトラック」のような質感がある。ヒップホップ、R&B、ラテン、エレクトロニックで特に評価が高い。
2025年10月29日、Universal Music GroupがUdioと和解した。和解金 + 2026年に出るジョイントAI音楽プラットフォームのライセンスディールが含まれる。11月25日にはWarnerも和解した(数百万ドルの和解金 + ライセンスパートナーシップ + SongkickをWarnerからSunoへ売却するパッケージ)。その後、Kobalt、Merlinも順次ライセンス合意した。2026年5月時点で、Udioに対し能動的に訴訟を続けているのはSonyだけだ。
2.3 Lyria 3 (Google DeepMind)
Googleは二方向で動いた。
Lyria自体のモデル。 Lyria 2(2025年5月)からLyria 3(2026年2月18日)へ。48kHzステレオ、最大3分、スペクトログラムではなくオーディオトークンを直接扱う。SynthIDウォーターマークが必須。Vertex AI・Gemini APIでアクセスする。
Riffusion買収。 2026年2月24日、GoogleはProducerAI(旧Riffusion)を買収した。ProducerAIは100万ユーザーを擁する会話型音楽生成エージェントだった。買収後Lyria 3に統合された。スペクトログラム拡散の系譜は、Lyria 3の中に吸収されたかたちだ。
2.4 Lyria RealTime — 別の使い方
Lyria RealTimeは別物として見るべきだ。「一曲を生成する」のではなく「ストリーミングのオーディオをライブで制御する」モデルだ。スタイル、テンポ、ムードをリアルタイムで調整しながら無限の音楽を流す。ライブ配信、ゲームBGM、インタラクティブなインスタレーションが主用途。Gemini APIでアクセス。
2.5 ElevenMusic (ElevenLabs)
音声合成で知られるElevenLabsは、2025年8月5日にEleven Musicを発表し、2026年4月1日にiOSアプリとともにElevenMusicとして本格的なコンシューマプラットフォームへ展開した。
差別点はライセンスだ。Merlin Network、Kobalt Music Group、SourceAudioと事前に学習データのライセンス契約を結んでいる。マーケティング上「商用にクリアだ」と謳う。RIAA陣営のメジャーカタログを学習に使っていないというのが鍵。
機能としては、長さの調整、歌詞の有無の選択、既存曲のリミックス(ジャンル・テンポ変更)ができる。無料ティアは1日7曲まで。ElevenLabsの音声合成と組み合わせると、ボーカルキャラクタをより細かく制御できる。
2.6 比較 — コンシューマツール
| ツール | ボーカル品質 | インスト | 日本語歌詞 | 長さ | 商用ライセンス | 主用途 |
|---|---|---|---|---|---|---|
| Suno v5.5 | とても高い | 高い | 並 | 最大8分 | Pro以上で明示 | 作詞作曲、コンテンツ |
| Udio | 高い | とても高い | 並 | 最大4分+ | Standard以上 | プロデュース、HipHop/R&B |
| Lyria 3 | 中(歌詞少なめ) | とても高い | 弱い | 最大3分 | Vertex AI規約 | エンタープライズ統合 |
| ElevenMusic | 高い | 高い | 未評価 | 最大5分 | 明示的にクリア | コンテンツ制作者 |
| Lyria RealTime | 非対応 | 高い | 該当外 | 無限ストリーミング | API規約 | ゲーム/ライブ |
3章 · オープンソース / ローカルの選択肢 — MusicGen・Stable Audio・YuE・ACE-Step
3.1 なぜオープンソースか
理由は三つ。
- コスト。 サブスクなしで無制限生成。手元の4090一枚で動く。
- プライバシー。 歌詞やコンセプトが外部サーバに行かない。未発表プロジェクトでは重要。
- 制御。 ファインチューニング、シード固定、バッチ生成、自動化パイプラインが可能。
代わりに — 品質はコンシューマツールに半歩遅れ、ライセンスの読み込みが必要。
3.2 MusicGen (Meta、2023)
オープンソースAI音楽の出発点。2023年8月にAudioCraftフレームワークの一部として公開された。テキスト → インストゥルメンタル音楽。
- パラメータ数。 300M、1.5B、3.3Bの三サイズ。3.3Bは16GB以上のVRAMが推奨。
- データ。 Metaが所有またはライセンスした約20,000時間の音楽。
- ライセンス。 モデル重みはCC BY-NC 4.0 — 非商用利用のみ。誤解されやすい点だ。自前ホストすれば商用にできるわけではない。
- 2026年の状況。 2024年以降、意味のあるアップデートが無い。品質はSuno/Udioに明らかに劣る。そしてボーカルは作れない。
それでも価値はある。「学習用」「オフライン実験」「非商用プロジェクト」「他モデル比較のベースライン」として良い。
3.3 Stable Audio 2.5 / Stable Audio Open
Stability AIの二つのラインを区別する必要がある。
Stable Audio 2.5. 商用SaaS。最大3分、複雑な構成(イントロ・展開・アウトロ)対応。「uplifting」「lush synthesizers」のようなムードプロンプトへの反応が良い。サウンドエフェクト、広告音楽、映像トラックに強い。
Stable Audio Open. オープンソース。通常版は最大47秒。Stable Audio Open Small(341M、Armと共同)はスマートフォンのCPUで11秒のオーディオを8秒以下で生成する。ライセンスはStability AI Community License — 商用・非商用ともに許諾される。
Stable Audio Openはフルソングよりもサウンドデザイン(短い効果音、ループ、テクスチャ、フォーリー)に強い。
3.4 YuE — オープンソースのフルソングモデル
YuEは2025年に登場したオープンソースのフルソング・ボーカルモデルだ。ライセンスはApache 2.0(商用可)。MusicGenにはない「テキストと歌詞 → ボーカル付きフルソング」が可能。
- ハードウェア。 24GB VRAM推奨。量子化版は8〜16GBでも動く。4090で30秒の生成に約360秒。
- 最適化フォーク。 DeepBeepMeepなどのGPU-poorフォークがあり、1分の曲を4090で約4分で作る。
- ライセンス。 Apache 2.0 — 商用使用可。オープンソース音楽モデルの中で最もクリーンな部類。
品質はSuno v5と並ぶレベルではないが、「オープンソース + 商用可 + ボーカル」の三拍子が初めて揃ったモデルだ。
3.5 ACE-Step 1.5 — もう一つのローカル強者
ACE-Step 1.5はMac、AMD、Intel、CUDAデバイスをすべてサポートする点が差別化要素だ。MシリーズのMacでも動くのが大きい。音楽生成 + ボーカル + 程よい品質のバランスが良く、「2026年のローカル音楽の出発点」としてよく推奨される。
3.6 比較 — オープンソース / ローカル
| モデル | ボーカル | ライセンス | 最低VRAM | 長さ | 強み |
|---|---|---|---|---|---|
| MusicGen 3.3B | 非対応 | CC BY-NC 4.0(非商用) | 16GB | 30秒 | 学習用、ベースライン |
| Stable Audio Open | 非対応 | Stability Community | 8GB | 47秒 | サウンドデザイン |
| YuE | 対応 | Apache 2.0 | 24GB推奨 | 1〜5分 | フルソング、商用可 |
| ACE-Step 1.5 | 対応 | オープンソース | 12〜24GB | フルソング | マルチプラットフォーム |
| DiffRhythm | 対応 | オープンソース | 16GB | フルソング | 高速推論 |
4章 · 使いどころ — AI音楽が本当に効く場所
4.1 インディゲームのサウンドトラック
最も適合する分野の一つ。理由は単純で、インディゲームは普通10〜30曲のトラックが必要だが、作曲家に全部発注すれば1万〜5万ドル、ロイヤリティフリーのライブラリで埋めれば他のゲームと音楽が被ってしまう。
AI音楽の強みがちょうどここに刺さる。
- 量。 1時間に数十曲生成、気に入ったものだけ使う。
- 固有性。 ライブラリ音楽と違って、他のゲームに同じトラックが入らない。
- 反復可能性。 同じムードのバリエーションが欲しい時、シードとプロンプトを少し変えて似た曲を増やす。
- ループ親和性。 ゲームBGMはどうせループ。4分のフルソングは要らない。
実際のインディスタジオのワークフロー。
1. ゲームのムードシートを書く: "neon-lit cyberpunk alley, tense but melancholy, 100 BPM"
2. Suno / Udioで10〜20曲生成、候補を絞る
3. 気に入った1〜2曲のステム(stem)を分離
4. DAWでBPM・キーを合わせ、ループポイントを作る
5. ゲームエンジン(Unity / Unreal)に .ogg / .wav でインポート
6. 適応的音楽システム(FMOD / Wwise)にインタラクティブレイヤを構成
注意点: AI出力のライセンスがゲーム配信(Steam、コンソール)に合うか必ず確認。Suno Pro以上、あるいはElevenMusicのようなクリアモデルを使うのが安全。
4.2 ポッドキャストのイントロ・アウトロ
15〜30秒のシグネチャ・サウンド。AI音楽の弱点(長尺の一貫性)がほぼ露出しない領域。
ワークフロー。
- プロンプトでムードとジャンルを指定("upbeat tech podcast intro, synth-driven, 20 seconds, fade-out")
- 10〜20個生成、1個選ぶ
- ボイスオーバに合わせて磨く
- すべてのエピソードで同じトラックを使う — 「ブランドサウンド」になる
コスト: Suno Pro 300〜$1,000)するのと比べれば微々たるもの。
4.3 YouTube・ショート動画のBGM
ここではMubertが特に強い。Mubertはテキスト→ソングではなく、ムードベースの無限トラック生成だ。25分の背景音楽、25のバリエーションを素早く作る。ロイヤリティフリーのライセンスが明確。ミュージシャンが自分のサンプルパックをアップロードすると80%が分配される構造で、学習データの素性も比較的クリーン。
YouTuberにとっての魅力は「Content IDのクレームが付かない」こと。ボーカル入りのSunoトラックでもクレームはあまり付かないが、Mubertはその点がもっとも明確に安全。
4.4 作曲のアイデア出し
プロの作曲家・ソングライターが意外なほど積極的に使う。使い方は二つ。
モチーフ生成。 「こんなコード進行にこんなボーカルメロディはどうか」を素早く試す。結果物をそのままは使わず、アイデアだけを取り出して自分の曲に織り込む。
ガイドトラック。 歌詞を先に書いて、AIでデモを作る。そのデモを聞きながら「この箇所は良い、この箇所は変える」と判断する。それから本物の曲として作り直す。つまりAI音楽がMVPのように働く。
核心マインドセット: AI出力を最終成果物ではなくデザイン道具として使う。傑作が出ないのは当然で、「アイデアジェネレータ」という位置取りが正確だ。
4.5 効かない領域
同じだけ正直に。
- 高度なクラシック作曲。 四声フーガ、ソナタ形式のような構造的な音楽はまだ弱い。
- ライブ公演の代替。 ライブのエネルギーは作れない。
- ジャズの即興。 一貫したモチーフ発展ができない。
- 大きな商用IP。 メジャー映画のサウンドトラックや、商業広告のメイントラックにはまだ無理(品質ではなく法的安全性のため)。
- 個性的なボーカル・キャラクタ。 ユーザーの声をクローンするSuno Voicesがほぼ天井。
5章 · 品質の現実 — ボーカルが一番難しい
5.1 なぜボーカルが難しいか
オーディオ生成で最難の二つは(a)長尺の一貫性、(b)ボーカル。ボーカルは特に難しい — 理由は何層にもある。
音韻・発音。 人の声は50ms単位で音素(phoneme)が変わる。モデルが歌詞テキストを受け取り、それをオーディオトークンの発音シーケンスにマッピングする必要がある。英語は学習データが豊富だからうまくいくが、日本語、韓国語、アラビア語のような言語はオーディオデータが相対的に少ない。
プロソディ(抑揚)。 「愛してる」という言葉を悲しく歌うのと楽しく歌うのとでは違う。モデルが歌詞の意味と曲の雰囲気を結合し、抑揚カーブを作らなければならない。
音程の安定性。 人間の歌手は音程を±10セント程度で安定させる。AIは時々±50セントまで揺れる。耳には「ぎこちなく」聞こえる。
発音の明瞭度(intelligibility)。 歌詞が聞き取れる必要がある。ボーカルはメロディを作って終わりではなく、言葉が聞こえなければならない。難しい子音クラスタ(例: "strengths")でモデルがよくぼやける。
5.2 日本語歌詞の追加的な問題
日本語は英語の学習データの1/10〜1/20程度。結果:
- 母音の長さや拍が不自然(語末の伸ばし、撥音、促音)。
- 英語的なボーカル発声が日本語に強制される(子音を切らず流す)。
- 歌詞の自然な韻律を活かせない。
対処: (a) Suno v5.5では日本語出力がv4より明らかに改善している。(b) "j-pop"、"city pop"、"anime opening" など明示的スタイルタグが効く。(c) どうしても不自然なら、英語歌詞で作ったあと、後処理でボーカルを日本語で再録する。
5.3 インストゥルメンタルは意外と良い
逆にインストゥルメンタルは2025年後半からほぼ人間レベル。エレクトロニック、シンセポップ、ローファイ、シネマティックスコア、アンビエント — このあたりは聴き分けがほぼ不可能。だからゲーム・ポッドキャスト・YouTubeのBGMで真っ先に爆発した。
5.4 長さの一貫性
3分を超えるとモデルが「この曲がどこへ向かうのか」を見失い始める。具体的には:
- モチーフ忘却。 1分で出たメロディのフックが、3分で消える。
- 構造のぼやけ。 verse-chorus-bridge構造が長くなるほど崩れる。
- 品質ドリフト。 4分以降、急にボーカルが荒くなる、ミックスが変わる。
対処: (a) 短く作ってDAWで繋ぐ、(b) SunoのExtend機能で部分ごとに延長する、(c) 5分以上は素直にインストにする。
6章 · 訴訟と著作権の議論 — 正直に
6.1 何が争点か
RIAA訴訟の核心は二つ。
- 学習データの利用。 「許可なく著作権レコーディングを学習に用いた」。両社は「変革的フェアユース」で反論。
- 出力の類似性。 SunoとUdioが、学習データの特定の曲をほぼそのまま再現できる事例があるという主張。
法的争点は結局「AI学習が著作権法のフェアユース4要素(目的、性質、量、市場への影響)を通過するか」だ。
6.2 2026年5月の現状
Suno. Universal・Warner・Sonyすべてとマサチューセッツ連邦地方裁判所でフェアユースを争っている。Sunoは2026年3月に略式判決の申立てを出し、中心審理が2026年7月に予定されている。引用先例は2024年の第2巡回控訴裁判所のBartz v. SoundAI(AI学習を変革的使用と認めた判例)。
Udio. Universal(2025年10月)、Warner(2025年11月)、Kobalt、Merlinと順次ライセンス合意。Sonyだけが能動的に訴訟を続ける。Universalとは2026年に出る共同AI音楽プラットフォーム契約も含まれている。
独立アーティスト。 2025年10月、メジャーとは別に、独立ミュージシャンの集団がSunoとUdioを相手にクラスアクションを提起した。
6.3 どんな結果になるとしても
三つのシナリオを見る。
シナリオA — Suno勝訴(フェアユース認定)。 AI学習が合法化される。すべてのAIモデルが同種の弁護を使う。音楽産業は別のライセンス市場(Universal-Udioの合弁プラットフォームなど)へ移行する。利用者の自由度が最も高い。
シナリオB — Suno敗訴(ライセンス必要判決)。 Sunoはライセンス合意を強いられるか、モデル再学習が必要になる。コストが急増し、サブスク料が上がる。新規参入者はライセンスなしでは始められない。「事前ライセンス」モデル(ElevenMusicなど)が構造的優位に立つ。
シナリオC — 和解で終わる。 最も可能性が高いシナリオ。Universal-Udioモデルのように、メジャーとの合意 + ライセンス + 収益分配の構造が標準になる。産業全体がその方向に揃う。
6.4 利用者がやるべきこと
何の留保もなく安全な使い方: Suno / Udio Pro以上のサブスク、出力に明示的な商用利用権が付与されたプラン、そして可能なら有名アーティストのスタイルを露骨に模倣しない。
さらに安全: ElevenMusicのように「事前ライセンス済みのデータで学習した」と立証可能なモデル、または YuE / ACE-StepのようなApache 2.0オープンソースモデルをローカル実行。
避けるべき: 特定アーティストの声を真似ようとするプロンプト("in the style of [有名歌手]")、そしてその出力を商用配布すること。これは最も明確なリスク。
7章 · 意思決定フレーム — 何を選ぶべきか
7.1 「状況 → 推奨ツール」
| 状況 | 第1選択 | 第2選択 | メモ |
|---|---|---|---|
| 作曲デモを作る | Suno v5.5 | Udio | ボーカル品質優先 |
| インディゲームBGM | Suno Pro | Mubert | ステム分離できる方 |
| ポッドキャストイントロ | Suno | ElevenMusic | 30秒ならどこでも |
| YouTubeバックグラウンド | Mubert | Stable Audio 2.5 | ムードベース無限トラック |
| 広告トラック(商用) | ElevenMusic | Stable Audio 2.5 | ライセンスのクリーンさ優先 |
| ゲームのライブBGM | Lyria RealTime | (代替ほぼ無し) | リアルタイム制御 |
| ローカル / プライベート実験 | YuE | ACE-Step | データを外に出さない |
| サウンドデザイン(短い効果音) | Stable Audio Open | (DAWプラグイン) | 11〜47秒 |
| 学生の学習・研究 | MusicGen | YuE | 非商用ならOK |
| 日本語歌詞の曲 | Suno v5.5 | Udio | ボーカル後処理を見込む |
7.2 デシジョンツリー
スタート
│
├─ ボーカルが必要か?
│ ├─ いいえ → Mubert / Stable Audio / MusicGen / Lyria RealTime
│ └─ はい ↓
│
├─ 商用利用か?
│ ├─ いいえ(研究 / 学習) → 何でもOK、MusicGenを含む
│ └─ はい ↓
│
├─ ライセンスのクリーンさが最優先か?
│ ├─ はい → ElevenMusic または YuE / ACE-Stepの自前ホスト
│ └─ いいえ ↓
│
├─ 日本語 / 英語以外の歌詞か?
│ ├─ はい → Suno v5.5を優先、後処理を想定
│ └─ いいえ ↓
│
├─ どの美学が欲しいか?
│ ├─ ポップ / エレクトロニックの滑らかさ → Suno
│ ├─ ヒップホップ / R&B / プロデューサ感 → Udio
│ └─ エンタープライズ / Vertex AI連携 → Lyria 3
7.3 予算別ガイド
| 予算 | おすすめ |
|---|---|
| $0 / 月 | MusicGen + 4090 または クラウドGPU。Suno無料ティアで1日5曲。 |
| $10 / 月 | Suno Pro単独。ほとんどのコンテンツ制作者にはこれで十分。 |
| $30 / 月 | Suno Pro + Udio Standard + Mubert。美学の選択肢が豊か。 |
| $100+ / 月 | Suno Premier + ElevenMusic + Stable Audio 2.5。商用プロダクション。 |
| $1,000+ | 自前4090ボックス + YuE自前ホスト + サブスクの組み合わせ。スタジオ / ゲームチーム。 |
エピローグ — チェックリスト、アンチパターン、次回予告
AI音楽は2023年の「面白いね」から、2026年の「これでリリースする」まで来た。中心にあるのは、ボーカルがボーカルらしく聴こえ始め、長さが曲らしくなり、美学がジャンルごとに馴染んだことだ。同時に — 日本語ボーカル、4分超の一貫性、商用ライセンスの安全性は未解決のまま残っている。2026年7月のSuno略式判決の審理が、このカテゴリの次の1年を決めることになりそうだ。
ツール選択チェックリスト
- ボーカルは必要か? — 不要ならMubert / Stable Audioのほうがはるかに安全。
- 商用利用か? — Pro以上の加入、明示的ライセンス、永続権の確認。
- 言語は英語か? — 違うなら後処理とボーカル再録音の予算を確保。
- 何分の長さか? — 3分超はExtend / 連結で解くか、インストにとどめる。
- ジャンルの美学は何か? — Suno(ポップ)、Udio(HipHop/R&B)、Lyria(エンタープライズ)。
- 出力にステム分離が要るか? — Suno Studioがほぼ唯一強い。
- オンライン依存が負担か? — YuE / ACE-Stepのローカル実行を検討。
- ワークフローが反復的か? — Mubert API、Suno API、Lyria RealTime APIを活用。
- 著作権の安全性が最優先か? — ElevenMusic、または学習データを明示するモデル。
- AI出力を最終ではなくドラフトとして扱う準備はあるか? — 最も本質的な問い。
アンチパターン
| アンチパターン | なぜ悪いか | 代わりに |
|---|---|---|
| 最初の生成をそのまま使う | 平均品質が低い | 10〜20個生成してキュレーション |
| 有名アーティスト名をプロンプトに直書き | ライセンスのグレーゾーン、Content IDリスク | "late-80s synth-pop" のような抽象描写 |
| 日本語曲を英語学習の仮定のまま評価 | 発音の不自然さに気づかず出してしまう | 母国語話者1名以上にレビューしてもらう |
| 無料ティアで商用リリース | ライセンス違反 | 最低でもPro加入 |
| 4分のフルソングを一発で受け取る | 後半の一貫性が崩れる | 短く受けて繋ぐ、またはExtend |
| MusicGenの出力を商用広告に使用 | CC BY-NC 4.0違反 | YuE / ACE-Step または コンシューマツール |
| ボーカル明瞭度を未点検 | 歌詞の聞き取れない曲を出す | 外部リスナー3名に歌詞を聞き取らせる |
| Lyria 3を無料ツールと思う | Vertex AIの料金体系を理解していない | 単価計算機で分あたりコストを確認 |
| AI出力を「自分が作曲」と表記 | 表示義務 / 著作権論争のリスク | 「AI支援作曲」と明記 |
| 単一モデルに依存 | 1モデルの限界が作品の限界になる | 2〜3モデルを美学別に使い分ける |
次回予告
次回は 「AIビデオ生成 2026 — Sora・Veo・Runway・Pika・Kling、そして実際に何が違うのか」 の予定だ。音楽と同じパターンで、カテゴリの爆発(2024年のSoraデモ)と成熟(2026年の商用ツール群)、ボーカルに相当する最難箇所(長尺の一貫性、キャラクタの同一性、指)、オープンソース選択肢(Open-Sora、Mochi、Wanなど)、使いどころ(広告、短い映像、コンセプトビジュアル)、そして著作権の議論(NYT-OpenAI、Disneyのライセンスモデル)を同じ深度で扱う。
参考 / References
- Suno v5.5 公式アナウンス
- Suno公式サイト
- Suno v5.5 — Music Business Worldwide
- Udio公式サイト
- Udio Wikipedia
- Udio - Sacra 企業情報
- Music Ally — Udioローンチ
- Universal Music と Udio の合意 — Billboard
- Udio-Kobalt ライセンス合意 — MBW
- RIAA プレスリリース — Suno・Udio 提訴
- RIAA Suno 訴状 PDF
- RIAA Udio 訴状 PDF
- Music Industry AI Lawsuits Tracker — Chartlex
- AI Music Lawsuits Settlements Timeline — Dynamoi
- Lyria 3 — Google DeepMind 公式
- Lyria RealTime — Google DeepMind
- Lyria 2 発表 — DeepMind Blog
- Googleの ProducerAI/Riffusion 買収 — Awesome Agents
- ElevenLabs Music 公式
- ElevenLabs 音楽アプリ — TechCrunch
- ElevenLabs 商用ライセンス音楽 — TechCrunch 2025
- ElevenMusic 発表 — Billboard
- Meta AudioCraft 公式
- MusicGen Hugging Face
- Meta AudioCraft 発表ブログ
- Stable Audio 2.5 — Stability AI
- Stable Audio Open 発表
- Stable Audio Open 1.0 — Hugging Face
- Stable Audio Open Small + Arm
- YuE GitHub
- YuEGP GPU-poor フォーク
- ACE-Step 1.5 GitHub
- Riffusion-hobby GitHub
- Riffusion Hugging Face
- Mubert 公式サイト
- Mubert API
- Spheron — オープンソース音楽モデル GPUクラウドガイド
- 10 Best AI Music Generators 2026 — fal.ai
- Billboard — 2025年 AI音楽の重要ニュース10選
- AI Music Copyright Legal Risks 2026 — Silverman Sound