Skip to content
Published on

AI音楽生成 2026 — Suno・Udio・Stable Audio・MusicGen・Mubert・ElevenLabs・Lyria、いまどこまで来たのか

Authors

プロローグ — 2年で何が変わったのか

2023年夏、AIで作った音楽は玩具だった。一小節のメロディ、ぎこちないリズム、ボーカルは無いか、あっても聞き取れない。MetaがMusicGenをオープンソースで公開したとき、人々は「面白いね」とは言ったが、「これで曲を書く」とは言わなかった。

2024年春、Sunoがv3をリリースし、Udioがベータを開けた頃、空気が変わる。テキスト一行で、ボーカルのある2分の曲が出てきた。ぎこちない箇所はあるが、初めて「あれ、これ本物だ」という声が出た。同年6月、米国のRIAA(レコード業界協会)はSunoとUdioを相手取り、大規模な著作権侵害訴訟を提起した。業界が本気で見始めた証拠だ。

2026年5月のいま、風景はまた変わった。Sunoはv5.5でユーザーの声をクローンし、個人モデルのファインチューニングを提供する。UdioはUniversal・Warner・Kobalt・Merlinと順次ライセンス合意を結んだ。GoogleはRiffusionの後継ProducerAIを買収し、Lyria 3に統合した。ElevenLabsは音声から音楽へカテゴリを拡張した。オープンソース側ではYuE、ACE-Step、DiffRhythmといったボーカル付きフルソングモデルが4090一枚で動く。

それでも — ボーカルは依然として一番難しい。日本語の歌詞は英語より不自然に聞こえる。4分を超えると一貫性が崩れる。商用に安全な出力を担保するモデルは数えるほど。そしてRIAAのSuno訴訟は、2026年7月に略式判決の審理が予定されている。

この記事はその風景を整理する。どの道具がどの仕事に向くか、なぜボーカルが難しいか、オープンソースはどこまで来たか、訴訟はどう動くか、インディゲームのサウンドトラックやポッドキャストのイントロ、YouTubeのBGM、作曲のアイデア出しで実際にどう使うか — を見る。AIが音楽を壊すという話でもなく、AIが音楽を救うという話でもない。実務者が暮らす中間地点を書く。

ひとことで言えば: 2026年のAI音楽は「人間の代替」ではなく「これまで作れなかった人が作り始める」道具だ。その境界を知れば道具選びは簡単になる。


1章 · カテゴリの誕生 — 2023〜2024年に何が起きたか

1.1 二つの技術系譜

AI音楽生成は二つの技術系譜が合流した結果だ。

系譜1: 自己回帰トークンモデル。 テキストLLMのようにオーディオをトークン化し、次のトークンを予測する。MetaのMusicGen(2023年)、GoogleのMusicLM(2023年)、Sunoの初期版はこの系列。学習は、EnCodecのようなニューラルオーディオコーデックでオーディオを圧縮しトークンにし、その系列をTransformerが学習する。

系譜2: 拡散ベースのオーディオ。 画像拡散(Stable Diffusion)のアーキテクチャをオーディオに応用する。Stability AIのStable Audioが代表例。Riffusionはもっと巧妙な手を使った — オーディオをスペクトログラム(周波数の画像)に変換し、画像拡散をかけ、結果の画像をオーディオに戻す。

2024年に入ると二つが混ざり、ボーカル合成が結合する。SunoとUdioの本当のジャンプは「テキストからボーカルと歌詞のあるフルソング」を作ったことだ。それまではほぼすべてインストゥルメンタル(伴奏)だった。

1.2 なぜ突然良くなったのか

三つの変数が同時に動いた。

  1. データ。 ライセンス済みの大規模な音楽カタログ(あるいは — 訴訟が主張するように — スクレイピングされたカタログ)を学習に使えるようになった。MusicGenは約20,000時間のライセンス済み音楽で学習されている。
  2. 計算資源。 H100/H200のクラスタで、数十億パラメータのオーディオモデルを合理的な時間で学習できるようになった。
  3. アーキテクチャ。 ニューラルオーディオコーデック(EnCodec、SoundStream)が、オーディオをLLMのように扱えるトークンへ圧縮する道を開いた。

この三つが揃ったとたん、テキストLLMでうまくいったこと — 「もっともらしい次のトークンを予測する」 — が音楽でも動き始めた。

1.3 RIAAの爆弾 — 2024年6月

2024年6月24日、米国RIAAはUniversal・Warner・Sonyを代理し、Sunoをマサチューセッツ連邦地方裁判所、Udioをニューヨーク南部地方裁判所で訴えた。中心的主張は「許可なく著作権保護されたレコーディングを学習に用いた」。両社の弁護は「変革的フェアユース(transformative fair use)」だ。

この訴訟は単なる紛争ではない。AI音楽カテゴリ全体の商業的運命を決める。学習データが違法と判決されればモデルの再学習が必要になり、出力のライセンス構造そのものが変わる。だから2025年末からは和解の波が来た。


2章 · コンシューマツール — Suno・Udio・Lyria・ElevenMusic

2.1 Suno — カテゴリリーダー

2026年5月時点で、もっとも使われているテキスト→ソング道具はSunoだ。v3(2024年初)→ v4(2025年)→ v5(2025年末)→ v5.5(2026年3月26日)と進化してきた。

v5.5の核は三つ。

  • Voices. ユーザーが30秒ほど自分の歌声を録音して登録すると、AIがその音色で歌う。Pro・Premier加入者限定。デフォルトでプライベート。
  • Custom Models. 自分のカタログ(自作曲など)をアップロードしてv5.5をそのスタイルにファインチューンする。最大3つまで。
  • Studio. ボーカル・ベース・ドラム・ハーモニー・楽器のステム(stem)を分離トラックで受け取る。DAWに持ち込んで後処理ができる。

品質は? 英語の歌詞、ポップ/ロック/エレクトロニック/フォークといったメインストリームのジャンルなら、初めて聴く人は人間が作ったと信じるレベルだ。日本語の歌詞は発音と韻律がぎこちなくなる(2025年から着実に良くなっているが、英語よりは弱い)。ジャズの即興や、構造の複雑なクラシックのオーケストレーションはまだ弱い。

商用ライセンスはPro以上で明示的に許諾される。ただしRIAA訴訟が進行中である以上、「100%安全」と謳うのは難しい。

2.2 Udio — もう一つの美学

UdioはGoogle DeepMindの元研究者たちが2023年12月に創業した。CEOはDavid Ding。シードラウンド($10M、2024年4月)はAndreessen Horowitzがリードし、Instagramの共同創業者Mike Krieger、will.i.am、Common、ほか音楽業界の著名人が参加した。

Udioの結果物はSunoと微妙に異なる。Sunoが「ポップ的」で滑らかな寄りなら、Udioは「プロデューサが仕上げたトラック」のような質感がある。ヒップホップ、R&B、ラテン、エレクトロニックで特に評価が高い。

2025年10月29日、Universal Music GroupがUdioと和解した。和解金 + 2026年に出るジョイントAI音楽プラットフォームのライセンスディールが含まれる。11月25日にはWarnerも和解した(数百万ドルの和解金 + ライセンスパートナーシップ + SongkickをWarnerからSunoへ売却するパッケージ)。その後、Kobalt、Merlinも順次ライセンス合意した。2026年5月時点で、Udioに対し能動的に訴訟を続けているのはSonyだけだ。

2.3 Lyria 3 (Google DeepMind)

Googleは二方向で動いた。

Lyria自体のモデル。 Lyria 2(2025年5月)からLyria 3(2026年2月18日)へ。48kHzステレオ、最大3分、スペクトログラムではなくオーディオトークンを直接扱う。SynthIDウォーターマークが必須。Vertex AI・Gemini APIでアクセスする。

Riffusion買収。 2026年2月24日、GoogleはProducerAI(旧Riffusion)を買収した。ProducerAIは100万ユーザーを擁する会話型音楽生成エージェントだった。買収後Lyria 3に統合された。スペクトログラム拡散の系譜は、Lyria 3の中に吸収されたかたちだ。

2.4 Lyria RealTime — 別の使い方

Lyria RealTimeは別物として見るべきだ。「一曲を生成する」のではなく「ストリーミングのオーディオをライブで制御する」モデルだ。スタイル、テンポ、ムードをリアルタイムで調整しながら無限の音楽を流す。ライブ配信、ゲームBGM、インタラクティブなインスタレーションが主用途。Gemini APIでアクセス。

2.5 ElevenMusic (ElevenLabs)

音声合成で知られるElevenLabsは、2025年8月5日にEleven Musicを発表し、2026年4月1日にiOSアプリとともにElevenMusicとして本格的なコンシューマプラットフォームへ展開した。

差別点はライセンスだ。Merlin Network、Kobalt Music Group、SourceAudioと事前に学習データのライセンス契約を結んでいる。マーケティング上「商用にクリアだ」と謳う。RIAA陣営のメジャーカタログを学習に使っていないというのが鍵。

機能としては、長さの調整、歌詞の有無の選択、既存曲のリミックス(ジャンル・テンポ変更)ができる。無料ティアは1日7曲まで。ElevenLabsの音声合成と組み合わせると、ボーカルキャラクタをより細かく制御できる。

2.6 比較 — コンシューマツール

ツールボーカル品質インスト日本語歌詞長さ商用ライセンス主用途
Suno v5.5とても高い高い最大8分Pro以上で明示作詞作曲、コンテンツ
Udio高いとても高い最大4分+Standard以上プロデュース、HipHop/R&B
Lyria 3中(歌詞少なめ)とても高い弱い最大3分Vertex AI規約エンタープライズ統合
ElevenMusic高い高い未評価最大5分明示的にクリアコンテンツ制作者
Lyria RealTime非対応高い該当外無限ストリーミングAPI規約ゲーム/ライブ

3章 · オープンソース / ローカルの選択肢 — MusicGen・Stable Audio・YuE・ACE-Step

3.1 なぜオープンソースか

理由は三つ。

  1. コスト。 サブスクなしで無制限生成。手元の4090一枚で動く。
  2. プライバシー。 歌詞やコンセプトが外部サーバに行かない。未発表プロジェクトでは重要。
  3. 制御。 ファインチューニング、シード固定、バッチ生成、自動化パイプラインが可能。

代わりに — 品質はコンシューマツールに半歩遅れ、ライセンスの読み込みが必要。

3.2 MusicGen (Meta、2023)

オープンソースAI音楽の出発点。2023年8月にAudioCraftフレームワークの一部として公開された。テキスト → インストゥルメンタル音楽。

  • パラメータ数。 300M、1.5B、3.3Bの三サイズ。3.3Bは16GB以上のVRAMが推奨。
  • データ。 Metaが所有またはライセンスした約20,000時間の音楽。
  • ライセンス。 モデル重みはCC BY-NC 4.0 — 非商用利用のみ。誤解されやすい点だ。自前ホストすれば商用にできるわけではない。
  • 2026年の状況。 2024年以降、意味のあるアップデートが無い。品質はSuno/Udioに明らかに劣る。そしてボーカルは作れない。

それでも価値はある。「学習用」「オフライン実験」「非商用プロジェクト」「他モデル比較のベースライン」として良い。

3.3 Stable Audio 2.5 / Stable Audio Open

Stability AIの二つのラインを区別する必要がある。

Stable Audio 2.5. 商用SaaS。最大3分、複雑な構成(イントロ・展開・アウトロ)対応。「uplifting」「lush synthesizers」のようなムードプロンプトへの反応が良い。サウンドエフェクト、広告音楽、映像トラックに強い。

Stable Audio Open. オープンソース。通常版は最大47秒。Stable Audio Open Small(341M、Armと共同)はスマートフォンのCPUで11秒のオーディオを8秒以下で生成する。ライセンスはStability AI Community License — 商用・非商用ともに許諾される。

Stable Audio Openはフルソングよりもサウンドデザイン(短い効果音、ループ、テクスチャ、フォーリー)に強い。

3.4 YuE — オープンソースのフルソングモデル

YuEは2025年に登場したオープンソースのフルソング・ボーカルモデルだ。ライセンスはApache 2.0(商用可)。MusicGenにはない「テキストと歌詞 → ボーカル付きフルソング」が可能。

  • ハードウェア。 24GB VRAM推奨。量子化版は8〜16GBでも動く。4090で30秒の生成に約360秒。
  • 最適化フォーク。 DeepBeepMeepなどのGPU-poorフォークがあり、1分の曲を4090で約4分で作る。
  • ライセンス。 Apache 2.0 — 商用使用可。オープンソース音楽モデルの中で最もクリーンな部類。

品質はSuno v5と並ぶレベルではないが、「オープンソース + 商用可 + ボーカル」の三拍子が初めて揃ったモデルだ。

3.5 ACE-Step 1.5 — もう一つのローカル強者

ACE-Step 1.5はMac、AMD、Intel、CUDAデバイスをすべてサポートする点が差別化要素だ。MシリーズのMacでも動くのが大きい。音楽生成 + ボーカル + 程よい品質のバランスが良く、「2026年のローカル音楽の出発点」としてよく推奨される。

3.6 比較 — オープンソース / ローカル

モデルボーカルライセンス最低VRAM長さ強み
MusicGen 3.3B非対応CC BY-NC 4.0(非商用)16GB30秒学習用、ベースライン
Stable Audio Open非対応Stability Community8GB47秒サウンドデザイン
YuE対応Apache 2.024GB推奨1〜5分フルソング、商用可
ACE-Step 1.5対応オープンソース12〜24GBフルソングマルチプラットフォーム
DiffRhythm対応オープンソース16GBフルソング高速推論

4章 · 使いどころ — AI音楽が本当に効く場所

4.1 インディゲームのサウンドトラック

最も適合する分野の一つ。理由は単純で、インディゲームは普通10〜30曲のトラックが必要だが、作曲家に全部発注すれば1万〜5万ドル、ロイヤリティフリーのライブラリで埋めれば他のゲームと音楽が被ってしまう。

AI音楽の強みがちょうどここに刺さる。

  • 量。 1時間に数十曲生成、気に入ったものだけ使う。
  • 固有性。 ライブラリ音楽と違って、他のゲームに同じトラックが入らない。
  • 反復可能性。 同じムードのバリエーションが欲しい時、シードとプロンプトを少し変えて似た曲を増やす。
  • ループ親和性。 ゲームBGMはどうせループ。4分のフルソングは要らない。

実際のインディスタジオのワークフロー。

1. ゲームのムードシートを書く: "neon-lit cyberpunk alley, tense but melancholy, 100 BPM"
2. Suno / Udioで10〜20曲生成、候補を絞る
3. 気に入った1〜2曲のステム(stem)を分離
4. DAWでBPM・キーを合わせ、ループポイントを作る
5. ゲームエンジン(Unity / Unreal)に .ogg / .wav でインポート
6. 適応的音楽システム(FMOD / Wwise)にインタラクティブレイヤを構成

注意点: AI出力のライセンスがゲーム配信(Steam、コンソール)に合うか必ず確認。Suno Pro以上、あるいはElevenMusicのようなクリアモデルを使うのが安全。

4.2 ポッドキャストのイントロ・アウトロ

15〜30秒のシグネチャ・サウンド。AI音楽の弱点(長尺の一貫性)がほぼ露出しない領域。

ワークフロー。

  1. プロンプトでムードとジャンルを指定("upbeat tech podcast intro, synth-driven, 20 seconds, fade-out")
  2. 10〜20個生成、1個選ぶ
  3. ボイスオーバに合わせて磨く
  4. すべてのエピソードで同じトラックを使う — 「ブランドサウンド」になる

コスト: Suno Pro 10/月で十分カバー。作曲家に外注(10/月で十分カバー。作曲家に外注(300〜$1,000)するのと比べれば微々たるもの。

4.3 YouTube・ショート動画のBGM

ここではMubertが特に強い。Mubertはテキスト→ソングではなく、ムードベースの無限トラック生成だ。25分の背景音楽、25のバリエーションを素早く作る。ロイヤリティフリーのライセンスが明確。ミュージシャンが自分のサンプルパックをアップロードすると80%が分配される構造で、学習データの素性も比較的クリーン。

YouTuberにとっての魅力は「Content IDのクレームが付かない」こと。ボーカル入りのSunoトラックでもクレームはあまり付かないが、Mubertはその点がもっとも明確に安全。

4.4 作曲のアイデア出し

プロの作曲家・ソングライターが意外なほど積極的に使う。使い方は二つ。

モチーフ生成。 「こんなコード進行にこんなボーカルメロディはどうか」を素早く試す。結果物をそのままは使わず、アイデアだけを取り出して自分の曲に織り込む。

ガイドトラック。 歌詞を先に書いて、AIでデモを作る。そのデモを聞きながら「この箇所は良い、この箇所は変える」と判断する。それから本物の曲として作り直す。つまりAI音楽がMVPのように働く。

核心マインドセット: AI出力を最終成果物ではなくデザイン道具として使う。傑作が出ないのは当然で、「アイデアジェネレータ」という位置取りが正確だ。

4.5 効かない領域

同じだけ正直に。

  • 高度なクラシック作曲。 四声フーガ、ソナタ形式のような構造的な音楽はまだ弱い。
  • ライブ公演の代替。 ライブのエネルギーは作れない。
  • ジャズの即興。 一貫したモチーフ発展ができない。
  • 大きな商用IP。 メジャー映画のサウンドトラックや、商業広告のメイントラックにはまだ無理(品質ではなく法的安全性のため)。
  • 個性的なボーカル・キャラクタ。 ユーザーの声をクローンするSuno Voicesがほぼ天井。

5章 · 品質の現実 — ボーカルが一番難しい

5.1 なぜボーカルが難しいか

オーディオ生成で最難の二つは(a)長尺の一貫性、(b)ボーカル。ボーカルは特に難しい — 理由は何層にもある。

音韻・発音。 人の声は50ms単位で音素(phoneme)が変わる。モデルが歌詞テキストを受け取り、それをオーディオトークンの発音シーケンスにマッピングする必要がある。英語は学習データが豊富だからうまくいくが、日本語、韓国語、アラビア語のような言語はオーディオデータが相対的に少ない。

プロソディ(抑揚)。 「愛してる」という言葉を悲しく歌うのと楽しく歌うのとでは違う。モデルが歌詞の意味と曲の雰囲気を結合し、抑揚カーブを作らなければならない。

音程の安定性。 人間の歌手は音程を±10セント程度で安定させる。AIは時々±50セントまで揺れる。耳には「ぎこちなく」聞こえる。

発音の明瞭度(intelligibility)。 歌詞が聞き取れる必要がある。ボーカルはメロディを作って終わりではなく、言葉が聞こえなければならない。難しい子音クラスタ(例: "strengths")でモデルがよくぼやける。

5.2 日本語歌詞の追加的な問題

日本語は英語の学習データの1/10〜1/20程度。結果:

  • 母音の長さや拍が不自然(語末の伸ばし、撥音、促音)。
  • 英語的なボーカル発声が日本語に強制される(子音を切らず流す)。
  • 歌詞の自然な韻律を活かせない。

対処: (a) Suno v5.5では日本語出力がv4より明らかに改善している。(b) "j-pop"、"city pop"、"anime opening" など明示的スタイルタグが効く。(c) どうしても不自然なら、英語歌詞で作ったあと、後処理でボーカルを日本語で再録する。

5.3 インストゥルメンタルは意外と良い

逆にインストゥルメンタルは2025年後半からほぼ人間レベル。エレクトロニック、シンセポップ、ローファイ、シネマティックスコア、アンビエント — このあたりは聴き分けがほぼ不可能。だからゲーム・ポッドキャスト・YouTubeのBGMで真っ先に爆発した。

5.4 長さの一貫性

3分を超えるとモデルが「この曲がどこへ向かうのか」を見失い始める。具体的には:

  • モチーフ忘却。 1分で出たメロディのフックが、3分で消える。
  • 構造のぼやけ。 verse-chorus-bridge構造が長くなるほど崩れる。
  • 品質ドリフト。 4分以降、急にボーカルが荒くなる、ミックスが変わる。

対処: (a) 短く作ってDAWで繋ぐ、(b) SunoのExtend機能で部分ごとに延長する、(c) 5分以上は素直にインストにする。


6章 · 訴訟と著作権の議論 — 正直に

6.1 何が争点か

RIAA訴訟の核心は二つ。

  1. 学習データの利用。 「許可なく著作権レコーディングを学習に用いた」。両社は「変革的フェアユース」で反論。
  2. 出力の類似性。 SunoとUdioが、学習データの特定の曲をほぼそのまま再現できる事例があるという主張。

法的争点は結局「AI学習が著作権法のフェアユース4要素(目的、性質、量、市場への影響)を通過するか」だ。

6.2 2026年5月の現状

Suno. Universal・Warner・Sonyすべてとマサチューセッツ連邦地方裁判所でフェアユースを争っている。Sunoは2026年3月に略式判決の申立てを出し、中心審理が2026年7月に予定されている。引用先例は2024年の第2巡回控訴裁判所のBartz v. SoundAI(AI学習を変革的使用と認めた判例)。

Udio. Universal(2025年10月)、Warner(2025年11月)、Kobalt、Merlinと順次ライセンス合意。Sonyだけが能動的に訴訟を続ける。Universalとは2026年に出る共同AI音楽プラットフォーム契約も含まれている。

独立アーティスト。 2025年10月、メジャーとは別に、独立ミュージシャンの集団がSunoとUdioを相手にクラスアクションを提起した。

6.3 どんな結果になるとしても

三つのシナリオを見る。

シナリオA — Suno勝訴(フェアユース認定)。 AI学習が合法化される。すべてのAIモデルが同種の弁護を使う。音楽産業は別のライセンス市場(Universal-Udioの合弁プラットフォームなど)へ移行する。利用者の自由度が最も高い。

シナリオB — Suno敗訴(ライセンス必要判決)。 Sunoはライセンス合意を強いられるか、モデル再学習が必要になる。コストが急増し、サブスク料が上がる。新規参入者はライセンスなしでは始められない。「事前ライセンス」モデル(ElevenMusicなど)が構造的優位に立つ。

シナリオC — 和解で終わる。 最も可能性が高いシナリオ。Universal-Udioモデルのように、メジャーとの合意 + ライセンス + 収益分配の構造が標準になる。産業全体がその方向に揃う。

6.4 利用者がやるべきこと

何の留保もなく安全な使い方: Suno / Udio Pro以上のサブスク、出力に明示的な商用利用権が付与されたプラン、そして可能なら有名アーティストのスタイルを露骨に模倣しない。

さらに安全: ElevenMusicのように「事前ライセンス済みのデータで学習した」と立証可能なモデル、または YuE / ACE-StepのようなApache 2.0オープンソースモデルをローカル実行。

避けるべき: 特定アーティストの声を真似ようとするプロンプト("in the style of [有名歌手]")、そしてその出力を商用配布すること。これは最も明確なリスク。


7章 · 意思決定フレーム — 何を選ぶべきか

7.1 「状況 → 推奨ツール」

状況第1選択第2選択メモ
作曲デモを作るSuno v5.5Udioボーカル品質優先
インディゲームBGMSuno ProMubertステム分離できる方
ポッドキャストイントロSunoElevenMusic30秒ならどこでも
YouTubeバックグラウンドMubertStable Audio 2.5ムードベース無限トラック
広告トラック(商用)ElevenMusicStable Audio 2.5ライセンスのクリーンさ優先
ゲームのライブBGMLyria RealTime(代替ほぼ無し)リアルタイム制御
ローカル / プライベート実験YuEACE-Stepデータを外に出さない
サウンドデザイン(短い効果音)Stable Audio Open(DAWプラグイン)11〜47秒
学生の学習・研究MusicGenYuE非商用ならOK
日本語歌詞の曲Suno v5.5Udioボーカル後処理を見込む

7.2 デシジョンツリー

スタート
 ├─ ボーカルが必要か?
 │   ├─ いいえ → Mubert / Stable Audio / MusicGen / Lyria RealTime
 │   └─ はい ↓
 ├─ 商用利用か?
 │   ├─ いいえ(研究 / 学習) → 何でもOK、MusicGenを含む
 │   └─ はい ↓
 ├─ ライセンスのクリーンさが最優先か?
 │   ├─ はい → ElevenMusic または YuE / ACE-Stepの自前ホスト
 │   └─ いいえ ↓
 ├─ 日本語 / 英語以外の歌詞か?
 │   ├─ はい → Suno v5.5を優先、後処理を想定
 │   └─ いいえ ↓
 ├─ どの美学が欲しいか?
 │   ├─ ポップ / エレクトロニックの滑らかさ → Suno
 │   ├─ ヒップホップ / R&B / プロデューサ感 → Udio
 │   └─ エンタープライズ / Vertex AI連携 → Lyria 3

7.3 予算別ガイド

予算おすすめ
$0 / 月MusicGen + 4090 または クラウドGPU。Suno無料ティアで1日5曲。
$10 / 月Suno Pro単独。ほとんどのコンテンツ制作者にはこれで十分。
$30 / 月Suno Pro + Udio Standard + Mubert。美学の選択肢が豊か。
$100+ / 月Suno Premier + ElevenMusic + Stable Audio 2.5。商用プロダクション。
$1,000+自前4090ボックス + YuE自前ホスト + サブスクの組み合わせ。スタジオ / ゲームチーム。

エピローグ — チェックリスト、アンチパターン、次回予告

AI音楽は2023年の「面白いね」から、2026年の「これでリリースする」まで来た。中心にあるのは、ボーカルがボーカルらしく聴こえ始め、長さが曲らしくなり、美学がジャンルごとに馴染んだことだ。同時に — 日本語ボーカル、4分超の一貫性、商用ライセンスの安全性は未解決のまま残っている。2026年7月のSuno略式判決の審理が、このカテゴリの次の1年を決めることになりそうだ。

ツール選択チェックリスト

  1. ボーカルは必要か? — 不要ならMubert / Stable Audioのほうがはるかに安全。
  2. 商用利用か? — Pro以上の加入、明示的ライセンス、永続権の確認。
  3. 言語は英語か? — 違うなら後処理とボーカル再録音の予算を確保。
  4. 何分の長さか? — 3分超はExtend / 連結で解くか、インストにとどめる。
  5. ジャンルの美学は何か? — Suno(ポップ)、Udio(HipHop/R&B)、Lyria(エンタープライズ)。
  6. 出力にステム分離が要るか? — Suno Studioがほぼ唯一強い。
  7. オンライン依存が負担か? — YuE / ACE-Stepのローカル実行を検討。
  8. ワークフローが反復的か? — Mubert API、Suno API、Lyria RealTime APIを活用。
  9. 著作権の安全性が最優先か? — ElevenMusic、または学習データを明示するモデル。
  10. AI出力を最終ではなくドラフトとして扱う準備はあるか? — 最も本質的な問い。

アンチパターン

アンチパターンなぜ悪いか代わりに
最初の生成をそのまま使う平均品質が低い10〜20個生成してキュレーション
有名アーティスト名をプロンプトに直書きライセンスのグレーゾーン、Content IDリスク"late-80s synth-pop" のような抽象描写
日本語曲を英語学習の仮定のまま評価発音の不自然さに気づかず出してしまう母国語話者1名以上にレビューしてもらう
無料ティアで商用リリースライセンス違反最低でもPro加入
4分のフルソングを一発で受け取る後半の一貫性が崩れる短く受けて繋ぐ、またはExtend
MusicGenの出力を商用広告に使用CC BY-NC 4.0違反YuE / ACE-Step または コンシューマツール
ボーカル明瞭度を未点検歌詞の聞き取れない曲を出す外部リスナー3名に歌詞を聞き取らせる
Lyria 3を無料ツールと思うVertex AIの料金体系を理解していない単価計算機で分あたりコストを確認
AI出力を「自分が作曲」と表記表示義務 / 著作権論争のリスク「AI支援作曲」と明記
単一モデルに依存1モデルの限界が作品の限界になる2〜3モデルを美学別に使い分ける

次回予告

次回は 「AIビデオ生成 2026 — Sora・Veo・Runway・Pika・Kling、そして実際に何が違うのか」 の予定だ。音楽と同じパターンで、カテゴリの爆発(2024年のSoraデモ)と成熟(2026年の商用ツール群)、ボーカルに相当する最難箇所(長尺の一貫性、キャラクタの同一性、指)、オープンソース選択肢(Open-Sora、Mochi、Wanなど)、使いどころ(広告、短い映像、コンセプトビジュアル)、そして著作権の議論(NYT-OpenAI、Disneyのライセンスモデル)を同じ深度で扱う。


参考 / References