SOTA音楽・オーディオ生成の分析 — ニューラルコーデックと生成モデル

はじめに
オーディオ表現: 何をモデリングするか
自己回帰オーディオ言語モデル
- 発想
- MusicGen系列
拡散ベースのオーディオ
テキスト音楽条件付け
商用と研究 (概念中心)
比較表: アプローチ別の整理
全体パイプライン図
評価
著作権と倫理の論点
強み
限界と未解決の問題
実務的な含意
おわりに
参考資料

はじめに

テキスト・画像・動画の生成が成熟する一方で、オーディオと音楽の生成も急速に発展しました。オーディオには固有の課題があります。毎秒数万個のサンプルからなる長いシーケンスであり、人間の耳はわずかな歪みにも敏感です。この記事では、オーディオ表現の方式からニューラルコーデック、自己回帰オーディオ言語モデル、拡散ベースのオーディオまで、SOTA音楽・オーディオ生成の共通原理を系譜を中心に整理します。

この分野も急速に変化します。以下の内容は広く知られている概念・論文・アーキテクチャ系列を基準としており、特定の商用モデルの詳細な仕様や順位を断定するものではありません。

オーディオ表現: 何をモデリングするか

オーディオ生成の最初の問いは「何を予測するか」です。表現方式によってモデル構造は大きく変わります。

波形(waveform)

最も原初的な表現は、時間に沿った振幅値の並び、すなわち波形です。44.1kHzのオーディオなら1秒間に44100個のサンプルがあります。波形を直接予測する方式は品質の上限が高いのですが、シーケンスが極端に長くモデリングが難しくなります。

波形: 時間 -->  ...-0.2, 0.1, 0.4, 0.3, -0.1, -0.5...  (毎秒数万個のサンプル)

スペクトログラム(spectrogram)

波形を短い区間に分けて周波数成分に変換した表現です。時間-周波数の2次元画像のように扱えるため、画像生成の技法を借用しやすいです。ただしスペクトログラムを再び波形に戻す(ボコーダ)段階が必要です。

スペクトログラム: 縦軸=周波数, 横軸=時間, 値=強度 (画像のように扱う)
        --> [ボコーダ] --> 波形

ニューラルコーデック(neural codec)

最近のSOTAの核心はニューラルコーデックです。オーディオを少数の離散トークン(discrete token)のシーケンスに圧縮するニューラルネットワークです。代表的なものにSoundStreamとEnCodec系列があります。

核心は**残差ベクトル量子化(residual vector quantization, RVQ)**です。オーディオを複数段階のコードブックで階層的に量子化し、短いトークンシーケンスでも高い音質を収めます。

[波形] --エンコーダ--> [連続表現] --RVQ量子化--> [離散トークンシーケンス]
                                                     |
[波形] <--デコーダ-- [連続表現] <--逆量子化-- [離散トークンシーケンス]

RVQ階層:
 1段階コードブック --> 残差 --> 2段階コードブック --> 残差 --> ... (精度が累積)

ニューラルコーデックの離散トークンは、言語モデルが扱うのに理想的です。テキストトークンのようにオーディオトークンを予測すればよいからです。この橋渡しがオーディオ言語モデルの台頭を導きました。

自己回帰オーディオ言語モデル

発想

オーディオを離散トークンに変換してしまえば、言語モデルとまったく同じく「次のトークン予測」でオーディオを生成できます。AudioLM系列がこのアプローチを提示しました。オーディオトークンを言語モデルのように自己回帰でつなぎ合わせ、自然な音を作ります。

AudioLM系列はしばしば2種類のトークンを併用します。意味(semantic)トークンは長期的な構造・内容を担い、音響(acoustic)トークンは細かな音色・音質を担います。大きな構造を先に捉え、細部の音響を埋める階層的な生成です。

[意味トークン予測] --> 曲の大きな流れ/構造
        |
[音響トークン予測] --> 細かな音色/質感 (ニューラルコーデックトークン)
        |
   [コーデックデコーダ] --> 波形

MusicGen系列

**MusicGen(arXiv 2306.05284)**は、テキスト条件付き音楽生成を単一のトランスフォーマー言語モデルで扱った代表事例です。EnCodecのコーデックトークンの上で自己回帰生成を行いつつ、複数のRVQ階層トークンを効率的に配置する(コードブックのインターリービング)方式を用います。テキストの説明やメロディを条件として受け取り音楽を生成します。

[テキストプロンプト] --テキストエンコーダ--> [条件埋め込み]
                                        |
[コーデックトークン群] --自己回帰トランスフォーマー--> [次のコーデックトークン予測]
                                        |
                                  [EnCodecデコーダ] --> 音楽波形

自己回帰アプローチの利点は、言語モデルのインフラをそのまま再利用できる点です。欠点は、トークンを一つずつ順次生成するため長いオーディオでは遅くなりうる点です。

拡散ベースのオーディオ

もう一つの大きな流れは拡散モデルです。画像拡散のように、オーディオ(主にスペクトログラムや潜在表現)にノイズを混ぜてから戻す方式で生成します。

スペクトログラム拡散: 時間-周波数表現の上で拡散を行い、ボコーダで波形を復元します。
潜在オーディオ拡散: オーディオを潜在空間に圧縮した後、その上で拡散を行います。画像の潜在拡散と同じ発想です。

[純粋なノイズ] --> [拡散バックボーン: U-Net または DiT] --デノイズ反復--> [オーディオ潜在/スペクトログラム]
                                                                        |
                                                          [デコーダ/ボコーダ] --> 波形

拡散アプローチの利点は、並列的に全体を仕上げていくため自己回帰の順次ボトルネックが少ない点です。最近ではオーディオでもflow matching / rectified flow系列を使う流れが現れています。自己回帰と拡散は排他的ではなく、状況に応じて混合・選択されます。

テキスト音楽条件付け

テキストで音楽を制御するには、テキストの説明を埋め込んで生成過程に注入します。画像・動画と原理は同じです。

テキストエンコーダ: T5系列などでプロンプト(「穏やかなローファイヒップホップ、雨の夜の雰囲気」)を埋め込みます。
注入方式: 自己回帰モデルでは条件トークンとして前に付けるかクロスアテンションで、拡散モデルではクロスアテンションで注入します。
追加条件: メロディ、コード進行、リズム、参照オーディオなどを条件として与えられます。これは音楽的な制御性を大きく高めます。

[テキスト/メロディ条件] --> [条件埋め込み]
                             |
[生成バックボーン(AR または 拡散)] <-- 条件注入
                             |
                    [コーデック/ボコーダ] --> 音楽

商用と研究 (概念中心)

研究側では、AudioLM、MusicGen、EnCodec、SoundStreamなどが公開されたアイデアの基盤を提供しました。商用側では、SunoやUdioのようなサービスが存在すると知られており、歌(ボーカルを含む)の生成で印象的な品質を示すと評価されています。ただし商用モデルの内部構造はほとんど非公開であるため、ここでは公開されたアーキテクチャ系列の原理のみを扱います。

共通して観察される方向は次のとおりです。(1)ニューラルコーデックでオーディオを離散トークン化、(2)自己回帰または拡散でトークン/潜在を生成、(3)テキスト・メロディの条件付け、(4)コーデックデコーダやボコーダで波形を復元。詳細な性能・順位はプロンプト・ジャンル・評価方式によって大きく変わるため、断定は避けます。

比較表: アプローチ別の整理

軸	自己回帰オーディオLM	拡散ベースのオーディオ
表現	コーデック離散トークン	スペクトログラム/潜在
生成方式	次のトークン予測(順次)	反復デノイズ(並列的)
代表系列	AudioLM, MusicGen	スペクトログラム/潜在拡散
強み	言語モデルインフラの再利用	順次ボトルネックの緩和
弱み	長いオーディオで遅くなりうる	ボコーダ/デコーダの品質に依存
条件付け	条件トークン/クロスアテンション	クロスアテンション

値は系列の一般的な傾向であり、特定のモデル構成とは異なる場合があります。

全体パイプライン図

[テキストプロンプト] (+ メロディ/参照オーディオ)
        |
 [テキストエンコーダ]
        |
 [条件埋め込み] ---------------------+
                                    |
 [生成バックボーン]                 |
   - 自己回帰: コーデックトークンを順次予測 <--+
   - または拡散: 潜在/スペクトログラムのデノイズ
        |
 [ニューラルコーデックデコーダ / ボコーダ]
        |
   [最終オーディオ波形]

評価

オーディオ生成の評価は主観性が強いです。

自動指標: オーディオ品質(例: FAD系列)とテキスト-オーディオの整合度(例: CLAPベースの類似度)などが用いられますが、音楽的な魅力や感情を完全に捉えることはできません。
人間評価: 実際には聴取の選好比較が最も信頼されます。ただしコストが大きく好みが介在します。
注意点: 順位はジャンル・プロンプト・長さ・評価方式によって変わります。「何が最高か」という断定よりも、条件を明示した比較が必要です。

著作権と倫理の論点

音楽・オーディオ生成は、特に著作権と倫理の論点が先鋭です。

学習データの出所: 著作権のある音源を学習に使ったか、スタイル・声を模倣したかが核心的な論点です。
声・アーティストの模倣: 特定の歌手の声を複製する問題は、肖像・パブリシティ権と絡みます。
盗用・類似性: 生成物が既存の曲と過度に類似するリスクを管理しなければなりません。
透明性: 生成オーディオであることを表示したりウォーターマークを付けたりする方向の議論が進行中です。

技術的性能とは別に、これらの論点は商用化の核心的な制約であり、社会的な議論の対象です。

強み

アクセシビリティ: テキストだけで音楽・効果音・オーディオを素早く作れます。
モジュール性: コーデック、生成バックボーン、ボコーダが分離されており、部品の交換・改善が容易です。
制御性の向上: メロディ・コード・参照オーディオの条件により音楽的な制御が可能になりました。
効率化: ニューラルコーデックの離散トークン化のおかげで、長いオーディオも扱いやすくなりました。

限界と未解決の問題

長期的な構造: 曲全体の一貫した構成(導入-展開-サビなど)は依然として難しいです。
微細な品質: 人間の耳は微細な歪みに敏感なため、アーティファクトが容易に露呈します。
評価基準の不在: 音楽的な魅力を定量化する信頼できる指標が不足しています。
著作権・倫理: 先に扱ったデータ・模倣・透明性の論点が大きく残っています。
制御の精度: 特定の楽器・拍子・感情を精密に指定する制御は発展途上です。

実務的な含意

高速なプロトタイピングには強力ですが、商用利用時には著作権・ライセンスの検討が必須です。
精密な制御が必要なら、メロディ・コードのような構造条件を併せて与えるほうがよいです。
自己回帰と拡散は状況ごとのトレードオフがあるため、対象用途で直接比較するほうが安全です。

おわりに

音楽・オーディオ生成のSOTAの共通基盤は、「ニューラルコーデックのトークン化 + 自己回帰または拡散生成 + テキスト・メロディの条件付け」に要約されます。EnCodec/SoundStreamが表現の橋を架け、AudioLM/MusicGenが言語モデル式の生成を開き、拡散系列が並列的な代替を提示しました。商用サービスの順位や詳細は急速に変わりますが、この原理を理解すれば新しいモデルの構造を素早く把握できます。