Skip to content
Published on

AIポッドキャスト生成 & オーディオコンテンツ 2026 完全ガイド - NotebookLM Audio Overview・Wondercraft・Podcastle・Castmagic・Descript Podcasts・Riverside・Cleanvoice・Adobe Podcast・ElevenLabs Voice Lab 徹底解説

Authors

はじめに — 2024年9月、NotebookLMが変えた風景

2024年9月のある日、GoogleはNotebookLMに「Audio Overview」というボタンを静かに追加した。PDFでもスライドでもウェブページでも、資料を入れてボタンを押すと、5〜15分の二人のホストによる「Deep Dive」ポッドキャストができあがる。声は自然で、ホストは冗談を言い、情報の流れは滑らかだった。二日以内にX(Twitter)は「NotebookLMで自分の論文を聴いた」「自分の履歴書からポッドキャストを作った」という投稿で埋まった。

そこから2026年5月までの一年半は「AIポッドキャスト・ツール爆発期」だった。Wondercraft、Podcastle、Castmagicがフルスタック型AIポッドキャスト・ツールへ成長し、DescriptとRiversideはAI編集機能を強化し、ElevenLabsとCartesiaはTTS品質の天井を引き上げた。本稿は2026年5月時点で「AIでポッドキャストを作る」の全景を整理する。

AIポッドキャスト 2024-2026 進化 — 三段階の跳躍

  • 第1段階(〜2024年8月): AIは補助役。DescriptのOverdub、Adobe Podcast Enhance、Otterの自動文字起こし程度が限界。ホストは人間。
  • 第2段階(2024年9月〜2025年中盤): NotebookLM Audio Overviewが分水嶺。「AIが二人のホストを演じてリアルな会話をする」という新カテゴリ登場。Wondercraftほかが追随。
  • 第3段階(2025年後半〜2026年5月): 個人化・インタラクティブ型AIポッドキャスト。NotebookLM 1.0がユーザーの質問を受ける「Interactive Mode」を追加。Spotifyは聴取履歴をもとにしたAIプレイリストと自動ナレーションを公開。

フルAIポッドキャスト生成器 — NotebookLM、Wondercraft、Podcastle

「資料・トピックを渡せば最後まで作る」カテゴリの2026年5月の代表。

  • Google NotebookLM Audio Overview / Deep Dive(2024年9月公開、2024年10月カスタマイズ追加): 無料。英語以外50以上の言語に拡大。韓国語・日本語は2025年中盤から正式対応。
  • Wondercraft: AIポッドキャストSaaSの代表。テキスト → 複数話者会話 → BGM/効果音まで自動。広告挿入も自動化。
  • Podcastle: AIホスト+実録音を一プラットフォームで。無料枠が強い。
  • NoteGPT、Audyo: NotebookLMクローン系。URL/PDF → オーディオ変換に集中。
  • ElevenLabs Audio Native: ブログ本文をその場で音声化する埋め込みウィジェット。AIポッドキャストというより「テキスト → 音声」だが同じ生態系。
  • Meta Audiobox: 研究段階だが2026年Q1にデモが公開。テキスト+音声プロンプトの組み合わせ型。

NotebookLM Audio Overviewは具体的にどう動くか。ユーザーが資料(ソース)を入れるとGeminiがそれを要約・構造化し、二人のホスト・ペルソナ・システムプロンプトと結合して台本を作り、複数話者TTSで合成する。「Customize」ボタンで口調・長さ・フォーカスを自然言語で指示できる。

NotebookLMの限界 — なぜ「最終形」ではないのか

NotebookLMは強力だが、2026年5月時点でも限界はある。

  • 編集不可: 生成された音声を切ったり、特定部分だけ再生成したりが難しい。長さは自動。
  • ホスト音声の選択肢が限定: デフォルト二音声以外への変更が制限的。
  • 商用利用ガイドラインが曖昧: Googleが「Ethical Use」文書を別途公開したが、広告収益のつくポッドキャストとして配信していいかは灰色領域。
  • 出典表示: AI生成事実を聴取者に明示するガイドラインは定着途上。

Wondercraftのようなツールはこの隙間を狙う。編集可能、音声選択肢が広い、商用利用ライセンスが明確。

音声クローニング + TTS — ElevenLabs、Cartesia、Play.HT、OpenAI Voice

ポッドキャストの「AIホスト」の声は結局TTSエンジンが作る。2026年5月の市場は6〜7社で分割。

  • ElevenLabs: 市場1位。自然さ・感情・多言語が最強。Voice Lab(個人音声クローニング)が鍵。
  • Cartesia: Sonicモデルで低レイテンシ(<100ms)TTS市場を切り開いた。インタラクティブAIホスト向け。
  • Play.HT: ElevenLabsの直接競合。価格でミドルマーケットを取る。
  • HeyGen Voice: HeyGenが映像+音声を一括化。
  • OpenAI Voice + Realtime API: GPT-4o音声モードベース。インタラクティブ・ポッドキャスト候補。
  • Hume EVI(Empathic Voice Interface): 感情認識・トーン調整。人間らしい反応が強み。
  • Sesame: 2025年登場の音声AI。自然さでElevenLabsと比較されるレベル。

TTS APIはだいぶ標準化された。ElevenLabsの例。

from elevenlabs.client import ElevenLabs
from elevenlabs import play

client = ElevenLabs(api_key="sk_xxx")
audio = client.text_to_speech.convert(
    voice_id="21m00Tcm4TlvDq8ikWAM",
    model_id="eleven_multilingual_v2",
    text="2026年5月、AIポッドキャスト市場はNotebookLM公開後に爆発した。",
    output_format="mp3_44100_128",
)
play(audio)

OpenAI Realtime APIは双方向音声チャネルなのでAPIの形が違う。

from openai import OpenAI
client = OpenAI()

# インタラクティブ・ポッドキャスト: ユーザー音声 → AIホストの応答
with client.beta.realtime.connect(model="gpt-4o-realtime-preview") as connection:
    connection.session.update(session={"modalities": ["audio", "text"]})
    connection.conversation.item.create(item={
        "type": "message",
        "role": "user",
        "content": [{"type": "input_text", "text": "今週のAIニュースを要約して"}]
    })
    connection.response.create()

ポッドキャスト・エディタ + AI — Descript、Riverside、Adobe Podcast

録音後の編集段階はまだ人間中心だが、AI補助が前提になった。

  • Descript: テキスト編集で音声を編集(元祖)。Overdub(音声クローニング)、Studio Sound(ノイズ除去)、Underlord(AIアシスタント)、Eye Contactまで。ポッドキャスター・YouTuberの標準。
  • Riverside.fm: リモート録音+4K動画+AI魔法編集。2024年からAI Show Notes、AI Magic Clips、Magic Audio搭載。
  • Cleanvoice: フィラー語(えー、あー)自動除去専門。Descriptの一機能を単体で。
  • Adobe Podcast(旧Project Shasta): Enhance Speechがゲームチェンジャー。ノイズをほぼスタジオ品質に復元。Mic Check、Background Remover追加。
  • Auphonic: 自動レベリング・ノイズ除去の老舗。14年目のサービスがいまだ標準。
  • Veed.io: 映像中心だがポッドキャスト・クリップ抽出に強い。
  • Hindenburg PRO: ジャーナリスト向けDAW。AIノイズ除去統合。
  • Podcastle Magic Dust: ワンクリック・ノイズ・リバーブ除去。

Descriptは2026年5月時点で「ポッドキャスト+映像」の最も統合的なツール。UIフロー。

1. 録音/インポート(mp3, wav, mp4) → 自動文字起こし
2. テキスト中の「えー、あー」を選択削除 → 音声同期
3. Overdubで欠けた単語を再合成(音声モデル事前同意必須)
4. Studio Soundでルームトーン整理
5. Underlordに「1分クリップを5本作って」と自然言語で指示
6. 映像トラックの自動字幕+話者追跡
7. mp3/mp4+RSSプッシュまで1画面

文字起こし + ショーノート — Otter、Castmagic、Capsho、Whisper

ポッドキャスト公開ワークフローの核は「ショーノート」。2026年時点でほぼ100%自動化された。

  • Otter.ai: 会議+インタビュー文字起こしの標準。Generative Summariesで要約・アクションアイテム。
  • Castmagic: ポッドキャスト特化。文字起こし → ショーノート、チャプター、引用、ニュースレター、ツイート、LinkedIn投稿まで一発。
  • Capsho: Castmagicの直接競合。ポッドキャスターのコンテンツ再利用に特化。
  • Podsqueeze: 1エピソード → 80個のマーケティング・アウトプットがピッチ。
  • Swell AI: エンタープライズ・ポッドキャスト・チーム向け。SOC 2など。
  • OpenAI Whisper: 上記多数の基盤モデル。無料・オープンウェイト。
  • Deepgram Aura: TTS+STT統合API。エンタープライズSTTで強い。
  • AssemblyAI: API-first STT。話者分離・感情・エンティティが強み。

Castmagicの典型的出力。

[エピソード99: NotebookLMの衝撃]
- チャプター:
  00:00 イントロ
  01:23 NotebookLM公開背景
  05:40 初回利用体験
  12:15 限界と倫理
  18:50 アウトロ
- 5文要約: NotebookLMは2024年9月... (省略)
- 聴取者質問3つ
- ツイート/Xスレッド8件
- LinkedIn投稿1件
- ニュースレター本文600字
- 8つの引用文

ホスティング + 配信 — Spotify for Podcasters、Apple、Podbbang、Buzzsprout

録音・編集を終えたmp3はホスティング・プラットフォームにアップロードされる。2026年5月の市場は二大ジャイアントと多数のインディ・ホストが共存。

  • Spotify for Podcasters(旧Anchor): 無料ホスティングの事実上の標準。2022年にAnchorブランドが終了して統合。
  • Apple Podcasts Connect: iTunes時代からの起点。RSSフィード登録の標準。
  • Podbean: ビデオ・ポッドキャストとライブに強い。
  • Buzzsprout: インディ・ポッドキャスターの定番。UXフレンドリー。
  • Transistor.fm: マルチショー運用(エージェンシー・企業)で強い。
  • Simplecast: SiriusXM傘下。エンタープライズ。
  • RSS.com、Captivate.fm、Acast: 中規模ホスティング。
  • Spreaker: ライブ放送+ホスティング。iHeartMedia傘下。
  • Megaphone: Spotify傘下。広告挿入インフラ。

Buzzsproutのアップロード → 配信フローはほぼ標準化されている。

1. mp3アップロード(メタデータ自動認識)
2. エピソード題名・説明記入(Castmagic出力をペースト)
3. Apple/Spotify/GoogleにRSS自動登録
4. Buzzsprout Statsで30/90日統計
5. 自動字幕+文字起こしページ生成
6. Magic Mastering(自動マスタリング)

ディスカバリー + SEO — Listen Notes、Podchaser、Goodpods

ポッドキャスト検索は依然として難しい。テキストではなく音声だから。

  • Listen Notes: 「Googleがインデックスしないポッドキャストのグーグル」。約350万番組をインデックス。
  • Podchaser: 「IMDB for podcasts」。ゲスト・ホストのクレジット・データベース。
  • Goodpods: 友達ベース推薦。「ポッドキャストのLetterboxd」。
  • Podscribe: 文字起こし検索。
  • Chartable(Spotify買収後に統合): チャート・アトリビューションは現在Spotify内蔵。

SEO観点で2026年も効果的なチャネルは変わらない。文字起こしを自社ウェブサイトにフルで掲載し、YouTubeに映像版を載せ、Twitter・LinkedInにクリップを配ること。

AI動画クリップ — Headliner、Opus Clip、Repurpose

音声だけでは足りない。短い映像クリップがポッドキャスト・マーケティングの核。

  • Headliner: オーディオグラム(波形+字幕)の元祖。無料枠強い。
  • Wavve: Headliner代替。モバイルフレンドリー。
  • Repurpose.io: 自動マルチプラットフォーム配信(TikTok、Reels、Shorts、LinkedIn)。
  • Opus Clip: AIが長い映像から自動で1分クリップを抽出。2024年からポッドキャスター標準に。
  • Descriptの1-clickクリップ: Descript内部で同じ作業。
  • Munch: 同カテゴリ。AIクリップ抽出。

Opus ClipのClipAnythingフローが典型的。1時間映像をアップすると、AIが話題別・感情別・ハイライト別に自動クリップ化し、縦9:16フォーマットで字幕を入れ、スコア順に並べる。

ライブ・オーディオ — Spaces、Discord、Clubhouseの残り香

2021年のClubhouseブーム以降、ライブ・オーディオは興亡を経た。

  • Clubhouse: 2021年ピーク後に急速衰退。2024年にテキスト・メッセージへピボット試行。2026年時点で稼働中だが影響力は微小。
  • X(Twitter)Spaces: Twitter Spaces → X Spacesにリブランド。最も活発なライブ・オーディオ。
  • Discord Stages: コミュニティ・ゲーミング内部イベント中心。
  • LinkedIn Live Audio: B2B・エンタープライズ・カンファレンス向け。
  • Spotify Live: 2023年終了。ケーススタディとして残る。
  • Telegram Voice Chats: 非公式ライブ・オーディオとしてよく使われる。

Clubhouseの衰退は「ライブ・オーディオは非同期ポッドキャストほど市場が大きくない」という教訓を残した。ライブを録音してポッドキャストとして再公開するハイブリッドが効率的という結論。

韓国ポッドキャスト — Podbbang、Naver Audio Clip、Kakao、Welaaa

韓国ポッドキャスト市場はグローバルとは別の生態系として進化。

  • Podbbang(팟빵): 韓国ポッドキャストの先頭。「ナヌン・ッコムスダ」時代からの累積資産。広告挿入+ホスティング。
  • Naver Audio Clip(네이버 오디오클립): ネイバーのオーディオ統合プラットフォーム。ポッドキャスト+オーディオブック+ラジオ。
  • Kakao Channel Audio: KakaoTalk内部オーディオ。モーメント形式。
  • Welaaa(윌라): オーディオブック+クラス。2026年時点で韓国オーディオブック市場1位候補。
  • Millie's Library(밀리의 서재): 電子書籍+オーディオブック。KT買収後に加速。
  • 国立国語院・公共機関ポッドキャスト: 情報伝達チャネルとして定着。

韓国市場の特殊性は二つ。第一、政治時事ポッドキャストの比重がグローバルに比べ非常に大きい(ナヌン・ッコムスダの遺産)。第二、映像優先文化のためYouTubeポッドキャスト(映像)が純粋音声ポッドキャストより圧倒的に大きい。

日本ポッドキャスト — Voicy、Stand.fm、Radiotalk

日本はまた別の生態系。

  • Voicy: 日本ポッドキャスト事実上1位。「ラジオ的オーディオSNS」ポジショニング。
  • Stand.fm: 誰でもライブで始められる。日本インディ・クリエイターが多数。
  • Radiotalk: モバイル・フレンドリー。短いエピソード中心。
  • Spoon Japan: 韓国Spoonの日本進出。ライブ・ラジオ・音声SNS。
  • Anchor Japan(Spotify): グローバルSpotifyの日本版。
  • himalaya Japan: 中国系オーディオ・プラットフォームの日本進出。

日本市場の特殊性は「ラジオ文化」の痕跡。NHKと民放ラジオの聴取習慣が深く、ポッドキャストもラジオ・フォーマットに似たコンテンツが人気。Voicyの成功がその証拠。

ワークフロー比較 — 人間ホスト vs AIホスト

二つのワークフローの段階別所要時間を比較する(60分エピソード基準)。

段階人間ホスト(2026)AIホスト(2026)
企画+資料調査4〜8時間30分
ゲスト依頼/日程調整2〜5時間0
録音60〜90分5分(生成)
文字起こし自動5分自動
編集1〜3時間0
ショーノートCastmagic自動自動
マスタリングAuphonic 10分自動
アップロード/配信10分10分
合計約10〜16時間約45分

もちろんこれは「量的」比較に過ぎない。人間ホストの1時間はAIホストの1時間よりはるかに聴取者に価値がある可能性が高い。ただし限られた時間資源の配分戦略として、一部コンテンツはAIに任せ、コア・エピソードに人間の時間を注ぐハイブリッドが合理的。

RSSフィードと標準 — ポッドキャストの土台インフラ

ポッドキャストの基本インフラは1990年代からのRSS。2026年になっても変わらない。

  • RSS 2.0: 標準フィード・フォーマット。
  • iTunes Podcast Tags: Appleが定義した拡張。
  • Podcast 2.0 Namespace: podcastindex.orgが主導。transcript、chapters、value-for-valueなどの拡張タグ。
  • Open Podcast Analytics Working Group: IAB標準でダウンロード集計。
  • Spotify Open Access: Spotify単独の計測・推薦。

大半のホスティング・サービスが自動生成したRSSフィードをApple/Spotifyに一度登録すれば、その後は新エピソードが自動プッシュされる。AIワークフローがどこまで進化しても、「RSSに載ったmp3」モデルは堅牢。

NotebookLM 韓国語・日本語 — 2025年中盤の正式対応

NotebookLM Audio Overviewの多言語対応は2025年5月に英語以外50以上の言語へ拡大。韓国語・日本語の品質は次の通り評価される。

  • 韓国語Audio Overview: 2025年中盤正式対応。自然だが外来語の発音(特に人名・地名)がしばしばぎこちない。二人のホスト音声は韓国語ネイティブに近い。
  • 日本語Audio Overview: 同時期対応。韓国語より精度・自然さが高い。日本語NLP学習データがより豊富な影響。
  • 多言語混在資料: 韓国語PDF+英語表のような資料は依然弱い。二言語をぎこちなく混ぜることがある。

この点がWondercraftほか競合の機会。韓国語特化の複数話者TTSをきちんと作ったツールがまだない。

AIリスク — 音声クローニング、偽インタビュー、真正性論争

AIポッドキャストの光と影は明確。

  • 音声クローニング詐欺: 2024年米大統領選シーズンに偽バイデン・ロボコールが話題、2025年韓国大統領選でも類似事件が発生。政治家・有名人音声クローニングの詐欺利用は刑事処罰対象。
  • AI偽インタビュー: 2024年11月にLex Fridman x Trumpの偽ポッドキャスト映像がXで数百万再生(後にラベル付与)。NotebookLM Audio Overviewが自然すぎることが諸刃の剣。
  • 音声著作権: 故人の有名人の声を学習・再現して広告・ポッドキャストに使う事例が増えた(スカーレット・ヨハンソン vs OpenAI Sky音声紛争が代表)。
  • 真正性論争: 「AIが作ったポッドキャストを聴取者が知るべきか」表示義務論争。2025年EU AI Act適用開始後にラベリング義務化推進。
  • ホスト・ペルソナの一貫性: AIホストは「冗談」を言うが、本物の意見はない。聴取者がそれを知る権利。

NotebookLM公開直後にGoogleは「Ethical Use Guidelines」を追加公開し、(1) AI生成事実を聴取者に通知、(2) 個人情報・機密資料は明示同意なしに音声化しないこと、(3) 政治的虚偽情報生成への使用禁止などを明示。

2025-2026 トレンド — 個人化、インタラクティブ、AIキュレーション

最後の二年間の新トレンドを整理。

  1. 個人化AIポッドキャスト: ユーザーの読書リスト・Pocket・Readwise・ハイライトから毎日一本を自動生成。NotebookLM、Recall、Snipdが実験中。
  2. インタラクティブAIポッドキャスト: 2024年12月にNotebookLMが「Join」機能を追加。聴取中に話しかけるとAIホストが応答。2025年にGPT-4o Realtime、Cartesia Sonicが追加。
  3. AIキュレーション: Spotify AI Playlist+自動ナレーション。聴取者の気分・時間帯に合わせてエピソード+短いAIコメントを挿入。
  4. 公共放送のAI実験: NPRが2025年Q1にAI補助ニュース・ポッドキャストのパイロット。BBCがR&D段階で類似の取り組み。すべて「透明性・表示優先」の原則。
  5. 音声クローニング・セキュリティ: 本人確認手順の強化。ElevenLabsは2024年から身元確認+Voice Captchaを運用。
  6. 低消費電力デバイス推論: Cartesia Sonicのような低レイテンシ・モデルで、スマート・スピーカーやイヤホン内蔵AIホストが可能に。
  7. 多言語同時吹替: 一人の話者の声で英語・韓国語・日本語を同時生成。ElevenLabs Dubbingが事実上の標準。
  8. ポッドキャスト広告AI挿入: Spotify・Megaphoneの動的広告挿入がAI音声広告へ進化。

ツール選択ガイド — 目的別おすすめ

2026年5月時点の「何を作りたいか」別おすすめ。

  • 資料 → 短い要約ポッドキャスト(15分): NotebookLM Audio Overview、無料。
  • フルスタックAIポッドキャスト制作: WondercraftまたはPodcastle。
  • 人間ホスト+AI編集: Descript+Cleanvoice+Castmagic組み合わせ。
  • 高品質リモート録音: Riverside.fmまたはSquadcast。
  • ノイズだけ素早く処理: Adobe Podcast Enhance(無料)またはAuphonic。
  • 音声クローニング・多言語吹替: ElevenLabs。
  • インタラクティブAIホスト: OpenAI Realtime APIまたはCartesia+ElevenLabs。
  • コンテンツ再利用: Castmagic+Opus Clip+Repurpose.io。
  • 韓国語ポッドキャスト・ホスティング: PodbbangまたはBuzzsprout。
  • 日本語ポッドキャスト・ホスティング: Spotify for PodcastersまたはVoicy。

価格 — 無料からエンタープライズまで

おおよその2026年5月価格(USD/月)。

  • NotebookLM: 無料(Google One/Workspaceの付帯機能)。
  • Wondercraft: 25から(スターター)25から(スターター)、100から(プロ)。
  • Podcastle: 無料〜24(プロ)24(プロ)〜48(ストーリーテラー)。
  • Descript: 無料〜24(クリエイター)24(クリエイター)〜50(プロ)。
  • Riverside: 無料〜24(スタンダード)24(スタンダード)〜49(プロ)。
  • Cleanvoice: $11から(時間課金)。
  • Adobe Podcast Enhance: 無料(ベータ段階継続)。
  • ElevenLabs: 5(スターター)5(スターター)〜22(クリエイター)〜エンタープライズ。
  • Castmagic: 3939〜99〜エンタープライズ。
  • Otter.ai: 無料〜10(プロ)10(プロ)〜20(ビジネス)。
  • Buzzsprout: 1212〜24〜$36(ホスティング時間別)。
  • Podbbang: 無料+広告収益シェア。
  • Voicy: 無料(クリエイター)+プレミアム・チャンネル収益化。

年額決済で通常15〜20%割引。

最終チェック — 何を測るべきか

ポッドキャストは計測が難しい。それでも2026年5月時点でよく見る指標。

  • ダウンロード(IAB-certified): ホスティング・サービスが基本提供。
  • 聴取完了率: Spotify/Apple分析。
  • 30/60/90日ダウンロード曲線: 新エピソードのモメンタム。
  • 新規 vs 再訪比率: 聴取者ロイヤリティ。
  • エピソード別チャプター聴取率: AIショーノートのチャプター分けで可能になった分析。
  • 文字起こし検索トラフィック: 自社サイトSEO効果。
  • AI生成クリップCTR: Opus/Headlinerクリップの到達。
  • 広告挿入インプレッション: Megaphone/Acastの動的広告。

AIが助けても結局人間が見るのは「聴いて次のエピソードもクリックするか」。単純なダウンロード数より「忠実な聴取者100人」の方が意味があるという結論は変わらない。

おわりに — 「AIは道具、ホストは依然として人間」

2026年5月時点で明確なことは二つ。

第一、低コスト・低頻度のコンテンツはほぼAIに譲った。社内研修資料をポッドキャストにする、論文・ブログ記事を音声で聴く、一週間のニュースを5分要約ポッドキャストで聴く——これらはNotebookLM/Wondercraftで十分。

第二、ホストとゲストの魅力で引っ張るポッドキャストは依然として人間のもの。Lex Fridmanの4時間インタビュー、Joe Roganの論争、政治時事の評論、AIが真似はできても、聴く理由は「その人の意見とその人の経験」。AIはそこには届かない(少なくとも2026年5月時点では)。

道具を上手く使う人が時間を稼ぐ。文字起こしはWhisperに任せ、ショーノートはCastmagicに任せ、クリップはOpusに任せ、ノイズはAdobe Podcastに任せよう。残った時間で良い質問を準備し、良いゲストを呼ぼう。それが2026年のポッドキャスター・ワークフロー。

References