2人のアナウンサーによるニュース風ポッドキャストを生成する方法の作業メモです。
AI に関する情報更新が多く、学習や情報発信のために音声ファイルもしくはポッドキャストにして配信する人がいます。 Google の NotebookLM や Microsoft 365 Copilot ノートブックでは資料をもとにポッドキャスト風の音声ファイルを生成することができます。
記事の執筆時点で30の音声オプションがあります。音声オプションのリスト を参照してください。
| 名前 | 名前 | 名前 |
|---|---|---|
| Zephyr -- Bright | Puck -- Upbeat | Charon -- Informative |
| Kore -- Firm | Fenrir -- Excitable | Leda -- Youthful |
| Orus -- Firm | Aoede -- Breezy | Callirrhoe -- Easy-going |
| Autonoe -- Bright | Enceladus -- Breathy | Iapetus -- Clear |
| Umbriel -- Easy-going | Algieba -- Smooth | Despina -- Smooth |
| Erinome -- Clear | Algenib -- Gravelly | Rasalgethi -- Informative |
| Laomedeia -- Upbeat | Achernar -- Soft | Alnilam -- Firm |
| Schedar -- Even | Gacrux -- Mature | Pulcherrima -- Forward |
| Achird -- Friendly | Zubenelgenubi -- Casual | Vindemiatrix -- Gentle |
| Sadachbia -- Lively | Sadaltager -- Knowledgeable | Sulafat -- Warm |
Google AI Studio でそれぞれの音声オプションのサンプル音声を確認することができますが、すべて英語です。 日本語のサンプル音声を聞きたい場合、こちら の Youtube 動画が参考になります。
2人構成にする場合、Gemini に質問すれば候補を探してもらえます。私の場合、Sulafar の相方として Charon、Rasalgethi、Kore または Orus が推薦されました。
Gemini speech generation のページから音声ファイルを生成できます。
Gemini に脚本のサンプルを作ってもらうことができます。
[全体スタイル指示]
・話者間の会話のテンポを意識し、自然な掛け合いになるように。
・重要なニュース部分はやや落ち着いたトーンで、フリートーク部分は少し明るいトーンで。
[セクション1: オープニング]
[話者: Sulafar]
[スタイル: 親しみやすく、少し明るいトーンで]
皆さん、おはようございます!火曜日の朝、いかがお過ごしでしょうか?「未来の扉」へようこそ!パーソナリティのSulafarです。
[話者: Orus]
[スタイル: 落ち着いて、しかしはっきりと]
そして、Orusです。今日も一日、皆さんの知的好奇心を刺激する情報をお届けしてまいります。Sulafarさん、今日もよろしくお願いします。
[話者: Sulafar]
[スタイル: 穏やかに]
はい、Orusさん、こちらこそ!ジメジメした梅雨の時期ですが、気分だけは爽やかにいきたいですね。
[話者: Orus]
[スタイル: わずかに笑顔を意識して]
ええ、まさに。それでは早速ですが、本日の主要ニュースからお伝えします。
一番手軽なのは YouTube です。YouTube Studio にアクセスし、チャンネルのコンテンツの上側の「ポッドキャスト」から配信する動画のリストを作成することができます。別の選択肢は Spotify です。
YouTube でポッドキャストを配信する場合、動画ファイルを用意する必要があります。ffmpeg を使えば1枚の画像と音声ファイルから動画を生成することができます。
ffmpeg -loop 1 \
-i image.png -i voice.wav \
-c:v libx264 -tune stillimage -c:a aac \
-b:a 192k -pix_fmt yuv420p \
-shortest output.mp4
細かいオプションの調整方法は Gemini に質問してください。画像サイズは公開するメディアに合わせる必要があります。YouTube 動画の推奨アスペクト比は横長の16:9で、1920x1080px や 1280x720px が推奨されています。画像の生成は Gemini や ChatGPT に依頼するか、Google の ImageFx などの画像生成専門のサービスで利用できるプロンプトを ChatGPT や Claude に生成してもらうというやり方があります。
BGM は DOVA-SYNDROME を探すか、非営利なら Suno AI の無料アカウントで生成することができます。Suno で音楽を生成するためのプロンプトは ChatGPT などで教えてもらえます。音声ファイルと BGM ファイルを用意したら ffmpeg でまとめます。
ffmpeg -i voice.wav -i bgm.mp3 \
-filter_complex "[1:a]volume=0.2[a1];[0:a][a1]amix=inputs=2:duration=first:dropout_transition=2" \
-c:a libmp3lame -q:a 2 output.mp3
duration=first を指定することで音声ファイルが終了したら作業は終了します。volume=0.2 で音量を20%に下げています。
BGM のループファイルを作成する場合、次のコマンドを実行します。
ffmpeg -i bgm.mp3 -filter_complex "[0:a][0:a]concat=n=2:v=0:a=1" output_twice.mp3
concat=n=2 でループ2回分です。