Google Cloude の Text-to-Speech でニュース風ポッドキャストを生成する

2人のアナウンサーによるニュース風ポッドキャストを生成する方法の作業メモです。

背景

AI に関する情報更新が多く、学習や情報発信のために音声ファイルもしくはポッドキャストにして配信する人がいます。 Google の NotebookLM や Microsoft 365 Copilot ノートブックでは資料をもとにポッドキャスト風の音声ファイルを生成することができます。

音声オプションを選ぶ

記事の執筆時点で30の音声オプションがあります。音声オプションのリストを参照してください。

名前	名前	名前
Zephyr -- Bright	Puck -- Upbeat	Charon -- Informative
Kore -- Firm	Fenrir -- Excitable	Leda -- Youthful
Orus -- Firm	Aoede -- Breezy	Callirrhoe -- Easy-going
Autonoe -- Bright	Enceladus -- Breathy	Iapetus -- Clear
Umbriel -- Easy-going	Algieba -- Smooth	Despina -- Smooth
Erinome -- Clear	Algenib -- Gravelly	Rasalgethi -- Informative
Laomedeia -- Upbeat	Achernar -- Soft	Alnilam -- Firm
Schedar -- Even	Gacrux -- Mature	Pulcherrima -- Forward
Achird -- Friendly	Zubenelgenubi -- Casual	Vindemiatrix -- Gentle
Sadachbia -- Lively	Sadaltager -- Knowledgeable	Sulafat -- Warm

Google AI Studio でそれぞれの音声オプションのサンプル音声を確認することができますが、すべて英語です。日本語のサンプル音声を聞きたい場合、こちらの Youtube 動画が参考になります。

2人構成にする場合、Gemini に質問すれば候補を探してもらえます。私の場合、Sulafar の相方として Charon、Rasalgethi、Kore または Orus が推薦されました。

脚本をもとに音声ファイルを生成する

Gemini speech generation のページから音声ファイルを生成できます。

Gemini に脚本のサンプルを作ってもらうことができます。

[全体スタイル指示]
・話者間の会話のテンポを意識し、自然な掛け合いになるように。
・重要なニュース部分はやや落ち着いたトーンで、フリートーク部分は少し明るいトーンで。

[セクション1: オープニング]

[話者: Sulafar]
[スタイル: 親しみやすく、少し明るいトーンで]
皆さん、おはようございます！火曜日の朝、いかがお過ごしでしょうか？「未来の扉」へようこそ！パーソナリティのSulafarです。

[話者: Orus]
[スタイル: 落ち着いて、しかしはっきりと]
そして、Orusです。今日も一日、皆さんの知的好奇心を刺激する情報をお届けしてまいります。Sulafarさん、今日もよろしくお願いします。

[話者: Sulafar]
[スタイル: 穏やかに]
はい、Orusさん、こちらこそ！ジメジメした梅雨の時期ですが、気分だけは爽やかにいきたいですね。

[話者: Orus]
[スタイル: わずかに笑顔を意識して]
ええ、まさに。それでは早速ですが、本日の主要ニュースからお伝えします。

公開するメディアを選ぶ

一番手軽なのは YouTube です。YouTube Studio にアクセスし、チャンネルのコンテンツの上側の「ポッドキャスト」から配信する動画のリストを作成することができます。別の選択肢は Spotify です。

ffmpeg で1枚の画像と音声ファイルから動画を生成する

YouTube でポッドキャストを配信する場合、動画ファイルを用意する必要があります。ffmpeg を使えば1枚の画像と音声ファイルから動画を生成することができます。

ffmpeg -loop 1 \
-i image.png -i voice.wav \
-c:v libx264 -tune stillimage -c:a aac \
-b:a 192k -pix_fmt yuv420p \
-shortest output.mp4

細かいオプションの調整方法は Gemini に質問してください。画像サイズは公開するメディアに合わせる必要があります。YouTube 動画の推奨アスペクト比は横長の16:9で、1920x1080px や 1280x720px が推奨されています。画像の生成は Gemini や ChatGPT に依頼するか、Google の ImageFx などの画像生成専門のサービスで利用できるプロンプトを ChatGPT や Claude に生成してもらうというやり方があります。

音声ファイルに BGM を追加する

BGM は DOVA-SYNDROME を探すか、非営利なら Suno AI の無料アカウントで生成することができます。Suno で音楽を生成するためのプロンプトは ChatGPT などで教えてもらえます。音声ファイルと BGM ファイルを用意したら ffmpeg でまとめます。

ffmpeg -i voice.wav -i bgm.mp3 \
-filter_complex "[1:a]volume=0.2[a1];[0:a][a1]amix=inputs=2:duration=first:dropout_transition=2" \
-c:a libmp3lame -q:a 2 output.mp3

duration=first を指定することで音声ファイルが終了したら作業は終了します。volume=0.2 で音量を20％に下げています。

BGM のループファイルを作成する場合、次のコマンドを実行します。

ffmpeg -i bgm.mp3 -filter_complex "[0:a][0:a]concat=n=2:v=0:a=1" output_twice.mp3

concat=n=2 でループ2回分です。

masakielastic/README.md

Select an option

No results found