MoonCast:中英対応・人間らしい対話音声を生成するオープンソースAIポッドキャスト合成モデルが登場

出典:https://mp.weixin.qq.com/s/GMHtJ2yoan2-IxZYsBy5tg

概要ポイント
  • MoonCastはオープンソースの対話型音声合成モデルで、中英ポッドキャスト音声を自然に生成。
  • 数秒の音声サンプルで“人間味”のあるzero-shot合成が可能。
  • LLMを活用したスクリプト自動生成により、リアルな対話構成を実現。
  • 25億パラメータ、40k文脈長、累計250万時間超の大規模学習で高精度化。
  • GitHubとデモサイトで音声サンプルとコードを公開中。
本文

MoonCastは、中英バイリンガルに対応したAI音声合成モデルとして開発され、ポッドキャストの制作プロセスをゼロから自動化することを目的とする。GitHubでオープンソースとして公開されており、論文とともにデモ音声も試聴可能だ。


特徴的なのは、その“人間味”にある。たった数秒の音声サンプルで話者の声を模倣し、zero-shotで対話形式の音声を自然に生成。声のトーンや相槌、言いよどみなど、従来のAI音声に欠けていた会話特有の口語表現が盛り込まれている。


モデルは25億パラメータの大規模LLMを搭載し、30万時間の中国語電子書籍、1.5万時間の中国語対話、20万時間の英語対話など、合計250万時間以上のデータを学習。文脈長は最大40,000トークンに拡張されており、10分を超えるポッドキャスト音声も高精度で生成可能だ。


音声出力には「短段階自回帰生成(short-span autoregressive synthesis)」という方式を導入し、再構築中の音声と同期させながら新たな短文を生成。これにより長文音声でも一貫性のあるナチュラルな音声合成を実現している。


スクリプト生成の段階でも、LLMを活用して元データ(論文、記事、ニュースなど)を要約し、対話構成に再編。構造的に自然な会話に整えるだけでなく、「うーん」「まあね」「そうそう」といった話し言葉の細部も丁寧に挿入されており、音声体験のリアリティが大幅に向上している。