バイトダンス、軽量高品質な音声合成モデル「MegaTTS3」をオープンソース公開、中英混合や音声クローンに対応

出典:https://mp.weixin.qq.com/s/hP4zQGDrjmTnDADnzACuag

概要ポイント
  • MegaTTS3は0.45Bパラメータの軽量TTSモデルで高品質な音声生成が可能。
  • 中英混合の滑らかな切り替えや自然な発音を実現。
  • 音色・口調・リズムを再現する高精度の音声クローン機能を搭載。
  • アクセント強度や発音の細かな調整も可能。
  • 2025年3月にオープンソースとしてリリース、GitHubとHugging Faceで提供中。
本文

バイトダンスは2025年3月、軽量かつ高品質な音声合成(Text-to-Speech:TTS)モデル「MegaTTS3」をオープンソースとして正式にリリースした。わずか0.45B(4.5億)パラメータという小型構成ながら、自然な音声生成と多機能性を兼ね備えており、一般的なPC環境でも円滑に動作する点が大きな特徴だ。


MegaTTS3は、話者の音色・口調・リズムを忠実に模倣する音声クローン機能を搭載しており、ゼロショットでの話者適応も可能。加えて、中国語と英語が混在したテキストに対しても、英式・米式発音を滑らかに切り替えるなど、言語横断的な自然さを実現している。さらに、ユーザーは数値パラメータによってアクセントの強度を自由に調整することができ、目的に応じた柔軟な発話制御が可能だ。


導入も非常にシンプルで、Python 3.9環境下で仮想環境を構築し、依存パッケージをインストール、Hugging FaceやGoogle Driveから事前学習済みモデルを取得するだけで即座に使用できる。コマンドラインによる推論だけでなく、GradioによるWeb UIもサポートされており、開発者や研究者はブラウザ上で簡易的な音声生成を体験できる構成となっている。


MegaTTS3のオープンソース化により、TTS研究者・開発者コミュニティはこの高性能モデルを基盤として自由に研究や商用開発に活用できるようになった。GitHub上では、推論用スクリプトやアクセント制御の詳細ドキュメント、テスト用音声サンプルも含まれており、非常に実用的な設計がなされている。また、Hugging Face上でもモデルが公開されており、トークンやAPI連携を通じてクラウドベースのテスト利用も可能である。


バイトダンスは、今後より細かな発音・発話長の制御機能の実装も予定しており、現在の段階でも動画制作、読み上げナレーション、AIアシスタントなど多様な応用領域において実用水準に達している。軽量かつ拡張性の高いMegaTTS3は、TTSモデルの新たなスタンダードとなる可能性を秘めている。