AI音声合成技術(TTS)の進化が加速する中、Spark-TTSが新たな革新をもたらしている。従来のTTSシステムは高品質な音声を生成できるが、話者のクローンには大量のデータが必要で、音声の表現力や細かい調整には限界があった。Spark-TTSは、この問題を解決するために開発され、わずか数秒の音声サンプルからゼロショット音声クローンを実現。さらに、音高・話速・語気・強調といった音声パラメータの細かい調整を可能にしたことで、より自然で個性的なAI音声の生成を実現した。
この技術の核となるのがQwen-2.5連想思考技術とBiCodec音声コーデックだ。Qwen-2.5連想思考技術は、発話の流れや抑揚を論理的に整理し、より自然な会話調の音声を生成する。一方、BiCodecコーデックは音声データをセマンティック情報(内容)とグローバルトークン(話者属性)に分解することで、音質を維持しながら高度な音声制御を実現。これにより、朗読やナレーションの際に、文章の意味に沿った自然な間や抑揚を持つ音声が生成される。
また、Spark-TTSの開発には、VoxBoxデータセットが活用されている。これは10万時間分の音声データを含み、詳細な属性アノテーションが付与された大規模なデータセットだ。このデータセットを活用することで、Spark-TTSは従来のリファレンスベースの音声合成の限界を超え、高度にカスタマイズ可能な音声生成を実現。話者の音声サンプルが少なくても高精度な音声再現が可能となり、ゼロショット音声クローンの精度が大幅に向上した。
さらに、クロスランゲージ音声合成にも対応しており、中国語と英語を自然に話すAI音声を作成できる。話者の特徴を維持したまま、異なる言語間で音声を合成することが可能なため、国際的なコンテンツ制作やバイリンガルAIアシスタントの開発にも適している。さらに、Web UIを搭載しており、音声クローンや音声生成が直感的に操作できるのも強みの一つだ。プログラミングの知識がなくても簡単に試せるため、TTS技術の実用性が大きく向上している。
Spark-TTSは、オーディオブックの制作、AIキャラクターのボイスオーバー、バーチャルアシスタント開発など、さまざまな分野での活用が期待される。完全オープンソースで誰でも利用できるため、今後の技術発展とともに、新たな応用の可能性が広がっていくだろう。
【関連リンク】
GitHubプロジェクトページ:https://github.com/SparkAudio/Spark-TTS
arXiv論文:https://arxiv.org/pdf/2503.01710