中国の動画配信プラットフォームBilibili(ビリビリ)は、2025年3月25日、新たな中国語特化型TTS(Text-to-Speech)モデル「IndexTTS」をオープンソースで正式公開した。GitHub上にはモデルのパラメータおよび推論コードが無償で公開され、誰でも高品質な中国語音声合成を試すことが可能となった。
IndexTTSは、XTTS(Coqui AI製)とTortoiseといった既存のTTSモデルを基に開発されており、中国語における多音字処理の精度向上と音声の自然さを重視して設計されている。従来のCosyVoice2やFish-Speech、F5-TTSと比較しても、語彙エラー率(WER)や話者音質の自然さにおいて明確な性能差が示されている。
特筆すべきは、ピンイン(例:“zhǎng”や“cháng”)を入力として加えることで多音字の発音を明示的に制御できる点である。これにより中国語特有の発音の曖昧さを大幅に解消し、発音ミスを防ぐことが可能になる。モデルは、テキストとピンインの混合入力に対応し、ピンインが省略された場合には内部言語モデルによる自動推定が行われる。
アーキテクチャ面では、Conformerベースのエンコーダが時間・周波数特性を同時に捉える構造を持ち、そこに音色情報とピンイン条件を注入することで高精度な音声特徴抽出を実現。さらに、BigVGAN2をデコーダとして採用し、従来のWaveNetなどに比べて高速かつ高品質な音声生成を可能としている。拡散モデル(Denoising Diffusion Probabilistic Models, DDPM)による多段階ノイズ除去も音質改善に寄与している。
IndexTTSは、ゼロショット音声クローン(話者音声を3秒だけ学習して模倣可能)にも対応しており、仮想配信者の声合成、動画ナレーションの自動生成、教育用途など幅広い応用シーンに対応可能である。音声データにはBilibili内のUP主の音源や公開データセット(AISHELLなど)が活用されており、研究目的から商用利用まで視野に入れた柔軟な設計となっている。
一方で、ピンイン入力が必要となる場面ではユーザーの負担がやや増す可能性があり、また現時点では中国語に最適化されているため多言語展開に関しては制限があると見られる。リアルタイム音声合成の観点では、さらなる推論時間の短縮も今後の課題となる。
IndexTTSは、オープンソースとして今後の中国語TTS技術の新たな基準となる可能性を秘めており、研究開発・応用の双方にとって注目すべきプロジェクトである。