Qwen-TTSが方言音声合成に対応──北京・上海・四川の3方言追加、自然な話し声を再現

出典:https://mp.weixin.qq.com/s/-VDOJrDgVzC6JI4CVTHe4w

概要ポイント
  • Qwen-TTSが北京・上海・四川の3方言を新たにサポート
  • 300万時間以上の音声データで学習し、人間並みの自然さを実現
  • 音声は話者の韻律・リズム・感情も自動調整可能
  • 7種類の中英バイリンガル音声を提供
  • APIを通じて簡単に合成音声を生成可能
本文

アリババ系の大規模言語モデルプロジェクト「Qwen」は、音声合成モデル「Qwen-TTS」の最新版で新たに3種類の中国語方言(北京話、上海話、四川話)への対応を発表した。これにより、従来の標準中国語に加え、多様な地域色を持つ自然な発話が可能となる。


Qwen-TTSは累計3,000万時間を超える大規模音声データで学習されており、合成音声の自然度と表現力は人間レベルに達したとされる。特に、韻律やリズム、感情といった話者のニュアンスを自動的に調整できる点が特徴で、従来の単調なTTSとは一線を画す。


今回追加された方言対応により、北京話は「Dylan」、上海話は「Jada」、四川話は「Sunny」という音色で提供される。いずれもその地方特有の言い回しや語感を忠実に再現しており、記事内には各音声のサンプルも紹介されている。


さらに、標準中国語と英語を含む7種類の音声(Cherry、Ethan、Chelsie、Serenaなど)も引き続き利用可能。開発者向けには、Qwen API経由で簡単に音声合成を行えるサンプルコードも公開されており、Pythonを使って即座に合成・ダウンロードが可能だ。


Qwen-TTSは現在、Alibaba Cloudの「百錬(Model Studio)」上でAPIとして提供されており、今後さらに多くの言語・音色への拡張も予定されている。