アリババ系の大規模言語モデルプロジェクト「Qwen」は、音声合成モデル「Qwen-TTS」の最新版で新たに3種類の中国語方言(北京話、上海話、四川話)への対応を発表した。これにより、従来の標準中国語に加え、多様な地域色を持つ自然な発話が可能となる。
Qwen-TTSは累計3,000万時間を超える大規模音声データで学習されており、合成音声の自然度と表現力は人間レベルに達したとされる。特に、韻律やリズム、感情といった話者のニュアンスを自動的に調整できる点が特徴で、従来の単調なTTSとは一線を画す。
今回追加された方言対応により、北京話は「Dylan」、上海話は「Jada」、四川話は「Sunny」という音色で提供される。いずれもその地方特有の言い回しや語感を忠実に再現しており、記事内には各音声のサンプルも紹介されている。
さらに、標準中国語と英語を含む7種類の音声(Cherry、Ethan、Chelsie、Serenaなど)も引き続き利用可能。開発者向けには、Qwen API経由で簡単に音声合成を行えるサンプルコードも公開されており、Pythonを使って即座に合成・ダウンロードが可能だ。
Qwen-TTSは現在、Alibaba Cloudの「百錬(Model Studio)」上でAPIとして提供されており、今後さらに多くの言語・音色への拡張も予定されている。