MiniMaxは、新たな音声生成モデル「Speech 2.5」を発表し、音声AI分野での技術的なリーダーシップを再度強調した。5月に公開された「Speech 02」から飛躍的な進化を遂げた本モデルは、「多言語表現力」「音色復刻の精度」「対応言語の拡張」の3点で性能を大きく引き上げている。
まず、音声の自然さや感情の表現力において従来を上回り、英語・中国語をはじめとする多言語での使用において「機械的な違和感」が大幅に軽減された。詩の朗読やスポーツ実況といった高い感情表現が求められるシーンでも、Speech 2.5は豊かな抑揚や自然なリズムでリアリティある音声を生成できる。
さらに、音色復刻の面では、同一話者の声を異なる言語でも一貫して再現できる高精度を実現。女王風の英語や、イタリア語・英語間での訛りの保持など、言語横断的な話者特徴の再現にも対応している。
対応言語は従来よりさらに拡張され、保加利ア語やマレー語、スロバキア語、カタルーニャ語など合計40言語に対応。グローバル対応が求められるEC、カスタマーサポート、教育、ローカライズ分野での活用が期待される。
用途としては、企業による広告ナレーションの多言語展開や、個人クリエイターによる海外向けコンテンツ生成、教育者による多言語教材の迅速制作などが挙げられている。特に、音声教材の制作時間を従来の2週間から10分に短縮できる点は教育現場にとって大きな利点となる。
すでに導入も広がっており、海外ではVapiやPipecatなどのエージェント型サービスが活用しているほか、中国国内では教育プラットフォームの高途教育、音声配信サービスの喜馬拉雅、ネット企業のNetEase(網易)、ARデバイス開発のRokidなどが採用している。
Speech 2.5は、MiniMaxの公式プラットフォームおよびAudioサイトで試用が可能となっている。