チャイナAI速報 | 中国AIニュースを日本語で速報

May 8/2025

195msの超低遅延で「聞きながら話す」次世代AI音声モデル──Voilaがオープンソースで公開

概要ポイント

本文

Maitrixチームが開発した「Voila」は、リアルタイムで音声を聞きながら即座に応答できる“同時対話型”のAI音声モデル。195msという低遅延は人間の反応時間よりも早く、まるで人と話しているかのような自然な会話が可能となる。

このモデルは音声認識（ASR）、テキスト音声合成（TTS）、翻訳機能を統合し、中英をはじめとする多言語対応を標準装備。さらに、性別・年齢・感情・音色などを細かく指定可能な100万以上の音声スタイルをプリセットとして搭載し、話者の個性を自由に演出できる。

技術面では、ASR・TTS・言語モデル・個性制御用コントローラーの4構成からなるモジュール設計を採用。WebRTCにも対応しており、ブラウザからのリアルタイム音声操作も可能。Gradioを用いたデモやPythonコードによる実装方法も提供されており、開発者がすぐに試せる環境が整っている。

AI音声アシスタントやRPGのナレーションエンジン、多言語翻訳ツールなど、用途は多岐にわたる。Voilaは“聞きながら話す”という双方向の自然なやり取りを求める次世代の音声AI開発にとって、有望な選択肢となりそうだ。