MiniMaxは、自社の音声AIモデル「Speech-02」に対応する新機能「Voice Design」を公開した。Speech-02はすでに累計1.5億時間超の音声生成実績を持ち、30か国以上の顧客に導入されている高性能音声モデルであり、AI評価指標でも世界1位を獲得している。
新機能「Voice Design」では、ユーザーが自然言語で音色を細かく指定できる仕組みを導入。たとえば「優しい女性アナウンサー」「怒りを含んだヒーローの声」「ASMR風の囁き声」など、場面やキャラクターに応じた音声を生成可能。音色・言語・アクセントの無限の組み合わせに対応し、「任意の音声を即座に合成できる」体験を実現した。
この技術は、従来の音色ライブラリが汎用的で細かな演出に対応しづらいという課題や、復刻音声に伴う高品質素材の準備や著作権リスクといった制限を克服する。モデルはユーザーの入力文から音色要素を分解・再構成し、希望に合致する音色を生成。満足するまで複数回の“抽選”が可能で、気に入った音色は保存して将来的に再利用できる。
MiniMaxは、「誰でもAI音声の価値を享受できる」ことをビジョンに掲げ、今回の機能もその一環として展開された。国内向け・海外向け双方に対応した音声合成プラットフォーム「MiniMax Audio」上で即時利用可能となっている。