MiniMax、音色まで自由に設計できる「Voice Design」機能を公開──Speech-02と連携し、任意の言語・音色・アクセントを自在に合成

出典:https://mp.weixin.qq.com/s/SUqhAd54Q15Huq-AQ9EeCA

Voice Design UIイメージ
概要ポイント
  • MiniMaxの音声モデルSpeech-02が世界的に高評価を獲得し、30か国以上で商用化。
  • 新機能「Voice Design」により、音色・言語・アクセントの自由な組み合わせが可能に。
  • 自然言語での指定により、感情や話し方を細かく表現した音声を生成。
  • 従来の音色ライブラリや復刻音声の課題を解消、著作権リスクも低減。
  • 気に入った音色は保存・再利用可能、創作用途に活用できる。
本文

MiniMaxは、自社の音声AIモデル「Speech-02」に対応する新機能「Voice Design」を公開した。Speech-02はすでに累計1.5億時間超の音声生成実績を持ち、30か国以上の顧客に導入されている高性能音声モデルであり、AI評価指標でも世界1位を獲得している。


新機能「Voice Design」では、ユーザーが自然言語で音色を細かく指定できる仕組みを導入。たとえば「優しい女性アナウンサー」「怒りを含んだヒーローの声」「ASMR風の囁き声」など、場面やキャラクターに応じた音声を生成可能。音色・言語・アクセントの無限の組み合わせに対応し、「任意の音声を即座に合成できる」体験を実現した。


この技術は、従来の音色ライブラリが汎用的で細かな演出に対応しづらいという課題や、復刻音声に伴う高品質素材の準備や著作権リスクといった制限を克服する。モデルはユーザーの入力文から音色要素を分解・再構成し、希望に合致する音色を生成。満足するまで複数回の“抽選”が可能で、気に入った音色は保存して将来的に再利用できる。


MiniMaxは、「誰でもAI音声の価値を享受できる」ことをビジョンに掲げ、今回の機能もその一環として展開された。国内向け・海外向け双方に対応した音声合成プラットフォーム「MiniMax Audio」上で即時利用可能となっている。