MiniMaxは音楽生成モデルの最新版「Music 1.5」を公開した。最大4分間の楽曲生成に対応し、デモではなく完成度の高い楽曲を一括生成できる点が大きな特徴となる。さらに、自然言語入力による曲風・感情・場面設定の強力なコントロールを実現し、Intro・Verse・Chorusといった楽曲の構造も明確に表現できるようになった。
今回のモデルでは人声生成が大幅に改善され、音色は自然で豊か、発声や転調も滑らかに再現される。加えて、楽器を細かくモデリングすることで、編曲の層次が豊かになり、中国の民族楽器を含む多様な音色表現にも対応した。これにより、AIによる音楽生成はより「叙事的」な聴覚体験を可能にしている。
Music 1.5はMiniMaxのテキスト、音声、視覚にわたるマルチモーダル研究の成果を基盤とし、文章の理解力と制御性を音楽生成に応用している。応用範囲は幅広く、プロの音楽制作支援から、映像やゲームの背景音楽生成、バーチャルアイドルや企業ブランドの楽曲制作まで多岐にわたる。
また、同モデルはグローバル開発者向けにAPIとしても提供され、既存のアプリケーションや制作ワークフローに容易に組み込むことが可能だ。MiniMaxは「音楽はすべての人のためにある」と掲げ、誰もが“好听(心地よい)”音楽を生み出せる環境の実現を目指している。