アントグループ、統合型マルチモーダルAIモデル「Ming-Omni」公開──音声・画像・テキストを同時処理しGPT‑4o級の性能を実現

出典: https://mp.weixin.qq.com/s/nsgf8L0vye3cb_la9idGDg

Ming-Omniモデル概要
概要ポイント
  • アントグループが音声・画像・テキストを統合処理するマルチモーダルAI「Ming-Omni」を公開。
  • MoE構造+専用ルーターでモダリティの衝突を解消し、一貫した情報統合を実現。
  • 軽量版「Ming-lite-omni」はQwen2.5-VL-7Bと同等の性能を28億パラメータで達成。
  • 音声生成・画像編集・スタイル変換・リアルタイム対話などに対応。
  • GPT-4o級のマルチモーダル性能をオープンソースで提供する初のモデル。
本文

アントグループが公開した「Ming-Omni」は、画像・音声・テキスト・動画という複数のモダリティを統合処理できるマルチモーダルAIモデルだ。各モダリティに専用エンコーダーを設けてトークンを抽出し、MoE(Mixture-of-Experts)構造を持つ大規模言語モデル「Ling」によって処理される。


Lingは各モダリティ専用のルーターを備え、情報の衝突を回避しながら一体的な融合を可能にしている。これにより、従来必要とされた個別モデルの切り替えや微調整を不要にし、統一フレームワークでの柔軟なタスク実行を実現した。


軽量版「Ming-lite-omni」は、アクティブパラメータ数28億でありながら、画像理解ではQwen2.5-VL-7Bと同等の性能を示し、音声理解ではQwen2.5-OmniやKimi-Audioを上回る結果を記録。さらに、画像の生成やスタイル変換、自然音声生成など多様なタスクにも対応可能だ。


このようにMing-Omniは、GPT-4oと並ぶモダリティ対応範囲を備えた初のオープンソースモデルとして、研究・産業応用の両面で今後の展開が期待されている。