チャイナAI速報 | 中国AIニュースを日本語で速報

June 25/2025

アントグループ、統合型マルチモーダルAIモデル「Ming-Omni」公開──音声・画像・テキストを同時処理しGPT‑4o級の性能を実現

出典： https://mp.weixin.qq.com/s/nsgf8L0vye3cb_la9idGDg

概要ポイント

アントグループが音声・画像・テキストを統合処理するマルチモーダルAI「Ming-Omni」を公開。
MoE構造＋専用ルーターでモダリティの衝突を解消し、一貫した情報統合を実現。
軽量版「Ming-lite-omni」はQwen2.5-VL-7Bと同等の性能を28億パラメータで達成。
音声生成・画像編集・スタイル変換・リアルタイム対話などに対応。
GPT-4o級のマルチモーダル性能をオープンソースで提供する初のモデル。

本文

アントグループが公開した「Ming-Omni」は、画像・音声・テキスト・動画という複数のモダリティを統合処理できるマルチモーダルAIモデルだ。各モダリティに専用エンコーダーを設けてトークンを抽出し、MoE（Mixture-of-Experts）構造を持つ大規模言語モデル「Ling」によって処理される。

Lingは各モダリティ専用のルーターを備え、情報の衝突を回避しながら一体的な融合を可能にしている。これにより、従来必要とされた個別モデルの切り替えや微調整を不要にし、統一フレームワークでの柔軟なタスク実行を実現した。

軽量版「Ming-lite-omni」は、アクティブパラメータ数28億でありながら、画像理解ではQwen2.5-VL-7Bと同等の性能を示し、音声理解ではQwen2.5-OmniやKimi-Audioを上回る結果を記録。さらに、画像の生成やスタイル変換、自然音声生成など多様なタスクにも対応可能だ。

このようにMing-Omniは、GPT-4oと並ぶモダリティ対応範囲を備えた初のオープンソースモデルとして、研究・産業応用の両面で今後の展開が期待されている。