シャオミ、MiMo-VL-7Bをオープンソース公開──7BサイズでGPT-4oを凌駕、多モーダル推論の新基盤

出典:https://mp.weixin.qq.com/s/uRaNNH0lScMkx3PczxDdsA

MiMo-VL-7B
概要ポイント
  • シャオミのMiMo-VL-7Bが多モーダルタスクでQwen2.5-VL-72BやGPT-4oを上回る性能を示した
  • 画像・動画・GUI操作など複雑推論にも対応し、エージェント用途に最適
  • 2.4Tトークンの高品質データと独自の混合強化学習で性能を大幅に向上
  • 技術レポート・モデル・評価フレームワークをすべてオープンソースで公開
  • MiMo-7Bシリーズも進化を続け、推論能力でDeepSeek R1と同等に
本文

シャオミ(Xiaomi)は、最新の多モーダル大規模モデル「MiMo-VL-7B」を発表し、オープンソースとして公開した。7Bパラメータ規模ながら、AliのQwen2.5-VL-72BやGPT-4oといった大規模モデルを超える性能を実証。画像・動画・自然言語・GUI操作を統合処理する高い汎用性を持ち、エージェントAI時代の推論基盤として設計されている。


性能向上の鍵は、2.4Tトークンの多段階プレトレーニングデータと、独自のMORL(混合オンライン強化学習)にある。画像・テキスト・動画・GUI操作といった異種データを段階的に学習させ、推論精度と長距離依存理解を両立。さらにRLHFや人間フィードバックも取り入れ、ユーザー体験を高めている。


MiMo-VL-7Bは、50以上の推論ベンチマークを評価可能なオープンな評価フレームワークも提供。また、言語モデルMiMo-7Bの最新版(MiMo-7B-RL-0530)も同時に公開され、数学推論などの競技ベンチでDeepSeek R1やOpenAIモデルに肉薄する性能を記録した。


シャオミは、生成AIからエージェントAIへの時代に向け、MiMo-VLを中核技術として継続的なアップグレードを計画している。MiMo-VLはその第一歩に過ぎず、今後さらに強力な多モーダルエージェントモデルの登場が予想される。