チャイナAI速報 | 中国AIニュースを日本語で速報

May 30/2025

シャオミ、MiMo-VL-7Bをオープンソース公開──7BサイズでGPT-4oを凌駕、多モーダル推論の新基盤

出典：https://mp.weixin.qq.com/s/uRaNNH0lScMkx3PczxDdsA

概要ポイント

シャオミのMiMo-VL-7Bが多モーダルタスクでQwen2.5-VL-72BやGPT-4oを上回る性能を示した
画像・動画・GUI操作など複雑推論にも対応し、エージェント用途に最適
2.4Tトークンの高品質データと独自の混合強化学習で性能を大幅に向上
技術レポート・モデル・評価フレームワークをすべてオープンソースで公開
MiMo-7Bシリーズも進化を続け、推論能力でDeepSeek R1と同等に

本文

シャオミ（Xiaomi）は、最新の多モーダル大規模モデル「MiMo-VL-7B」を発表し、オープンソースとして公開した。7Bパラメータ規模ながら、AliのQwen2.5-VL-72BやGPT-4oといった大規模モデルを超える性能を実証。画像・動画・自然言語・GUI操作を統合処理する高い汎用性を持ち、エージェントAI時代の推論基盤として設計されている。

性能向上の鍵は、2.4Tトークンの多段階プレトレーニングデータと、独自のMORL（混合オンライン強化学習）にある。画像・テキスト・動画・GUI操作といった異種データを段階的に学習させ、推論精度と長距離依存理解を両立。さらにRLHFや人間フィードバックも取り入れ、ユーザー体験を高めている。

MiMo-VL-7Bは、50以上の推論ベンチマークを評価可能なオープンな評価フレームワークも提供。また、言語モデルMiMo-7Bの最新版（MiMo-7B-RL-0530）も同時に公開され、数学推論などの競技ベンチでDeepSeek R1やOpenAIモデルに肉薄する性能を記録した。

シャオミは、生成AIからエージェントAIへの時代に向け、MiMo-VLを中核技術として継続的なアップグレードを計画している。MiMo-VLはその第一歩に過ぎず、今後さらに強力な多モーダルエージェントモデルの登場が予想される。