シャオミ(Xiaomi)は、マルチモーダルAIモデル「MiMo-VL-7B-2508」のSFT版とRL版を同時にオープンソース公開した。両モデルは8.31Bパラメータを持ち、Qwen2.5-VLアーキテクチャと互換。出力モード最適化と学習工程の改良により、推理、文書理解、GUI認識、動画理解の各分野でオープンソース最高水準の精度を達成した。学科推理MMMUで70.6、文書理解ChartQAで94.4、GUI GroundingのScreenSpot-v2で92.5、動画理解VideoMMEで70.8と、いずれも前世代モデルを上回るスコアを記録している。
両モデルには、推論過程を表示して性能を最大化する「思考モード」と、推論を省き応答速度を高める「非思考モード」を切り替えられる機能が搭載され、制御成功率はほぼ100%に達する。RL版はMixed On-policy Reinforcement Learning(MORL)を採用し、推論、認識、視覚的根拠付け、人間・AI嗜好整合性を含む多様な能力を同時に向上。内部評価「VLM Arena」では1131.2点を獲得し、前世代1093.9点から大幅に伸長した。
一方、SFT版は4段階の事前学習を経て構築され、高度な推論潜在能力を持つベースモデルとして設計されており、再学習や特定用途へのカスタマイズに適している。公開から2カ月で累計ダウンロード数は10万件を超え、研究開発と実用の双方で活用が進むとみられる。