チャイナAI速報 | 中国AIニュースを日本語で速報

April 8/2025

Step-R1-V-Mini発表：軽量でも高性能なマルチモーダル推論モデルが登場

出典：https://mp.weixin.qq.com/s/84-m-C_AW4e5B21vLml_pw

概要ポイント

Step-R1-V-Miniは軽量ながら複雑な視覚・言語推論を高精度で実行。
マルチモーダル強化学習とデータ合成で精度と汎用性を向上。
MathVisionランキングで中国国内トップの成績を記録。
料理画像やスポーツ写真などの実例で推論精度を実証。
WebサービスとAPIで一般利用が可能に。

本文

中国のAI企業・StepFunは、マルチモーダル推論モデル「Step-R1-V-Mini」を正式発表した。このモデルは、画像と言語を組み合わせた高度な推論能力を持ちながら、軽量設計により実用性を確保している。画像と言語の両方を入力として受け取り、自然言語で出力を生成する形式で、複雑な因果関係や構造的推論にも対応する。

性能強化のため、Step-R1-V-Miniには2つの重要な訓練手法が導入されている。まず、「マルチモーダル強化学習」では、PPO（Proximal Policy Optimization）アルゴリズムをベースに、画像空間内での推論に対し「検証可能な報酬（verifiable reward）」を導入。これにより、視覚的な因果関係や誤認の問題に強くなった。次に、環境フィードバックを活用した大規模なマルチモーダル合成データを作成し、視覚とテキスト推論の両面を並行して鍛えることで、いわゆる「性能のシーソー問題（片方が上がると片方が下がる）」を回避した。

ベンチマーク結果からも、同モデルの優位性が確認できる。添付画像によると、Step-R1-V-Miniは視覚推論系ベンチマーク「MathVista」「MathVision」「MathVerse」「DynaMath」「LogicVista」「WeMath」のすべてにおいて高スコアを記録しており、特にMathVisionでは56.6ポイントで中国国内トップに立った。MathVistaでは80.1、LogicVistaでは57.3、WeMathでは54と、いずれも他の先進モデルを上回る結果となっている。

さらに公開された事例では、スタジアム写真から「ウェンブリー・スタジアム」と試合情報を推論するほか、料理画像から具体的な材料と分量を特定、図形の配置から正確に物体数を数えるなど、多様な推論能力を実証している。

現在、Step-R1-V-MiniはStepFun AIのWebインターフェース上で利用可能であり、開発者向けにAPIも提供されている。今後もStepFunは推論モデルの改良を継続し、マルチモーダルAIの実用化をさらに推進していくと見られる。