2025年7月9日、Kunlun Techはマルチモーダル大規模モデル「Skywork-R1V 3.0」を正式に公開した。今回のモデルでは、独自の強化学習アルゴリズム(GRPO)と、不確実性の高い応答を用いた検証メカニズムを導入することで、限られたデータ量でも本質的な推論能力を引き出すことに成功。数学・物理のみならず、地理・歴史・医学・芸術など幅広い分野においても安定した高精度の理解と解答が可能となった。
特に注目されるのは、マルチモーダル総合評価であるMMMUにおいてスコア76.0を達成し、他の主要なクローズド(非公開)モデルであるClaude 3.7 Sonnet(75.0)やGPT-4.5(74.4)を上回った点である。また、中国の大学入試の数学模試(新一類)では142点という高得点を記録し、現場での応用性の高さと問題解決能力の実証に成功している。
EMMA-Mini(CoT)では40.3点を記録し、より大規模なQwen2.5-VLやInternVL3を上回った。MMK12では78.5点と、初等・中等教育分野の知識に関する性能でもオープンモデルの中でトップに立った。物理系ベンチマークでは、PhyX-MCとSeePhysでそれぞれ52.8点と31.5点を獲得し、図解や回路図などを含む複雑な問題にも対応可能な水準に達している。さらに、論理推論ではLogicVista(59.7点)、VisuLogic(28.5点)、MME-Reasoning(42.8点)などで高得点を記録し、非公開モデルであるClaude-4-Sonnetすら上回る場面も見られた。
Skywork-R1V 3.0は、前世代モデルの蒸留データをもとに「冷スタート」学習を行い、高品質な訓練セットを構築。視覚とテキストの両モダリティにわたる推論手法の転移を成功させた。特筆すべきは、わずか1.2万件の教師あり学習データと1.3万件の強化学習データによって、コストを抑えつつも高性能なモデルを実現している点である。
さらに、推論の過程で「Wait…」や「Alternatively…」といった思考の分岐点に注目し、出力の不確実性(エントロピー)を測定することで、本当に推論しているかどうかを判別。これにより、表面的に推論しているように見えるだけのモデルと本質的な推論能力を持つモデルの選別が可能となった。
数学に偏った訓練を補正するため、さまざまな分野から収集した高品質なデータセットを用い、視覚・言語間の接続モジュールを再学習。これにより、医学や人文学、芸術などの分野でもバランスの取れた推論性能を実現している。
Kunlun TechはこれまでにもSkywork-R1Vシリーズのほか、報酬モデルSkywork-Reward-V2、数理推論特化モデルSkywork-OR1、コード修復モデルSkywork-SWE、空間推論モデルMatrix-Game、無限時間映画生成モデルSkyReels-V2など、複数のオープンソースモデルを次々に公開してきた。今回のSkywork-R1V 3.0は、こうした一連の技術進化の中でも特に大きな成果であり、今後の汎用AI(AGI)開発に向けた重要な一歩として業界内の注目を集めている。