Zhipu(智譜)、10B級VLM「GLM-4.1V-Thinking」公開 ── Chain-of-Thought+RLCSで推論最適化

出典:https://mp.weixin.qq.com/s/h-rOdWC-lRZF5Fft11vb9A

概要ポイント
  • Zhipu(智譜)が多モーダル推論モデル「GLM-4.1V-Thinking」をオープンソース化
  • Chain-of-Thought推論とRLCSにより10B級でも高精度を実現
  • 18項目で72B級Qwen-2.5-VLと同等以上の性能を記録
  • GitHub・Hugging Faceで公開、APIも無料提供
  • MaaS型「Agent応用空間」も公開し、企業向け導入を支援
本文

Zhipu(智譜)は7月2日、上海浦東で開催された産業生態大会にて、推論特化型の視覚言語モデル「GLM-4.1V-Thinking」を発表・公開した。10Bパラメータという小型モデルながら、Chain-of-Thought推論と課題別強化学習(RLCS)を組み合わせることで、多数のベンチマークで最高性能を記録した。


特にMMStarやMMMU-Proなど28項目中23項目で10B級モデルとして最高の評価を得ており、そのうち18項目では72B級のQwen-2.5-VLを超える精度を示した。画像・動画・文書・UIなど多モーダル入力に対応し、64Kコンテキスト長や4K画像処理も可能。


GLM-4.1V-ThinkingはGitHubとHugging FaceにてMITライセンスで公開されており、APIはZhipuの開発者プラットフォームで無償利用が可能。単GPU(RTX3090/A100)でも運用でき、LoRAなどによる学習や推論環境も整備されている。


また、ZhipuはMaaS型エージェント開発基盤「Agent応用空間」も同時にリリース。UI2CodeやGUI Agentなど実用的な業務向けアプリが開発でき、スタートアップ支援策「Agents開拓者計画」として数億元規模の資金提供も行われる。中国大手投資機関からの出資も発表されており、マルチモーダル×エージェントによるAI実用化が本格化している。