チャイナAI速報 | 中国AIニュースを日本語で速報

April 16/2025

上海AI LabとSenseTime（商湯科技）、次世代マルチモーダルモデル「InternVL3」発表、Qwen2.5-VLを超える性能

出典：https://mp.weixin.qq.com/s/Aq05riUMoElGR3dz5twk8w

概要ポイント

InternVL3は原生マルチモーダル事前学習を採用し、言語と視覚能力を同時に獲得。
可変ビジュアル位置エンコーディング（V2PE）で長い文脈にも対応。
事後学習にはSFTとMPOを導入し、推論性能を強化。
MMMUで72.2点を記録し、ChatGPT-4oやClaude 3.5に匹敵する性能を発揮。
訓練データとモデルをオープンソースで公開予定。

本文

上海AI LabとSenseTime（商湯科技）は、マルチモーダル大言語モデル「InternVL3」を正式に発表した。InternVL3は、従来のLLMベースのマルチモーダルモデルと異なり、言語とマルチモーダル能力を統合的に学習する「原生マルチモーダル事前学習」方式を採用している。これにより、事後的な視覚モジュールとの調整や補完が不要となり、効率的かつ整合性の高い学習を実現した。

モデル構成は、ViT（Vision Transformer）、MLP（多層パーセプトロン）、LLMから構成され、視覚情報には「可変ビジュアル位置エンコーディング（V2PE）」を採用。これにより、マルチモーダル文脈の拡張性が向上し、視覚情報の効率的な位置管理が可能になった。大規模モデル「InternVL3-78B」は、ベンチマークMMMUにおいて72.2点を記録し、既存の開源MLLMを上回る成果を示した。

訓練にはQwen2.5およびInternLM3を基にしたLLMを使用し、視覚エンコーダはInternViT系列を採用。さらにSFT（有監督微調整）とMPO（混合選好最適化）により、推論や対話能力も強化されている。評価においては、OCR、数学、図表理解、動画処理、空間推論、GUI理解など幅広いタスクで高いスコアを記録し、特にMMMUやOCRBenchではトップレベルの性能を発揮。

また、InternVL3はQwen2.5-VLやChatGPT-4oなどの商用モデルとも比較可能な競争力を持ち、GPT-4oを上回るケースも見られた。言語能力においても、従来のQwen2.5系列を上回る結果が報告されており、マルチモーダルとテキストの同時訓練が効果的であることが示された。

今後は、InternVL3の学習済みデータとモデル重みをコミュニティに向けて公開する予定であり、マルチモーダル大言語モデル分野のオープンイノベーション促進が期待されている。