チャイナAI速報 | 中国AIニュースを日本語で速報

June 23/2025

北京大学とRedNote（小紅書）が新モデル「Dive3D」を発表──SIM損失で多様性・品質・整合性を同時向上する3D生成技術

出典：https://mp.weixin.qq.com/s/zUhIhWrgX9RluS_2QYXpgw

概要ポイント

SIM損失はKL散度に代わり、モード崩壊を回避して多様性を向上。
拡散蒸留と報酬誘導最適化を統一的に扱う新しいフレームワークを構築。
GPT-Eval3Dベンチマークで全6指標において既存9モデルを凌駕。
PyTorchによる実装がGitHubで公開、デモも公式ページで確認可能。
今後は高速化に向けてLRM系生成技術との統合も視野に。

本文

北京大学と小紅書の研究チームが発表した「Dive3D」は、テキストからの3D生成に新しい指針を示すモデルであり、KL散度に依存する従来手法の限界を打破すべく、スコアベースの「Score Implicit Matching（SIM）損失」を導入した。これにより生成結果の多様性が大きく向上し、同時に視覚品質やテキスト整合性も改善された。

Dive3Dは、拡散蒸留と報酬誘導最適化という異なる最適化手法を「発散最小化」という共通原理のもとに統一。これにより、複数の性能指標を一つのフレームで協調的に最適化できる点が特徴である。評価はGPT-Eval3Dベンチマークを用い、DreamFusionやMagic3Dなど既存9手法を上回る結果を記録。特にテキスト整合性（+53.5）やテクスチャ詳細（+67.5）など、6つのすべての評価項目で首位を獲得した。

実装はGitHub上でPyTorchコードとして公開されており、公式プロジェクトサイトでは実際に生成された3Dオブジェクトのデモも確認できる。2D画像生成やNeRFベースの3D合成においても、KL散度ベースの手法と比べ、背景・光照・スタイルの多様性が顕著に高いことが示されている。

現時点では各オブジェクト生成に約1時間を要するが、今後はSIM損失を多視点生成器や低ランク表現（LRM）と組み合わせ、リアルタイム性と多様性の両立を目指した進化が期待される。