中国の3D生成AIスタートアップVASTは、同社が展開する「オープンソース強化月間」の第2週にあたるタイミングで、最先端の3D生成モデル「TripoSG」と「TripoSF」を発表し、それぞれをオープンソースとして公開した。両モデルは、従来のオープンソース・クローズドソース技術の枠を超える性能(SOTA:State of the Art)を実現し、特に単一画像から高精度な3D形状を生成する分野において、大きな進展を見せている。
TripoSGは、校正流(Rectified Flow)とTransformerを組み合わせた独自のアーキテクチャを採用。従来の拡散モデルと比較して安定性・効率ともに向上しており、加えてMixture of Experts(MoE)構造を導入することで、大規模化と低コスト推論を両立させた。また、CLIPおよびDINOv2といったマルチモーダル特徴抽出機構を組み込み、2D画像と3D形状のセマンティック整合性も強化されている。加えて、SDF(Signed Distance Function)による幾何表現を用いたVAE構造や、表面法線・eikonal損失を組み合わせた混合監督学習により、より精緻な3D形状を学習できる仕組みを持つ。200万ペアの高品質「画像-SDF」データセットで訓練され、定量・定性両面で現行の3D生成技術を凌駕した。
一方、TripoSFはSparseFlexという革新的な構造を導入し、3D生成の解像度・柔軟性・精度の全てにおいて飛躍を実現。SparseFlexは、Flexicubesの特徴を継承しつつ、表面周囲の体素領域に情報を限定して保持することで、1024³の高解像度にも関わらず極めて少ないメモリ消費で学習と推論を可能にしている。さらに、レンダリング損失によるエンド・ツー・エンド訓練や、視錐体ベースでの体素活性化により、オープンサーフェスや内部構造の復元にも対応。構築されたTripoSFのVAEは、点群から高精度なSparseFlexパラメータを生成し、アップサンプリング時には自己剪枝により不要なデータを自動除去、結果として高精度かつ軽量な3Dメッシュを出力可能とした。
TripoSGはすでに1.5Bモデルの重み・コード・推論デモが完全に公開されており、GitHubやHugging Faceで自由に利用可能。一方TripoSFは段階的な公開形式を採用し、まずはVAE関連のコードとモデルを提供中で、Tripo 3.0のリリースに合わせてフルバージョンの公開が予定されている。
今回の発表は、VASTが推進する「オープンソース強化月間」の一環であり、同社はこれまでにもMV-AdapterやMIDIなどの革新的技術を順次公開してきた。今後も3D部品補完やスケッチベースの生成モデル、幾何細密化モデルなどの発表が予定されており、3D生成分野のフルスタック技術を段階的に開放していく方針だ。
VASTは、TripoSRやthreestudio、Wonder3Dなどの実績によりすでに国際的な存在感を確立しており、今回の公開を通じて3D生成技術の民主化とリアルタイム創作の実現にさらに近づいた。同社CTOの梁鼎は「2025年末までに誰もがゼロコストで3Dコンテンツをリアルタイムに制作できる時代を実現する」と語っており、本取り組みはその実現に向けた一歩と位置付けられる。