StepFun、2M高品質データとLoRA対応のオープンソース3D生成基盤「Step1X-3D」を発表

出典: https://mp.weixin.qq.com/s/TcyBSxOJgnEgrmp3J0U3aw

Step1X-3D
概要ポイント
  • Step1X-3Dは、幾何とテクスチャを別処理する2段階の3D生成フレームワーク。
  • 200万件の高品質3Dデータを徹底整備し、学習用として公開。
  • VAE+DiTによる幾何生成とMV-Adapterを使った高精度テクスチャ生成を採用。
  • LoRAによる対称性・鋭さなどの制御可能な3D生成を実現。
  • コード・モデル・論文をオープンソース公開し、商用水準の品質を達成。
本文

StepFunは、高精度かつ制御可能な3D資産を生成する新フレームワーク「Step1X-3D」を公開した。本システムは、画像1枚から高品質な3Dメッシュとテクスチャを生成でき、生成精度と制御性を両立する2段階構成のアーキテクチャを採用している。


まず、幾何生成ではVAE+DiTベースの3D潜在拡散モデルを用い、TSDF形式の距離場により幾何の表現精度を確保。学習データにはObjaverseなどから選別・整備された200万件以上の高品質3D資産を使用しており、品質スクリーニングも徹底されている。


テクスチャ合成では、MV-Adapterをバックボーンに、幾何情報(法線・位置マップ)を注入することで、多視点間の一貫性とリアリズムを両立したマルチビュー画像生成を実現。UV展開と画像補完処理により最終的なテクスチャマッピングが行われる。


さらに、LoRAやControlNetベースの制御支援機構を導入することで、形状の対称性や鋭さの調整といった属性制御にも対応。これにより、ユーザーは生成対象の幾何的特徴を柔軟に調整可能となった。


定量評価では、CLIP-ScoreやOpenShape等を用いた幾何・テクスチャ整合性指標でTripoSGやMeshy-4などの既存手法と同等かそれ以上の精度を記録。20名によるユーザー調査でも高評価を獲得した。


Step1X-3Dは論文・コード・モデルがすでに完全公開されており、今後の3D生成研究や商用応用において、オープンで高精度な生成基盤として重要な存在となる可能性が高い。