StepFunは、高精度かつ制御可能な3D資産を生成する新フレームワーク「Step1X-3D」を公開した。本システムは、画像1枚から高品質な3Dメッシュとテクスチャを生成でき、生成精度と制御性を両立する2段階構成のアーキテクチャを採用している。
まず、幾何生成ではVAE+DiTベースの3D潜在拡散モデルを用い、TSDF形式の距離場により幾何の表現精度を確保。学習データにはObjaverseなどから選別・整備された200万件以上の高品質3D資産を使用しており、品質スクリーニングも徹底されている。
テクスチャ合成では、MV-Adapterをバックボーンに、幾何情報(法線・位置マップ)を注入することで、多視点間の一貫性とリアリズムを両立したマルチビュー画像生成を実現。UV展開と画像補完処理により最終的なテクスチャマッピングが行われる。
さらに、LoRAやControlNetベースの制御支援機構を導入することで、形状の対称性や鋭さの調整といった属性制御にも対応。これにより、ユーザーは生成対象の幾何的特徴を柔軟に調整可能となった。
定量評価では、CLIP-ScoreやOpenShape等を用いた幾何・テクスチャ整合性指標でTripoSGやMeshy-4などの既存手法と同等かそれ以上の精度を記録。20名によるユーザー調査でも高評価を獲得した。
Step1X-3Dは論文・コード・モデルがすでに完全公開されており、今後の3D生成研究や商用応用において、オープンで高精度な生成基盤として重要な存在となる可能性が高い。