南洋理工大学・オックスフォード大学・シンガポール理工大学、遮蔽2D画像から完全な3Dリソースを再構築する「Amodal3R」を発表

出典:https://mp.weixin.qq.com/s/iZQGs81axto95Ld713YrEA

概要ポイント
  • Amodal3Rは、遮蔽された2D画像から完全な3Dリソースを生成できる条件付き3D生成モデル。
  • マスク加重型クロスアテンションと遮蔽認識型注意機構を導入し、高精度な推定を実現。
  • 合成データのみの学習でも、現実シーンで高い再構築精度を示した。
  • 既存の2D補完後3D再構築手法に比べ、直接3D空間で優れた性能を達成。
  • Hugging Face上でモデルとデモが公開されており、誰でも試用可能。
本文

南洋理工大学、オックスフォード大学、シンガポール理工大学の研究チームは、部分的に遮蔽された2D画像から、完全な3D形状と外観を推定・再構築できる新たな条件付き3D生成モデル「Amodal3R」を発表した(論文参照)。従来の3Dリソース再構築手法は対象物が完全に可視であることを前提としていたが、Amodal3Rは現実世界で頻発する遮蔽環境に対応することを目的とする。


モデル設計においては、マスク加重型クロスアテンションと遮蔽認識型アテンション層を導入し、可視領域から得られる情報を最大限に活用しながら、遮蔽領域を合理的に推定する能力を強化している。この構成により、遮蔽された2D画像から直接3D空間で一貫した形状と外観を復元でき、従来の「2D補完→3D再構築」アプローチを大幅に上回る成果を示した。


Amodal3Rは合成データのみでトレーニングされているにもかかわらず、現実世界の複雑なシーンにおいても高い性能を発揮。特に、遮蔽領域の多い状況下でも3Dリソースの整合性と意味的整合性を維持できる点が特徴となっている。


本プロジェクトはすでに公開されており、公式サイトから概要と成果物を閲覧できるほか、Hugging Faceにてモデル自体も提供され、さらにデモページ上で実際に動作を試すことも可能となっている。この研究成果は、今後の遮蔽環境下における堅牢な3Dリソース生成やシーン理解技術の進展に大きく寄与すると期待される。