アリババのTongyi Lab、1枚の写真から数秒で動く3Dデジタル人間を生成する「LHM」と「LAM」を公開

出典:https://mp.weixin.qq.com/s/KMn4CFq9mAANXITO1E9X0Q

概要ポイント
  • LHMは1枚の画像から骨格連動型3Dヒューマンを生成するAIモデル。
  • LAMは会話可能な3Dチャットアバターを構築する新プロジェクト。
  • どちらもアリババのTongyi Labによって開発され、GitHubで公開中。
  • SMPL-Xとガウス表現を活用し、高速かつ高精度な3D再構成を実現。
  • 応用分野はゲーム、モーション再現、バーチャルヒューマン、VR空間など多岐。
本文

アリババの研究機関「Tongyi Lab」は、1枚の静止画像から数秒で高精度な3Dデジタルヒューマンを生成できる2つのAIモデル「LHM(Learnable Human Model)」と「LAM(Learnable Avatar Model)」を公開した。LHMは、人物写真を基に動作可能な3Dガウス人体を出力するモデルで、骨格構造との連動によりリアルなモーション再現が可能。一方、2025年4月に新たに発表されたLAMは、写真1枚から対話可能な3Dアバターを構築できるモデルで、音声・表情連動型のインタラクティブなキャラクター生成を実現する。


LHMでは、単眼画像をVision Transformerで分割・エンコードし、SMPL-Xベースの人体先験モデルを用いてガウス表現の3Dボディを出力する。特徴点には座標偏移や色彩、サイズ、回転ベクトルなどが含まれ、視覚的・動作的に自然なデジタル人間を生成可能。さらに、DINOv2に基づいたHead Tokenization手法で頭部の細部まで再現される。


2D画像と3D情報の融合には、独自の「Body-Head Transformer」構造を採用。SD3の多モーダル学習設計を参考に、Self-Attention機構を通じて、頭部と身体のトークンを統合的に学習する。この構造により、全身の一貫性と自然な動きが担保される。


LHMの応用範囲は広く、スポーツやダンスの動作再現、ゲームキャラクターの生成、バーチャル受付スタッフのような対話インターフェース、さらにはVR空間への展開まで多岐にわたる。一方のLAMは、テキストから音声を合成し、リップシンクや表情制御が可能な3Dチャットアバターを生成。対話型AIのフロントエンドや仮想キャラクターの実装に活用が期待される。


両プロジェクトは完全にオープンソースで、GitHub上でコードとドキュメントが公開されている。ModelScopeでのオンライン体験や、Bilibiliでの導入動画なども用意されており、開発者やコンテンツ制作者がすぐに試せる環境が整っている。