チャイナAI速報 | 中国AIニュースを日本語で速報

April 7/2025

アリババのTongyi Lab、1枚の写真から数秒で動く3Dデジタル人間を生成する「LHM」と「LAM」を公開

出典：https://mp.weixin.qq.com/s/KMn4CFq9mAANXITO1E9X0Q

概要ポイント

LHMは1枚の画像から骨格連動型3Dヒューマンを生成するAIモデル。
LAMは会話可能な3Dチャットアバターを構築する新プロジェクト。
どちらもアリババのTongyi Labによって開発され、GitHubで公開中。
SMPL-Xとガウス表現を活用し、高速かつ高精度な3D再構成を実現。
応用分野はゲーム、モーション再現、バーチャルヒューマン、VR空間など多岐。

本文

アリババの研究機関「Tongyi Lab」は、1枚の静止画像から数秒で高精度な3Dデジタルヒューマンを生成できる2つのAIモデル「LHM（Learnable Human Model）」と「LAM（Learnable Avatar Model）」を公開した。LHMは、人物写真を基に動作可能な3Dガウス人体を出力するモデルで、骨格構造との連動によりリアルなモーション再現が可能。一方、2025年4月に新たに発表されたLAMは、写真1枚から対話可能な3Dアバターを構築できるモデルで、音声・表情連動型のインタラクティブなキャラクター生成を実現する。

LHMでは、単眼画像をVision Transformerで分割・エンコードし、SMPL-Xベースの人体先験モデルを用いてガウス表現の3Dボディを出力する。特徴点には座標偏移や色彩、サイズ、回転ベクトルなどが含まれ、視覚的・動作的に自然なデジタル人間を生成可能。さらに、DINOv2に基づいたHead Tokenization手法で頭部の細部まで再現される。

2D画像と3D情報の融合には、独自の「Body-Head Transformer」構造を採用。SD3の多モーダル学習設計を参考に、Self-Attention機構を通じて、頭部と身体のトークンを統合的に学習する。この構造により、全身の一貫性と自然な動きが担保される。

LHMの応用範囲は広く、スポーツやダンスの動作再現、ゲームキャラクターの生成、バーチャル受付スタッフのような対話インターフェース、さらにはVR空間への展開まで多岐にわたる。一方のLAMは、テキストから音声を合成し、リップシンクや表情制御が可能な3Dチャットアバターを生成。対話型AIのフロントエンドや仮想キャラクターの実装に活用が期待される。

両プロジェクトは完全にオープンソースで、GitHub上でコードとドキュメントが公開されている。ModelScopeでのオンライン体験や、Bilibiliでの導入動画なども用意されており、開発者やコンテンツ制作者がすぐに試せる環境が整っている。