ACTalker発表:香港科技大学・テンセント・清華大学、マルチモーダルMamba構造で口型同期を革新

出典:https://mp.weixin.qq.com/s/1MRJvdcDfAVr4vageFFLGA

概要ポイント
  • ACTalkerは音声と顔動作のマルチモーダル信号で自然な口元同期動画を生成。
  • 並列Mamba構造により顔の各部位を信号別に独立制御。
  • mask-drop戦略で信号間の干渉を防ぎ制御精度を向上。
  • GitHub上でコード・モデル・事前学習済みウェイトを公開。
  • Hugging Faceの技術レポートにも採録、研究的意義も高評価。
本文

香港科技大学、テンセント、清華大学の共同研究チームは、音声と顔の動きといった複数の入力信号に基づき、自然な口元動画を生成するマルチモーダル動画拡散フレームワーク「ACTalker」を発表した。このACTalkerは、既存の単一信号制御の限界を打破し、マルチモーダル制御により柔軟かつ高精度な表情生成を実現している。


ACTalkerの中核となるのは、Mamba構造をベースとした並列制御機構だ。音声・表情の各信号は、それぞれ独立したMamba分岐で顔の特定領域を制御。さらにmask-drop戦略を導入することで、各信号が影響する顔領域を分離し、信号同士の干渉を効果的に排除している。これにより、非常に自然で一貫性のある動きを実現しながら、柔軟な生成操作が可能となった。


論文では、音声単独・表情単独・両者併用という多様なモードでの生成結果を提示し、既存の音声駆動手法や動作駆動手法に対して優れた性能を示した。また、消融実験を通じて、mask-dropとゲート制御がそれぞれ表情の精密制御と動きの柔軟性に大きく貢献していることが明らかにされている。


実装面でも、ACTalkerはオープンに提供されており、GitHubにはソースコード、事前学習済みモデル、推論・学習スクリプトが公開されている。また、Hugging Faceの技術論文リポジトリにも採録されており、研究者コミュニティからの注目も高い。プロジェクトページでは視覚的なデモも閲覧可能で、研究用途だけでなく産業応用も視野に入れた実用的な成果となっている。