アリババと上海AI Lab、複数モデル統合による汎用T2I生成モデル「DMM」を発表──任意スタイルを制御可能に

出典:https://mp.weixin.qq.com/s/dU3DgTiZ0OE-8Y3N1pOacw

概要ポイント
  • DMMは複数の拡散モデルを統合する蒸留ベースの汎用T2Iモデル。
  • スタイル提示(style prompt)により柔軟なスタイル制御が可能。
  • 特徴模倣と多クラスGANにより教師モデルの知識を忠実に再現。
  • 正則化付きの継続学習でモデル拡張時の破壊的忘却を回避。
  • GitHub上で実装コードとデモが公開中、研究と応用両面で注目。
本文

アリババと上海AI Labの研究チームは、複数のテキストから画像生成(T2I)拡散モデルを統合する新たな手法「DMM(Distillation-Based Model Merging)」を提案した。これは、分野ごとに微調整された複数の拡散モデルを知識蒸留の技術により一つのモデルに統合し、任意スタイルの制御可能な画像生成を実現するフレームワークである。


T2Iモデルの分散的な開発と共有が進む一方で、各モデルが個別のスタイルに特化しており、パラメータ冗長性や保存コストの課題が顕在化していた。DMMはこの課題を解決すべく、スタイルごとの「プロンプト(style prompt)」と呼ばれる学習可能なベクトルを導入。統合されたUNetベースの学生モデルは、プロンプトに応じて複数の教師モデルの出力スタイルを再現できる。


訓練では、得点蒸留(score distillation)、特徴模倣(feature imitation)、多クラス対抗損失(multi-class adversarial loss)の3種の損失関数を導入。さらに、Fréchet Inception Distance(FID)を用いた評価指標により、教師モデルとの整合性を高い精度で定量評価している。FIDベースの実験では、DMMは参照モデルと非常に近いスコアを記録しており、教師モデルの特性を忠実に再現していることが示された。


また、本モデルはLoRAやControlNet、IP-AdapterといったStable Diffusion由来のプラグインとの互換性も高く、追加の訓練を必要とせず拡張が可能。プロンプトの線形補間によるスタイル混合や、多スケール生成への適応性も確認されており、創作性と応用の柔軟性に優れる。


さらにDMMは正則化付きの継続学習機構を備え、新たな教師モデルの統合時にも既存知識の保持を実現。追加スタイルの導入はプロンプトを拡張するだけで対応でき、モデル再学習のコストを大幅に削減している。


本研究の成果はarXivにて公開されており、GitHub上では実装コードとサンプルも公開済み。研究用途にとどまらず、クリエイティブ生成やプラグイン連携など、現実的な応用展開も期待される。