テンセントが「FlexIP」発表──個性と忠実性を両立する画像生成新フレームワーク

出典:https://mp.weixin.qq.com/s/dmYAe4tCNE4mMypZAy5f9g

概要ポイント
  • FlexIPは「個性適応器」と「識別保持適応器」により画像編集の2要素を分離制御。
  • 動的重みゲートでスタイル自由度と識別性を推論時に調整可能。
  • CLIPとDINOを活用し、意味的一貫性と視覚的詳細を両立。
  • 複数ベンチマークにおいて画像品質・忠実性で他手法を上回る性能。
  • 論文と公式サイトでコードとデモ画像を公開中。
本文

テンセントは2024年4月11日、高忠実度な画像合成と柔軟なスタイル編集を両立させる新フレームワーク「FlexIP(Flexible Identity Preservation)」を発表した。本手法は、従来の生成モデルが抱えていた「個性の自由度」と「対象の識別性維持」の間のトレードオフを克服するものとして注目されている。


FlexIPは「識別保持適応器(Preservation Adapter)」と「個性適応器(Personalization Adapter)」の2つの独立モジュールを導入し、それぞれが対象の外観情報とスタイル変更を専任的に制御する。さらに、両者の寄与を推論時に調整可能な「動的重みゲート(Dynamic Weight Gating)」を搭載することで、画像生成の出力における柔軟性を飛躍的に高めた。


モデルは、CLIPの[CLS]埋め込みとDINO特徴を活用し、意味的な整合性と視覚的なディテールの両方を高精度で再現する構造となっている。DreamBench+やMSBenchといった標準ベンチマークで、FlexIPは個性表現・識別性・画質・美的評価のすべてにおいて先行手法を凌駕し、特に人間の主観評価との一致度でも高スコアを記録した。


また、ゼロショットのスタイル変換タスクにも対応しており、指示に対する忠実な応答と視覚的な一貫性の両立が可能。現在、論文および公式プロジェクトページにてコード・学習済みモデル・デモ画像が公開されており、カスタム画像生成における新たな標準技術としての展開が期待される。