テンセントの生成AI部門Hunyuan(混元)が、キャラクター一貫性に特化した新たな画像生成プラグイン「InstantCharacter」をオープンソースで公開した。わずか1枚の画像と1行のプロンプトを用いるだけで、同一キャラクターを異なる場面・構図・スタイルで自然に再現できるのが特長であり、従来の画像生成における「同一性維持」の課題を解決する。
このプラグインは、オープンソースの文生画像モデルFluxとの互換性もあり、キャラクターをキッチンやサイバーパンク都市などに自在に配置できる。写実性・精度の高さに加え、自由なテキスト編集性も備え、コンテンツ制作の自由度を大幅に高める。
技術的には、従来のU-Netベースの学習アーキテクチャが持つ汎化性能の限界や、最適化手法による可変性の低下といった課題を克服するために、InstantCharacterはDiT(Diffusion Transformer)構造に拡張可能なアダプターを組み合わせた新たなフレームワークを採用している。複数のTransformer encoderにより、あらゆるキャラクターの特性を動的に抽出し、拡散変換器の潜在空間とシームレスに連携できる構造となっている。
さらに、トレーニングには数千万規模の大規模データセットが用意されており、これは多視点のペアデータと非ペアのテキスト画像データで構成される。この設計により、キャラクターの一貫性とテキスト編集の自由度を同時に最適化することが可能となった。
実際の評価では、InstantCharacterはGPT-4oクラスの画像生成性能を示し、映画・マンガ・ゲーム制作など多様な視覚コンテンツにおける活用が期待される。開発にはInstantXチームも貢献しており、今後のエコシステム拡大が注目される。