テンセント、HunyuanImage 2.1を公開──2K解像度・文字生成に対応したオープンソース画像生成モデル

出典:https://mp.weixin.qq.com/s/y42JArSGf-9amxShrpTKGA

HunyuanImage 2.1
概要ポイント
  • HunyuanImage 2.1は2K解像度とネイティブ文字生成に対応。
  • 複雑なセマンティクス理解と多主体制御を強化。
  • ジブリ風やデフォルメキャラなど多様なスタイルを生成可能。
  • 入力をリライトする「PromptEnhancer」で指示最適化。
  • Hugging FaceやGitHubでオープンソース公開。
本文

テンセントは最新の画像生成モデル「HunyuanImage 2.1」を公開した。本モデルは原生2K解像度での出力をサポートし、中英両言語の文字生成に対応。複雑なセマンティクスや複数主体の描写を正確に制御でき、ポスターや漫画制作における文字と画面の自然な統合も可能となった。


ジブリ風のアニメーションやデフォルメキャラ、超現実的なフィギュアなど幅広いスタイルを生成できる点も特徴。内部構造は17Bパラメータ規模のDiTアーキテクチャで、推論ステップを100から8に圧縮しつつ品質を維持。高速かつ高品質な生成を実現した。さらに、入力テキストをリライトして表現力を強化する「PromptEnhancer」モデルも同時に公開された。


HunyuanImage 2.1はHugging FaceやGitHubでオープンソースとして公開され、研究者や開発者が自由に利用・派生開発できる基盤となっている。すでにHunyuanシリーズは3D分野で累計230万超のダウンロードを記録しており、今回の公開はグローバルなオープンソースAIコミュニティにおける存在感を一層強める動きといえる。