テンセント、HunyuanImage 3.0を公開──80Bのネイティブ型マルチモーダル画像生成モデルをオープンソース化

出典:https://mp.weixin.qq.com/s/rxpUU-oqmo-kKPVpFbM90Q

HunyuanImage 3.0 キービジュアル
概要ポイント
  • 80B規模のネイティブ型マルチモーダル画像生成モデルをオープンソースで公開。
  • 長文や小さな文字を含む複雑レイアウトの生成精度を大幅改善。
  • LLMの世界知識を活用した常識推論とレイアウト把握を内包。
  • 約50億の画像テキスト対+動画フレーム+6Tコーパスで混合学習。
  • 現段階はテキストからの画像生成のみ提供、画像編集やマルチターン対話は後日公開予定。
本文

テンセントはHunyuanImage 3.0を正式公開し、GitHubやHugging Faceでモデル重みと加速版を無償配布した。80B規模のネイティブ型マルチモーダル設計を採用し、単一モデルでテキスト・画像・動画・音声の入出力を想定する。従来の複数モデルの結合ではなく、生成と理解を統合することで、LLM由来の世界知識と常識推論を画像生成に直接活用する狙いを示す。


学習はHunyuan-A13Bを基盤に、約50億件の画像テキスト対や動画フレーム、画像とテキストを組み合わせたデータ、6T規模のコーパスを用いた混合訓練で実施。これにより指示解釈と審美性を高め、ポスターの小さな文字や長文テキストを含む複雑レイアウトでも整合性の高い生成を実現したとする。実例として、科学解説漫画の自動構成、ファッションECの分解レイアウト、食品・香水・茶葉のプロダクト撮影風レンダリング、表情パックや9分割レイアウトのミーム、拡散モデル解説イラストなどを提示し、プロの制作効率と非デザイナーの創作裾野拡大を訴求する。


現時点の一般提供はテキストからの画像生成に限定され、画像条件付き生成、画像編集、マルチターン対話などは後続リリースを予告。Hunyuanシリーズの系譜としては、ネイティブDiTの「HunyuanDiT」、ネイティブ2Kの「HunyuanImage 2.1」、商用級リアルタイム画像生成の「HunyuanImage 2.0」に続く位置づけで、3.0では“ネイティブ型マルチモーダル”とオープンソースの両立を前面に打ち出す。