テンセントは最新の図像生成モデル「Hunyuan Image 2.0(混元図像2.0)」を正式発表した。このモデルは、テキストや音声による指示にリアルタイムで反応し、ミリ秒単位で図像を生成できる「話しながら描く」機能を搭載。草図との組み合わせや参考画像の活用も可能で、用途の幅が広がっている。
実写風の表現に加え、アニメや編み物風など多様なスタイルにも対応。主題の一貫性を保ちながら、指示に応じて内容を柔軟に拡張する能力も評価されている。音声入力は中英両語に対応しており、より直感的な操作が可能。
技術面では、前モデルに比べてパラメータを1桁拡大し、独自の高圧縮コーデックによって処理効率を大幅に向上。マルチモーダル大規模言語モデル(MLLM)をテキストエンコーダーに採用し、深層的な意味理解と整合性を実現。さらに、後訓練や対抗蒸留を通じて少ないステップでも高品質な生成が可能となった。
今後は、多輪の図像生成や対話型の応答強化を備えた原生マルチモーダルモデルのリリースも予定されており、Hunyuanシリーズのさらなる展開が注目される。