アリババ・Tongyi Lab、全能画像編集モデル「Qwen-Image-Edit」を公開──テキスト精度と編集自由度を両立

出典:https://mp.weixin.qq.com/s/ibgZIskZqjnJl9yKgc_ixA

Qwen-Image-Edit
概要ポイント
  • アリババ・Tongyi LabがQwen-Image-Editを公開。
  • 外観と意味の両面での編集機能を搭載。
  • 中英テキストの高精度な編集に対応。
  • 公開ベンチマークでSOTA性能を達成。
  • IP創作、視角変換、風格転換など応用事例を提示。
本文

アリババの研究部門Tongyi Labは、20Bパラメータの画像生成基盤モデルを拡張した編集特化モデル「Qwen-Image-Edit」を公開した。本モデルは入力画像をQwen2.5-VLとVAE Encoderに同時処理させ、視覚的意味と外観の両側面を制御可能とした点に特徴がある。


これにより、オブジェクト追加・削除といった局所的な外観編集から、IPキャラクターの創作、視角変換、風格転換といった全体的な意味編集まで幅広いタスクに対応する。特に、画像中の文字に対して中英両言語での追加・削除・修正が可能であり、フォントやサイズを保ちながら精密に処理できる。


公開されたベンチマーク評価では、Qwen-Image-Editは画像編集領域でSOTA性能を示した。具体的な事例としては、吉祥物カピバラのMBTI表情パック生成や、物体の180度回転、人物画像のスタイル変換、ポスター内の細文字修正などが紹介されている。さらに、誤字を段階的に修正していく「チェーン編集」による書道作品の完成事例も示され、実用性が強調された。


今回の公開は、視覚コンテンツ制作のハードルを下げ、IP創作や広告制作、個人利用まで幅広い領域での応用を促進するものと位置付けられる。