Zhipu(智譜)がSOTAを達成、初の漢字生成対応オープンソース画像生成モデル「CogView4」公開

出典:https://www.zhipuai.cn/news/151

概要ポイント
  • ZhipuのCogView4がDPG-Benchベンチマークで総合スコア1位を獲得。
  • 中英バイリンガル入力をサポートし、漢字を含む画像生成が可能。
  • 任意の長さのプロンプトと解像度での画像生成に対応。
  • Apache 2.0ライセンスに準拠した初の画像生成モデル。
  • 3月13日より「智譜清言(chatglm.cn)」で利用可能。
本文

中国のAI企業・Zhipu(智譜)は、初の漢字生成に対応したオープンソースのテキストから画像生成モデル「CogView4」を発表した。このモデルは、DPG-Benchベンチマークで総合スコア1位を獲得し、オープンソースのテキストから画像生成モデルとして最先端(SOTA)を達成した。また、Apache 2.0ライセンスに準拠する初の画像生成モデルでもある。


CogView4は、中英バイリンガルのプロンプト入力をサポートし、漢字を含む画像生成が可能である。これにより、広告や短編動画などの分野での創造的なニーズに応えることができる。さらに、任意の長さのプロンプトと解像度での画像生成に対応しており、ユーザーの創作の自由度を高めている。


技術的には、CogView4はGLM-4エンコーダを採用し、中英バイリンガルのテキストと画像でトレーニングを行った。また、2D RoPE(2次元回転位置エンコーディング)を用いて画像の位置情報をモデル化し、Flow-matching方式での拡散生成モデリングを採用している。さらに、複数段階のトレーニング戦略を採用し、高品質な画像生成を実現している。


最新バージョンのCogView4-0304は既に公開されており、3月13日より「智譜清言(chatglm.cn)」で利用可能となる。開発者や研究者は、以下のリンクからモデルや関連リソースにアクセスできる。


Zhipuは、2025年を「オープンソース年」と位置づけ、今後も基盤モデル、推論モデル、多モーダルモデル、エージェントモデルなどのオープンソース化を進めていく予定である。


【関連リンク】
智譜清言公式サイト:https://chatglm.cn