チャイナAI速報 | 中国AIニュースを日本語で速報

March 4/2025

Zhipu（智譜）がSOTAを達成、初の漢字生成対応オープンソース画像生成モデル「CogView4」公開

出典：https://www.zhipuai.cn/news/151

概要ポイント

ZhipuのCogView4がDPG-Benchベンチマークで総合スコア1位を獲得。
中英バイリンガル入力をサポートし、漢字を含む画像生成が可能。
任意の長さのプロンプトと解像度での画像生成に対応。
Apache 2.0ライセンスに準拠した初の画像生成モデル。
3月13日より「智譜清言（chatglm.cn）」で利用可能。

本文

中国のAI企業・Zhipu（智譜）は、初の漢字生成に対応したオープンソースのテキストから画像生成モデル「CogView4」を発表した。このモデルは、DPG-Benchベンチマークで総合スコア1位を獲得し、オープンソースのテキストから画像生成モデルとして最先端（SOTA）を達成した。また、Apache 2.0ライセンスに準拠する初の画像生成モデルでもある。

CogView4は、中英バイリンガルのプロンプト入力をサポートし、漢字を含む画像生成が可能である。これにより、広告や短編動画などの分野での創造的なニーズに応えることができる。さらに、任意の長さのプロンプトと解像度での画像生成に対応しており、ユーザーの創作の自由度を高めている。

技術的には、CogView4はGLM-4エンコーダを採用し、中英バイリンガルのテキストと画像でトレーニングを行った。また、2D RoPE（2次元回転位置エンコーディング）を用いて画像の位置情報をモデル化し、Flow-matching方式での拡散生成モデリングを採用している。さらに、複数段階のトレーニング戦略を採用し、高品質な画像生成を実現している。

最新バージョンのCogView4-0304は既に公開されており、3月13日より「智譜清言（chatglm.cn）」で利用可能となる。開発者や研究者は、以下のリンクからモデルや関連リソースにアクセスできる。

GitHubリポジトリ：https://github.com/THUDM/CogView4
Hugging Faceモデル：https://huggingface.co/THUDM/CogView4-6B
ModelScopeモデル：https://modelscope.cn/models/ZhipuAI/CogView4-6B

Zhipuは、2025年を「オープンソース年」と位置づけ、今後も基盤モデル、推論モデル、多モーダルモデル、エージェントモデルなどのオープンソース化を進めていく予定である。

【関連リンク】
智譜清言公式サイト：https://chatglm.cn