中国のAI企業・Zhipu(智譜)は、初の漢字生成に対応したオープンソースのテキストから画像生成モデル「CogView4」を発表した。このモデルは、DPG-Benchベンチマークで総合スコア1位を獲得し、オープンソースのテキストから画像生成モデルとして最先端(SOTA)を達成した。また、Apache 2.0ライセンスに準拠する初の画像生成モデルでもある。
CogView4は、中英バイリンガルのプロンプト入力をサポートし、漢字を含む画像生成が可能である。これにより、広告や短編動画などの分野での創造的なニーズに応えることができる。さらに、任意の長さのプロンプトと解像度での画像生成に対応しており、ユーザーの創作の自由度を高めている。
技術的には、CogView4はGLM-4エンコーダを採用し、中英バイリンガルのテキストと画像でトレーニングを行った。また、2D RoPE(2次元回転位置エンコーディング)を用いて画像の位置情報をモデル化し、Flow-matching方式での拡散生成モデリングを採用している。さらに、複数段階のトレーニング戦略を採用し、高品質な画像生成を実現している。
最新バージョンのCogView4-0304は既に公開されており、3月13日より「智譜清言(chatglm.cn)」で利用可能となる。開発者や研究者は、以下のリンクからモデルや関連リソースにアクセスできる。
- GitHubリポジトリ:https://github.com/THUDM/CogView4
- Hugging Faceモデル:https://huggingface.co/THUDM/CogView4-6B
- ModelScopeモデル:https://modelscope.cn/models/ZhipuAI/CogView4-6B
Zhipuは、2025年を「オープンソース年」と位置づけ、今後も基盤モデル、推論モデル、多モーダルモデル、エージェントモデルなどのオープンソース化を進めていく予定である。
【関連リンク】
智譜清言公式サイト:https://chatglm.cn