チャイナAI速報 | 中国AIニュースを日本語で速報

April 15/2025

香港大学とバイトダンス、「GigaTok」を発表　30億パラメータの画像トークナイザーが自己回帰型生成で新SOTA達成

出典：https://mp.weixin.qq.com/s/DMhjFcLuJvjvsnTwmbiHnw

概要ポイント

GigaTokは意味正則化により画像再構成と生成性能のトレードオフを解消。
CNN＋Transformerハイブリッドの非対称構造と1D設計でスケーラビリティを確保。
29億パラメータのトークナイザーと14億のARモデルによりSOTA性能を達成。
GitHub上でコード・学習済みモデル・実行手順を全公開。
モデル推論・再構成・埋め込み生成を容易に試せるデモスクリプトも提供。

本文

香港大学とバイトダンスが共同開発した「GigaTok」は、30億パラメータを持つ画像トークナイザーとして、自己回帰型画像生成の新たな性能指標（SOTA）を打ち立てた。画像トークナイザーとは、画像を離散的なトークンに変換するエンコーダであり、自己回帰（AR）モデルがそのトークン列を基に画像生成を行う。本研究では、従来課題とされていた「再構成の忠実度向上と生成性能の低下」というトレードオフに対し、「意味正則化（Semantic Regularization）」を導入することで解決を図っている。

意味正則化では、事前学習済みの画像エンコーダDINOv2の意味表現とGigaTokの中間層出力を一致させるよう訓練し、潜在空間の過度な複雑化を防ぐ。これにより、自己回帰モデルがより効率的にトークンの依存関係を学習でき、再構成精度（rFID）と生成性能（gFID）の両立が可能となった。

さらに、GigaTokの構造はCNNとTransformerを融合したハイブリッド型で、1Dトークナイザーの採用とデコーダ重視の非対称設計によって、2D構造より高いスケーラビリティを発揮。実験では、29億パラメータのGigaTokと14億パラメータの自己回帰モデル「LlamaGen」を組み合わせ、視覚生成における既存モデルを上回る性能を記録した。

2025年4月14日には、論文の公開とともに、GitHub上で全コード、学習済みモデル、トークナイザーのチェックポイント、推論デモ用スクリプトが同時公開された。デモでは画像再構成、意味埋め込みの可視化、トークン化プロセスなどを手軽に試せる設計となっており、研究者や開発者が即座に再現・応用できる環境が整っている。

今後、GigaTokはマルチモーダルAIや視覚言語統合モデルの基盤技術としての活用が期待され、オープンソースによる技術波及の広がりも注目される

香港大学とバイトダンス、「GigaTok」を発表 30億パラメータの画像トークナイザーが自己回帰型生成で新SOTA達成

香港大学とバイトダンス、「GigaTok」を発表　30億パラメータの画像トークナイザーが自己回帰型生成で新SOTA達成