香港大学とバイトダンス、「GigaTok」を発表 30億パラメータの画像トークナイザーが自己回帰型生成で新SOTA達成

出典:https://mp.weixin.qq.com/s/DMhjFcLuJvjvsnTwmbiHnw

概要ポイント
  • GigaTokは意味正則化により画像再構成と生成性能のトレードオフを解消。
  • CNN+Transformerハイブリッドの非対称構造と1D設計でスケーラビリティを確保。
  • 29億パラメータのトークナイザーと14億のARモデルによりSOTA性能を達成。
  • GitHub上でコード・学習済みモデル・実行手順を全公開。
  • モデル推論・再構成・埋め込み生成を容易に試せるデモスクリプトも提供。
本文

香港大学とバイトダンスが共同開発した「GigaTok」は、30億パラメータを持つ画像トークナイザーとして、自己回帰型画像生成の新たな性能指標(SOTA)を打ち立てた。画像トークナイザーとは、画像を離散的なトークンに変換するエンコーダであり、自己回帰(AR)モデルがそのトークン列を基に画像生成を行う。本研究では、従来課題とされていた「再構成の忠実度向上と生成性能の低下」というトレードオフに対し、「意味正則化(Semantic Regularization)」を導入することで解決を図っている。


意味正則化では、事前学習済みの画像エンコーダDINOv2の意味表現とGigaTokの中間層出力を一致させるよう訓練し、潜在空間の過度な複雑化を防ぐ。これにより、自己回帰モデルがより効率的にトークンの依存関係を学習でき、再構成精度(rFID)と生成性能(gFID)の両立が可能となった。


さらに、GigaTokの構造はCNNとTransformerを融合したハイブリッド型で、1Dトークナイザーの採用とデコーダ重視の非対称設計によって、2D構造より高いスケーラビリティを発揮。実験では、29億パラメータのGigaTokと14億パラメータの自己回帰モデル「LlamaGen」を組み合わせ、視覚生成における既存モデルを上回る性能を記録した。


2025年4月14日には、論文の公開とともに、GitHub上で全コード、学習済みモデル、トークナイザーのチェックポイント、推論デモ用スクリプトが同時公開された。デモでは画像再構成、意味埋め込みの可視化、トークン化プロセスなどを手軽に試せる設計となっており、研究者や開発者が即座に再現・応用できる環境が整っている。


今後、GigaTokはマルチモーダルAIや視覚言語統合モデルの基盤技術としての活用が期待され、オープンソースによる技術波及の広がりも注目される