香港大学とバイトダンスが共同開発した「GigaTok」は、30億パラメータを持つ画像トークナイザーとして、自己回帰型画像生成の新たな性能指標(SOTA)を打ち立てた。画像トークナイザーとは、画像を離散的なトークンに変換するエンコーダであり、自己回帰(AR)モデルがそのトークン列を基に画像生成を行う。本研究では、従来課題とされていた「再構成の忠実度向上と生成性能の低下」というトレードオフに対し、「意味正則化(Semantic Regularization)」を導入することで解決を図っている。
意味正則化では、事前学習済みの画像エンコーダDINOv2の意味表現とGigaTokの中間層出力を一致させるよう訓練し、潜在空間の過度な複雑化を防ぐ。これにより、自己回帰モデルがより効率的にトークンの依存関係を学習でき、再構成精度(rFID)と生成性能(gFID)の両立が可能となった。
さらに、GigaTokの構造はCNNとTransformerを融合したハイブリッド型で、1Dトークナイザーの採用とデコーダ重視の非対称設計によって、2D構造より高いスケーラビリティを発揮。実験では、29億パラメータのGigaTokと14億パラメータの自己回帰モデル「LlamaGen」を組み合わせ、視覚生成における既存モデルを上回る性能を記録した。
2025年4月14日には、論文の公開とともに、GitHub上で全コード、学習済みモデル、トークナイザーのチェックポイント、推論デモ用スクリプトが同時公開された。デモでは画像再構成、意味埋め込みの可視化、トークン化プロセスなどを手軽に試せる設計となっており、研究者や開発者が即座に再現・応用できる環境が整っている。
今後、GigaTokはマルチモーダルAIや視覚言語統合モデルの基盤技術としての活用が期待され、オープンソースによる技術波及の広がりも注目される