バイトダンス、1次元トークンでテキストと画像を統一処理──次世代生成AI「FlowTok」を公開

出典:https://mp.weixin.qq.com/s/tBmkSSQEKk0YIHZRHl356A

FlowTok
概要ポイント
  • テキストと画像を同じ1次元トークン形式に変換し、双方向生成を実現
  • モデルはPixArtより3倍高速、メモリ効率に優れた軽量設計
  • 8枚のA100 GPUで8Kバッチ処理を実現、20日で高精度モデルが完成
  • オープンソースとしてGitHubでコード公開
  • FlowTokの公式サイトで図解・デモも公開中
本文

バイトダンスは、テキストと画像を統一形式で処理可能なマルチモーダル生成AIフレームワーク「FlowTok」を発表し、コードとデモを公開した。FlowTokは、従来のようにテキストを条件信号として拡散処理するのではなく、テキストと画像の両モダリティを同じ1次元トークン形式にマッピングし、直接変換を行う点が最大の特徴である。


このアーキテクチャでは、CLIPテキストエンコーダで得られた埋め込みを「77×16」サイズのテキストトークンに変換し、それを流れ(flow matching)によって画像トークンへと直接変換。画像トークンは1次元VAEデコーダにより画像として再構成される。一方、画像→テキストの生成も同様に処理されるため、双方向の生成が一貫したフレームワークで実現されている。


この設計により、従来の32×32×4といった高次元な画像潜在空間を3.3倍圧縮でき、少ないメモリでの高速処理が可能となる。実際、PixArtと比較して生成速度は約3倍高速化されており、トレーニングもわずか8枚のA100 GPUで8Kバッチ処理が可能。20日間で最先端モデルに匹敵する性能に到達したとされる。


本モデルのシンプルさはトレーニング効率だけでなく、サンプリング(推論)速度にも表れており、現行のテキスト→画像生成モデルより10倍以上高速とされている。さらにGitHub上でFlowTokのコードとトークナイザーがオープンソースで公開されており、研究者や開発者が自由に実装・拡張できるようになっている。