香港大学とAdobeが共同開発したPixelFlowは、変分オートエンコーダ(VAE)による潜在空間圧縮を前提とする既存の画像生成モデルとは異なり、ピクセル空間で直接画像を生成する新たなアプローチを取る。これにより、モデル全体をエンドツーエンドで訓練できるという構造的な利点が生まれている。
PixelFlowは、Flow Matchingと呼ばれる新しい訓練手法を採用。これは、先験分布(通常はガウス分布)から目的のデータ分布に向かう変換を、常微分方程式(ODE)ベースでスムーズに行うもので、従来の拡散モデルに見られるステップごとの離散化に伴うノイズや情報損失を最小限に抑える。
モデルは、解像度を4段階に分けて画像を徐々に精細化する設計を採用し、TransformerベースのDiTアーキテクチャを基盤に、位置埋め込み(RoPE)や多解像度対応のアテンション機構を搭載。ImageNetでのベンチマークテストでは、Frechet Inception Distance(FID)1.98を記録し、LDM(3.60)やDiT(2.27)など従来の先端モデルを凌駕した。
また、Flan-T5による言語埋め込みを組み込むことで、PixelFlowはテキストからの画像生成にも対応。T2I-CompBenchやGenEvalといった評価指標でも、他の最新モデルを上回る性能を示した。特に、色や形状、テクスチャといった複雑な意味の整合性を問うタスクで高いスコアを記録している。
PixelFlowは、GitHub上で公式コード、学習済みモデル、Jupyterノートブックを含むデモ環境も公開されており、研究者や開発者がすぐに試すことができる。潜在空間の制約から解放されたこの手法は、今後の画像生成分野におけるパラダイム転換の起点となる可能性を秘めている。