復旦大学とバイトダンスが共同で発表した「SimpleAR」は、わずか5億パラメータの純自回帰型画像生成AIでありながら、従来の拡散モデルに匹敵する、あるいは凌駕する性能を実現している。特徴は、複雑なアーキテクチャ改修を伴わず、効率的なトレーニングと推論手法により性能を最大化している点にある。
SimpleARは、視覚・テキストのトークンを統合処理するTransformerアーキテクチャにより、拡散モデルに見られる外部エンコーダの必要性を排除。「Cosmosトークナイザー(視覚トークナイザー)」と呼ばれる手法で画像をトークン化し、Qwen互換の構造を活かして事前学習・有監督微調整・GRPOによる強化学習の3段階で学習を行うことで、高精度かつ指示に忠実な画像生成を実現している。
ベンチマークでは、GenEvalでスコア0.59、DPGベンチで79.66を達成。特にGenEvalでは、同等サイズの自回帰モデルや拡散モデル(例:Stable Diffusion v2.1)を凌駕する結果となった。さらに、vLLMやKVキャッシュ、Speculative Jacobi Decodingの応用により、推論速度は1枚あたり約14秒まで短縮された。
実験には大規模な視覚データと1,000万件規模の高品質データを用い、Qwen2-VLによるキャプション付与や長短プロンプトのランダム化により多様な学習を行った。CLIP報酬による強化学習が画像美学や指示の遵守性向上に特に有効であることも実証された。
SimpleARはGitHubで公開されており、論文ではTransformerベースの構造や高速推論の詳細が説明されている。今後は、Cosmosトークナイザーの改良や動画生成、音声・画像・テキストの統合処理に向けた進化が期待されている。