バイトダンスのDoubao(豆包)チームは、文章からの画像生成モデル「Seedream 3.0」の技術レポートを発表した。2K解像度の画像を直接生成し、わずか3秒という高速性を実現。前バージョンの2.0と比較して、画像の構造的正確さ、小文字の再現性、美しさ、リアリズムなど多方面で大幅な進化を遂げている。
データ面では、従来除外されていた微細な欠陥(透かし・字幕等)を持つ画像も活用可能にする「欠陥感知」技術を導入。これにより訓練可能なデータ量を20%以上拡大しつつ、品質と学習安定性を両立させた。
モデル設計では、テキストと画像の特徴を高精度で整合させるため「Cross-modality RoPE(クロスモーダル回転位置エンコーディング)」を採用し、小文字や構造描写の精度を高めている。また、複数の解像度に対応した混合学習を行うことで、追加の補正処理(Refiner)を用いずに2K画像を直接出力できるようになった。
報酬モデルも20Bパラメータ規模へ拡張され、審美性やスタイル、構図など多面的な評価軸に対応。従来のCLIPに代えて視覚言語モデル(VLM)を採用することで、画像生成の制御性や質が向上している。
推論面では、重要時間ステップを見極める蒸留技術と、ノイズ予測の一貫性強化により、精度を保ちながら大幅な高速化を実現。1K画像の生成であれば、エンドツーエンドでわずか3秒という出力時間を達成している。
現在、Seedream 3.0はDoubao(豆包)やJimeng(即夢)を通じて全面公開されており、広告制作や設計現場での応用が期待されている。AI感の少ない、構造と美しさを兼ね備えた高精度画像のニーズに応えるモデルとして評価が高まっている。
今後はモデル構造のさらなる効率化、知識理解の強化、報酬モデルの進化などを通じて、次世代モデルの研究と業界連携を加速させていく方針だ。