Seedream 3.0公開:2K高精細出力と美しさの向上で商用レベルの文章からの画像生成を実現

出典:https://mp.weixin.qq.com/s/mLRMHXq51HDBN_Vaylm_mw

概要ポイント
  • 2K画像を直接3秒で出力、ポスター用途にも即応。
  • 小文字やレイアウトを高精度に再現し商用利用に対応。
  • 構造の正確さと美しさが向上し、AIらしさを抑制。
  • 多段階の訓練・評価で従来モデル比の性能を大幅向上。
  • Artificial AnalysisでGPT-4oやMidjourneyを上回る評価を獲得。
本文

バイトダンスのDoubao(豆包)チームは、文章からの画像生成モデル「Seedream 3.0」の技術レポートを発表した。2K解像度の画像を直接生成し、わずか3秒という高速性を実現。前バージョンの2.0と比較して、画像の構造的正確さ、小文字の再現性、美しさ、リアリズムなど多方面で大幅な進化を遂げている。


データ面では、従来除外されていた微細な欠陥(透かし・字幕等)を持つ画像も活用可能にする「欠陥感知」技術を導入。これにより訓練可能なデータ量を20%以上拡大しつつ、品質と学習安定性を両立させた。


モデル設計では、テキストと画像の特徴を高精度で整合させるため「Cross-modality RoPE(クロスモーダル回転位置エンコーディング)」を採用し、小文字や構造描写の精度を高めている。また、複数の解像度に対応した混合学習を行うことで、追加の補正処理(Refiner)を用いずに2K画像を直接出力できるようになった。


報酬モデルも20Bパラメータ規模へ拡張され、審美性やスタイル、構図など多面的な評価軸に対応。従来のCLIPに代えて視覚言語モデル(VLM)を採用することで、画像生成の制御性や質が向上している。


推論面では、重要時間ステップを見極める蒸留技術と、ノイズ予測の一貫性強化により、精度を保ちながら大幅な高速化を実現。1K画像の生成であれば、エンドツーエンドでわずか3秒という出力時間を達成している。


現在、Seedream 3.0はDoubao(豆包)やJimeng(即夢)を通じて全面公開されており、広告制作や設計現場での応用が期待されている。AI感の少ない、構造と美しさを兼ね備えた高精度画像のニーズに応えるモデルとして評価が高まっている。


今後はモデル構造のさらなる効率化、知識理解の強化、報酬モデルの進化などを通じて、次世代モデルの研究と業界連携を加速させていく方針だ。