バイトダンスが画像生成モデル「Seedream 2.0」技術を初公開 Doubao(豆包)に搭載、中国文化表現と文字描写に強み

出典:https://mp.weixin.qq.com/s/fWDabdpz7zBX7Mg3Uupt1g

概要ポイント
  • バイトダンスがDoubao(豆包)向けに開発した画像生成モデル「Seedream 2.0」の技術詳細を初公開。
  • 四次元データ構造とLLM+字形モデルの融合により文化・視覚の深層理解を実現。
  • フォントの形状・美感を高精度でレンダリング、実用性にも対応。
  • RLHFを含む4段階の後訓練でユーザー視点からの出力最適化を実現。
  • Bench-240評価で中英プロンプトにおいて高スコア、バランスの取れた生成性能を示す。
本文

中国のテクノロジー大手 バイトダンス(ByteDance) は、同社が提供するAIアシスタント「Doubao(豆包)」に搭載されている画像生成モデル「Seedream 2.0」の詳細を、2025年3月に初めて公式に公開した。これまで一般ユーザーが利用していた「文から画像を生成する」機能の中核を担うこのモデルは、視覚的美しさと文化的文脈の理解、さらに中英バイリンガル対応の性能を兼ね備え、他社製品に対する大きな優位性を示している。


Seedream 2.0の特徴は、単なる画像生成にとどまらず、中国文化や書道的表現を含む“国風”要素を深く理解・再現できる点にある。これを実現するために、バイトダンスは四次元のデータ構造を導入。視覚的特徴だけでなく、文化的背景、言語的意図、構図といった複雑な情報を統合した大規模な訓練データを構築し、モデルに多角的な認知能力を持たせている。


また、文字描写の品質にも大きな進歩が見られる。Seedream 2.0では、言語処理を担当するLLM(大規模言語モデル)と、文字の字形を専門に扱うByT5モデルを連携させる「双モーダル融合構造」を採用。これにより、単語の意味を正確に理解したうえで、フォントの形状・色・配置などを自然で美しく描画できるようになっている。MLPによる空間マッピングを通じて、両者の特徴量を統合し、拡散モデルに入力することで、テンプレートに頼らない柔軟なレンダリングを可能にした。


後訓練では、Continue Training(CT)、Supervised Fine-Tuning(SFT)、Prompt Engineering(PE)、そしてRLHF(人間フィードバックに基づく強化学習)の4段階を設計。特にバイトダンスが独自開発した報酬モデルによるRLHFは、ユーザーの審美評価をモデル学習に直接反映し、生成品質とユーザー満足度を同時に向上させる要となっている。


こうした総合的な進化は、Seedream 2.0の実力を測る評価データセット「Bench-240」においても証明された。中国語・英語の両プロンプトで高精度な出力を実現し、各評価軸において偏りなく優れたスコアを記録。画像生成AIに求められる「文化的理解」「指令遵守」「多言語対応」「美的表現」すべてにおいて、現行トップレベルの性能を示した。


Doubao(豆包)チームはこのモデルを、単なるプロダクトではなく、視覚と言語の融合による「次世代AI表現基盤」として位置づけており、今後の国際展開や産業応用も視野に入れている。バイトダンスの技術ポータルでは、アーキテクチャ構成、トレーニング戦略、プロンプト設計、生成サンプルまで詳細に公開されており、マルチモーダルAI分野における新たな技術指標として注目されている。


【関連リンク】
公式技術レポート:https://team.doubao.com/en/tech/seedream
Doubao公式サイト:https://www.doubao.com/chat