バイドゥ、ERNIE 4.5シリーズを正式オープンソース化 ─ 最大424BパラメータのマルチモーダルMoEモデルも公開

出典:https://mp.weixin.qq.com/s/MflKTGJKvS2SZd8_MMIFxQ

ERNIE 4.5モデルイメージ
概要ポイント
  • 最大424BパラメータのマルチモーダルMoEモデルを含む10モデルを公開。
  • 異種モダリティ融合を可能にする新型MoE構造を導入。
  • PaddlePaddleフレームワークにより高効率訓練と4/2bit量子化推論を実現。
  • DeepSeekやQwenを上回るベンチマーク性能を記録。
  • 開発支援ツールERNIEKitとFastDeployで研究・商用利用を包括支援。
本文

バイドゥはERNIE 4.5(文心4.5)シリーズとして、合計10種類の大規模AIモデルをApache 2.0ライセンスで正式に公開した。中でも最大構成は424Bパラメータを持ち、活性化パラメータは47Bまたは3Bで構成されたマルチモーダル対応のMoE(混合専門家)構造が含まれる。


今回導入された新しいMoE構造は、テキストと画像という異なるモダリティをまたいでパラメータを共有しつつ、専用空間も確保する設計。ルーティングの直交損失やトークン負荷バランスの最適化などを通じて、表現力を大幅に向上させている。


訓練および推論はPaddlePaddleフレームワークに基づき、FP8混合精度、再計算戦略、4bit/2bit量子化を活用。FLOPs活用率は47%に達し、高速かつ高精度な推論環境を実現した。


ERNIE 4.5はベンチマークにおいて、DeepSeek-V3やQwen-30Bなどを上回る性能を記録。指令理解、世界知識、視覚推論など多様なタスクでSOTAを達成している。後処理にはSFTやDPO、UPOといった多段階最適化を採用し、用途に応じた柔軟な調整が可能となっている。


開発者向けには、微調整・量子化・高速展開に対応する「ERNIEKit」と「FastDeploy」も同時に提供。OpenAI API互換の推論環境や、vLLM対応など商用展開も視野に入れた機能が揃う。さらに星河社区(AI Studio)では実践ガイドや教育コンテンツも公開されており、エコシステムの拡大が進んでいる。