Seed Research、強化学習レシピ「POLARIS」を発表──4Bモデルで235B級の数学推論性能、訓練手法を完全公開

出典:https://mp.weixin.qq.com/s/6ohGURiGs9z-Osh_Ew7Grw

POLARIS by Seed Research
概要ポイント
  • POLARISは4Bモデルでも大規模モデルに匹敵する数学推論能力を実現。
  • 訓練対象モデルに合わせてデータとハイパーパラメータを動的に調整。
  • 温度設定を段階的に最適化し、多様性と性能のバランスを維持。
  • 長文処理には位置エンコーディング外挿で対応、性能が大幅に改善。
  • Qwen3-4Bなど複数モデルで精度が顕著に向上、全手法をオープンソースで公開。
本文

バイトダンスのSeedチームは、香港大学・復旦大学と共同で、小型LLM向けの強化学習手法「POLARIS(Policy Optimization for Lightweight And Robust Inference Systems)」を開発した。Qwen3-4Bを用いた実験では、AIME24/25において79.4〜81.2%の正答率を記録し、235Bクラスの大型モデルに迫る数学推論性能を実現している。


POLARISでは、訓練対象モデルに最適化した訓練データと超パラメータ設定を導入。サンプルの難易度を動的に調整することで、過学習や簡単すぎる課題を排除し、効率的な学習を実現する。加えて、生成の多様性を維持するため、訓練中のサンプリング温度を段階的に変更する「探索制御ゾーン」戦略を採用し、最適な温度範囲を動的に適用することで性能を安定化させた。


長文推論の性能を高めるため、事前学習済みの最大文脈長32Kを超える領域において、位置エンコーディングを外挿する「YaRN」方式を採用。これにより長文推論時の正答率が26%から50%以上へと向上した。初期段階から40Kトークンで訓練を行う戦略により、後の段階でも安定した性能向上が得られたことが報告されている。


最終的に、Qwen3-1.7B、DeepSeek-R1-Distill-Qwen-7B、Qwen3-4Bといった複数モデルでPOLARIS訓練を実施し、AIME24/25を含む5つのベンチマークにおいて平均10点以上の精度向上を達成。すべての訓練コードと設定はGitHub上で公開されており、再現・応用が可能となっている。