中国のAI企業DeepSeekと清華大学の研究チームは、大規模言語モデル(LLM)向けに新たな推論時拡張型報酬モデル手法「SPCT(Self-Principled Critique Tuning)」を発表した。これは従来のスカラー型報酬モデルでは難しかった柔軟な評価と推論時の性能拡張を同時に実現するもので、特に複雑かつ多様なタスクへの対応に有効とされる。
SPCTは、生成式報酬モデル(GRM)を用いて出力内容を評価する原則(principle)や批判(critique)を動的に生成し、それをスコア化して報酬とする仕組み。初期段階では「拒否型微調整(Rejective Fine-Tuning)」で初期データを整え、次にオンライン強化学習によって最適な出力を選別・強化する。さらに、推論時に32回のサンプリングを行い、多数決により報酬を決定しつつ、低品質なサンプルを補助モデルで除去することで性能をさらに向上させた。
実験では、DeepSeek-GRM-27BがReward BenchやPPEといった複数のベンチマークで既存手法(LLM-as-a-JudgeやスカラーRMなど)を大きく上回り、Reward Benchでは正答率が86.0%から90.4%に向上するなど、推論時スケーリングの有効性が示された。
一方で、OpenAIのサム・アルトマンは、当初期待されていたGPT-5の発表を「数ヶ月後」に延期すると公表。その理由として、機能の統合に想定以上の困難があり、需要に応える体制を整える必要があると説明した。代わりに、先に「o3」と「o4-mini」のリリースを予定しているという。