中国のQihoo 360(奇虎360)は、数学推論に特化した14Bスケールの推論モデル「Light-R1-14B-DS」を発表した。このモデルは、DeepSeekの強化学習による性能を14B規模で再現することに成功し、AIME24では4.3点、AIME25では10点という大幅なスコア向上を記録。従来のDeepSeek-R1-Distill-Qwen-32Bや70Bクラスのモデルを上回る性能を示した。
Qihoo 360はこの成果をオープンに展開し、HuggingFace上にてモデル本体(Light-R1-32B)、DPO訓練データ(Light-R1-DPOData)、SFT訓練データ(Light-R1-SFTData)の全てを公開している。
モデルの訓練は、教師ありファインチューニング(SFT)とDirect Preference Optimization(DPO)の2段階で構成されており、まずは76k件の数学問題で基礎学習を行い、その後3k件の高難易度問題で微調整。さらに、ユーザー選好に基づいたDPO手法で応答品質を最適化している。これにより、現実的かつ難易度の高い問題に対しても高精度な解答が可能となった。
また、訓練データの整備にも注力しており、多様性と正確性の両立を図るため、複数の信頼性の高いデータソースから収集した数学問題を厳密に精査。AIMEやMATH-500のような評価データとの重複を避けるため、n-gramベースのマッチングなどを用いた汚染除去も行った。
開発コスト面でも注目に値する。12台のNVIDIA H800マシンを用いた学習時間は6時間以内に収まり、コストはわずか1000ドル未満。これは大規模LLM開発にかかる従来の数十万ドル規模の費用と比べ、圧倒的な低コストであり、研究者や中小開発者でも手が届くモデル開発の可能性を示している。
Light-R1-14B-DSは、大規模モデル依存からの脱却を図りつつ、数学推論という特化領域において高精度と低コストを両立した事例として、今後のAI研究・教育応用分野での活用が期待される。