アントグループと清華大学が共同開発した強化学習(RL)訓練フレームワーク「AReaL-boba」が、数学推理タスクを対象とする大規模言語モデル(LLM)訓練におけるブレークスルーとして注目を集めている。このフレームワークは、限られたデータと低コストでSOTA級の性能を再現可能とし、LLM訓練の民主化を推進する取り組みの一環だ。
最大の特徴は、高精度・高速・低コストという三つの要素を同時に実現している点にある。Qwen-32B-Distillをベースに、わずか200件のデータと約200ドルのコストでQwQ-32Bレベルの数学推理能力を復現可能とする「AReaL-boba-200」訓練パッケージが提供されており、SFT(Supervised Fine-Tuning)を用いた超軽量訓練でトップレベルの推論性能を達成できる。
訓練効率の面では、AReaL-bobaはxAI開発の高性能推論フレームワーク「SGLang」を全面統合しており、モデルサイズに応じて1.5倍前後のスループット改善を実現。7Bモデルで60%、32Bモデルでは最大73%の訓練効率向上が報告されている。また、単機から1000GPU規模のクラスターまで幅広く対応し、128GPUで1日以内に1.5Bモデル、256GPUで2日以内に7Bモデルの訓練を完了させるスケーラビリティも確保している。
性能面では、AReaL-bobaを用いた7Bモデルが数学推理ベンチマークAIME(American Invitational Mathematics Examination)で優れた成績を収めた。AIME 2024で61.9点、2025で48.3点というスコアを記録し、他の先行モデルを大きく上回る結果となった。元のQwen-R1-Distill-7Bと比較しても6.9〜8.6点の性能向上が確認されている。
AReaLプロジェクトのもう一つの強みは、その完全なオープンソース性にある。モデル、訓練データ(106Kおよび200件)、訓練および評価スクリプト、PPOの超パラメータや報酬関数設計、長さ制限、正則化などの技術的詳細まで、すべてがGitHub上に公開されている。これにより、初心者から研究者まで幅広い層が再現・応用できる環境が整備された。
AReaL開発チームは、今後さらに非同期訓練方式、高速データスループット、より高品質なデータセットやアルゴリズムの導入、そしてインテリジェントエージェント機能の拡張を予定しており、RLによるLLM訓練の標準化に向けた動きが加速している。
AI訓練を少数の大規模研究機関から開発者コミュニティ全体へと開放するというビジョンのもと、AReaL-bobaは「誰もがSOTAモデルを構築できる時代」の到来を現実のものとしつつある。