チャイナAI速報 | 中国AIニュースを日本語で速報

March 25/2025

AMDのMI300XがDeepSeek-R1でNVIDIA H200を圧倒、SGLangとAITERが鍵に

出典：https://mp.weixin.qq.com/s/dtw0nXl5WVKeC_nrhUSYkg

概要ポイント

AMD MI300XはDeepSeek-R1の推論でNVIDIA H200を大幅に超える性能を記録。
最大128並列でトークン間遅延50ms以下、スループットはH200比5倍。
成功の要因はSGLangフレームワークとAIエンジンAITERの組み合わせ。
AITER導入により推論と訓練性能が大幅向上。
メモリ最適化も含むハード・ソフト両面での調整が奏功。

本文

AMDのMI300Xが、生成AIモデルDeepSeek-R1の推論処理においてNVIDIAの最新GPU H200を圧倒する性能を示し、注目を集めている。AMDによると、同じ遅延条件でのスループットは最大でH200の5倍に達し、並列数を揃えた場合でもH200を75％上回る。特に、トークン間遅延を50ミリ秒以下に抑える条件下で、H200が16並列に対応するのに対し、MI300Xは128並列まで対応可能となっている。

この飛躍的な性能向上の背景には、SGLangと呼ばれるオープンソースの大規模モデル推論フレームワークの存在がある。SGLangはLMSYSが主導するプロジェクトで、AMDも主要な貢献者の一つ。DeepSeek-R1と高い親和性を持ち、MI300XだけでなくNVIDIA製GPUでも性能向上に寄与している。テストでは、SGLang導入によりMI300X上のスループットが初期比4倍に成長した。

さらに、AMD独自のAIカーネルライブラリ「AITER」も重要な役割を果たしている。AITERは、ROCmエコシステム内で構築された高性能AI演算子の統合プラットフォームで、GEMM演算、MoE、MLA、MHAといった処理の性能を最大17倍まで向上させる。DeepSeek-V3では、AITER有効化によりスループットが2倍以上となった。

加えて、AMDはハードウェアに合わせた超パラメータ調整も実施。128以上のスレッド処理時に発生するプリフィル遅延を解消するため、chunked_prefill_sizeパラメータを拡大。MI300Xの大容量メモリを活用する形で処理速度を引き上げた。

これらソフトウェア最適化、AIエンジン強化、ハードウェア調整の三位一体の戦略により、MI300XはNVIDIAを凌駕する実行性能を実現。今後の大規模AI推論環境におけるAMDの存在感が一層強まりそうだ。