DeepSeekは、独自の推論システム最適化により、日収56.2万ドル、利益率545%という驚異的な成果を発表した。V3/R1モデルは、大量の小規模Expertで構成されるアーキテクチャを採用し、従来のAIモデルとは異なる設計思想を持つ。このため、従来のシステムでは最適化が難しく、DeepSeek独自のアプローチが求められる。
推論システムの最適化には、Expert Parallelism(EP)という技術が鍵を握る。これは大規模な並列処理を実現し、GPUの利用効率を飛躍的に向上させる。特に、計算と通信をオーバーラップさせることで処理の遅延を削減し、最大限のスループットを引き出している。また、各GPUの負荷を均等化する負荷分散(Load Balancing)も導入し、リソースの最適活用を実現している。
実際の運用データによると、DeepSeekのH800 GPUを使用したシステムは、1秒あたりの入力トークン数73.7k、出力トークン数14.8kという高いスループットを記録。さらに、夜間のサーバー利用率の低下を活用し、API価格を最大75%引き下げる戦略も展開している。
この成功は、AI推論のコスト構造を根本から覆す可能性を示しており、AIインフラ企業にとって競争が一層激化することが予想される。DeepSeekの取り組みは、AIの商業利用における新たな標準を築くかもしれない。