DeepSeekは、新世代の大規模言語モデル「DeepSeek-V3」を正式発表し、同時にAPIの更新を行った。V3は独自の**Mixture of Experts(MoE)**モデルを採用し、671Bの総パラメータ数、37Bの活性パラメータを備え、14.8Tトークンによる事前学習が施されている。
主要性能
DeepSeek-V3の性能は、既存のオープンソースモデル(Qwen2.5-72B、Llama-3.1-405B)を上回り、GPT-4oやClaude-3.5 Sonnetと同等の水準に達した。
特に、以下の分野で顕著な向上を示している。
- 百科知識:MMLU、GPQA、SimpleQAなどの知識系評価で、前モデル(V2.5)より大幅向上し、Claude-3.5 Sonnetに迫る性能を達成。
- 長文処理:DROP、FRAMES、LongBench v2において、従来モデルを超える長文理解力を発揮。
- コード生成:Codeforcesなどのプログラミング問題で、すべてのオープンソースモデルを超え、Claude-3.5 Sonnetに匹敵。
- 数学推論:AIME 2024やMATH評価で、オープン・クローズドモデルの全てを凌駕。
- 中国語能力:教育関連のC-Evalや代詞消去でQwen2.5-72Bと同等、SimpleQAでリード。
処理速度とAPI料金
DeepSeek-V3は、前モデルと比較して生成速度が**3倍向上(20 TPS → 60 TPS)**し、より高速な応答が可能となった。また、API料金も調整され、標準料金は以下の通りとなる。
- 入力:0.5元 / 100万トークン(キャッシュヒット時)
- 入力:2元 / 100万トークン(キャッシュ未ヒット時)
- 出力:8元 / 100万トークン
さらに、45日間のキャンペーン期間(~2025年2月8日)において、特別料金として以下を適用する。
- 入力:0.1元 / 100万トークン(キャッシュヒット時)
- 入力:1元 / 100万トークン(キャッシュ未ヒット時)
- 出力:2元 / 100万トークン
開発者向け機能とオープンソース展開
DeepSeek-V3はFP8による訓練を実施し、開発者向けにFP8モデルのオープンソースを提供。さらに、SGLang、LMDeployなどの環境でFP8推論をサポートし、TensorRT-LLMやMindIEではBF16推論も実現。FP8とBF16の変換スクリプトも用意し、より幅広い用途での活用が可能となる。
DeepSeekは、「開かれた研究環境と長期的な視点でAGIを目指す」という理念のもと、本モデルを活用し、さらなる高性能化と多様な機能追加を進める方針を示している。