バイトダンス、初のコード生成モデル「Seed-Coder」をオープンソース公開──8BモデルでQwen3を超えSOTA複数獲得

出典:https://mp.weixin.qq.com/s/SffydOQwYcb9lIQL4wYxVQ

Seed-Coder
概要ポイント
  • Seed-Coderは8B規模のコード特化LLMでQwen3を上回る性能を達成。
  • MITライセンスでモデル・コード・訓練データ処理スクリプトを公開。
  • 3種のモデル(Base/Instruct/Reasoning)を展開し多用途に対応。
  • モデル自身が訓練データを生成・評価する「自己管理型」アーキテクチャを採用。
  • Hugging FaceとGitHub上で推論APIや重みファイルを利用可能。
本文

バイトダンスのAI研究部門「Seed」チームは、コード生成に特化した大規模言語モデル「Seed-Coder」を初めてオープンソースとして公開した。モデルはLLaMA 3ベースで、約8.2Bのパラメータを持ち、コード生成分野においてQwen3を上回る性能を発揮。Base、Instruct、Reasoningの3種のモデルバリエーションが提供されており、すべてMITライセンスのもとGitHubおよびHugging Face上にて公開されている。


Seed-Coder最大の特徴は、コードデータの収集からフィルタリング、学習までをモデル自身が主導する「モデル中心のデータ管理」パラダイムにある。GitHubやインターネット上のコード関連文書から収集した生データは、ファイルレベル、リポジトリレベル、コミットデータ、Web文書の4種に分類され、それぞれに対して構文エラーの除去、重複排除、品質スコアリングといった高度な前処理が実施される。コードの品質評価には、DeepSeek-V2-Chatをベースにしたスコアリングモデルを採用し、可読性やモジュール性、再利用性などを指標に低品質コードを除外。結果として、約1兆tokenに及ぶ高品質コードコーパスの構築に成功している。


訓練工程は2段階に分かれ、第一段階ではファイル単位およびWebコード文書を用いた基礎訓練を行い、第二段階ではコミット履歴や長文文脈を含む高難度データによってモデルを精緻化する。FIM(Fill-in-the-Middle)やSPM(Suffix-Prefix-Middle)といった補完型タスクも導入され、長文文脈理解能力の強化が図られている。また、用途別に特化した派生モデルも用意されており、「Seed-Coder-Instruct」はSFT(教師あり微調整)とDPO(直接好み最適化)によって指示追従性能を強化、「Seed-Coder-Reasoning」はLongCoT(長鎖思考)と強化学習により多段階のコード推論能力を向上させている。


技術仕様としては、最大32Kの文脈長、6兆トークンでの事前学習、GQA(Grouped Query Attention)を導入した構造で、効率と性能のバランスが取られている。GitHub上の公式リポジトリでは、モデルコードやデータ前処理スクリプト、技術論文(PDF)が公開されており、Hugging Faceの専用ページからは、各モデルの推論APIや事前学習済みの重みファイルが誰でも利用可能となっている。


バイトダンスはこのSeed-Coderに加え、動画生成モデル「Seaweed」や推論強化モデル「Seed-Thinking-v1.5」、清華大学と共同開発したマルチタスク対応エージェント「UI-TARS」なども続々と公開。さらに、2024年にはAGI志向の長期研究プロジェクト「Seed Edge」を立ち上げ、計算資源と独立性を備えた研究環境を提供するなど、オープン化と次世代AI研究へのコミットを強めている。これら一連の取り組みは、AIのオープン性、普遍性、原始的創造性を重視する新たな潮流の一端を示すものであり、中国発の大規模コード生成モデルとして国際的な注目を集めている。