2025年2月18日、階躍星辰(StepFun)と吉利汽車グループは、共同開発した2つのStepシリーズマルチモーダルAIモデル「Step-Video-T2V」と「Step-Audio」を全世界の開発者に向けてオープンソース化すると発表した。この取り組みは、AI技術の共有と革新を促進し、人工知能の普及に貢献することを目的としている。
「Step-Video-T2V」は、300億のパラメータを持つ高性能な動画生成モデルで、204フレーム、540Pの高品質動画を直接生成することが可能だ。このモデルは、複雑な動作、美しい人物、視覚的な創造力、基本的なテキスト生成、ネイティブな中英バイリンガル入力、カメラワークなど、多岐にわたる生成能力を備えており、ユーザーはウェブ版(https://yuewen.cn/videos)や「躍問」アプリでその動画生成機能を体験できる。
一方、「Step-Audio」は、業界初のプロダクトレベルのオープンソース音声対話モデルで、感情、方言、言語、歌声、個性豊かな表現を生成し、ユーザーと自然で高品質な対話を行うことが可能だ。このモデルは、LlaMA QuestionやWeb Questionsなどの主要な公開テストで同業界の他のオープンソースモデルを上回る性能を示し、特にHSK-6(中国語能力試験6級)評価で優れた結果を出している。
吉利汽車グループのCEO、淦家閲氏は、「吉利は、スマートカーのAI技術のリーダーであり普及者となることを目指している。2021年には、チップ、ソフトウェアオペレーティングシステム、データ、衛星ネットワークを中心に、エンドツーエンドの自社開発システムとエコシステムを構築し、ユーザーのスマートドライビングや車内体験を継続的に進化させている。現在、吉利の全スタック自社開発AIモデル「星睿AI」は、「Step-Video-T2V」や「Step-Audio」と深く統合され、よりスマートで高度な車内インタラクションとドライビング体験を提供している」と述べた。
階躍星辰(StepFun)の創設者兼CEOである姜大昕博士は、「階躍星辰は、AGI(汎用人工知能)の実現を目指して基盤となる大規模モデルの研究開発を続けている。AGIの実現には、世界中の開発者との共同努力が不可欠だ。オープンソース化の目的は、最新の技術成果を共有し、オープンソースコミュニティに貢献することにある。また、マルチモーダルモデルはAGI実現への必須の道と考えているが、現在はまだ初期段階にある。コミュニティの開発者と共に、モデルの技術的な境界を広げ、産業への応用を推進していきたい」と語った。
この共同オープンソース化の取り組みは、中国からのマルチモーダルAIモデル技術の世界的な普及に向けた新たな一歩となり、AI技術の共有と革新をさらに促進することが期待されている。
【関連リンク】
StepFun公式サイト: https://www.stepfun.com
Step-Video-T2V GitHub: https://github.com/stepfun-ai/Step-Video-T2V
Step-Audio GitHub: https://github.com/stepfun-ai/Step-Audio
Hugging Face Step-Audio: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
技術レポート: https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf