ByteDanceの豆包(Doubao)チームは、新世代の大規模言語モデル「豆包1.5Pro」を発表。知識、コード、推論、中国語など幅広い分野で評価が向上し、MoE構造により高い効率と低コストを実現。視覚・音声の多モーダル対応も強化され、API公開により開発者向けの利用も可能。訓練データは他のモデル生成データを使用せず、独自のデータ生産体制を採用。今後も研究開発を推進する方針。
中国のStepFun(階躍星辰)が、動画生成モデル「Step-Video V2」を発表した。V2は前バージョンよりも大幅に進化し、複雑な動作、美的表現、文字生成、カメラワークなどの性能が向上。新たに強化されたVAEモデル、DiTアーキテクチャ、マルチモーダル技術により、リアルで高品質な動画を生成できる。現在、ウェブ上で試用申請が可能。
DeepSeekが新モデル「DeepSeek-R1」をMITライセンスで公開し、強化学習と最小限の注釈データでOpenAI o1に匹敵する推論性能を達成。R1の出力を利用して小型モデルを生成し、複数のサイズをコミュニティに提供。ライセンスや利用規約を緩和し、研究者や開発者が自由に再学習・改変を行える環境を整備した。
AIアシスタント「Kimi」を提供するMoonshot AIは、新たに「k1.5 多モーダル思考モデル」を発表した。数学、コード、視覚分野においてSOTAレベルの推論能力を達成し、OpenAIのo1モデルと並ぶ性能を実現。さらに、モデル訓練の詳細な技術レポートも初公開された。今後、さらなる強化学習の拡張により、汎用性と多分野対応力を向上させる計画だ。
Alibaba CloudのAI映像生成モデル「通義万相」がバージョン2.1へと進化し、大幅な性能向上を遂げた。自社開発の高効率VAEとDiTアーキテクチャを採用し、時間・空間の文脈理解能力を強化。1080Pの長時間動画の効率的なエンコード・デコードに対応し、初めて中国語テキスト動画の生成を実現した。今回のアップデートにより、VBenchランキングで1位を獲得。より滑らかでリアルな動作や、映画のような映像美を表現できる。
智譜清言ブラウザプラグインがv1.0.18版として全面更新された。検索エンジンアシスタント、AI検索、学術日刊レポートの三大機能が搭載され、キーワード入力により全ウェブ情報の要約、包括的な回答、最新論文情報が自動的に提供される仕組みである。