Manusが新たに追加したPPT自動生成機能が高評価を獲得。Google Slides出力やWeb変換も対応し、競合Gensparkよりも速度・精度ともに上回るとの実測結果が報告された。
中国発のAIスタートアップZeeLin(智霊元鏡)がV0.97を公開。ユーザーが「ひとこと」を入力するだけでMVや短編、解説動画を自動生成。Google Veo3を上回る性能とコストで、世界500強企業も導入。
バイドゥはAI検索にDeepSeek R1-0528最新版を全面導入し、PC・アプリで無料提供を開始。推理力・表現力・論理力が大幅に向上し、個人知識庫や創作画布など新機能も加え、「考えながら探す」検索体験を実現。
アリババのTongyi Lab(通義実験室)は、検索と推論を統合する新たな事前学習フレームワーク「MaskSearch」を公開。マスク予測と検索を組み合わせた手法により、Qwenなどの小モデルでも大モデルに匹敵する性能を発揮。GitHubとarXivでコードと論文が公開されている。
中国初のAIスタートアップ対抗番組《赢在AI+》にて、Style3D(凌迪科技)がデザイン部門で優勝。AI+3D技術でファッション産業のDXを加速し、「世界一」と高評価。中国発の次世代産業基盤として注目される。
DeepSeekが「R1-0528」モデルを公開。コード生成・UI設計・データ可視化においてClaude 4やGemini 2.5 proと同等の性能を実証。極めて控えめな告知とは裏腹に、内容は次世代モデル級。
Tongyi Labは、360度動画からFOA形式の空間音声を生成するAI「OmniAudio」を公開。大規模データと2段階訓練戦略により、VR・AR向けに没入感ある音響体験を実現。コード・データはオープンソースで提供中。
DeepSeekは大規模言語モデル「DeepSeek-R1-0528」への小規模アップグレードを実施。推論力の強化、幻覚率の低減、創作能力の向上を実現し、数学や論理タスクで国内トップの性能を示した。新APIではFunction CallingやJSON出力にも対応し、オープンソースで128Kコンテキスト長のモデルも提供。
ファーウェイが発表した「PANGU(盤古)Pro MoE」は、グループ化混合専門家構造(MoGE)を採用し、Ascend向けに最適化された高効率な大規模モデル。SuperCLUEの評価で千億パラメータ未満カテゴリ国内トップに並んだ。
バイドゥがThree.jsベースの「3DデジタルツインJSAPI」を正式公開。2D・2.5D・3D地図を統合表示でき、VueやReactに対応。Cesiumより導入が容易で、リアルな都市再現や交通監視、観光支援など多様な用途に対応する。
Kunlun Tech(昆崙万維)はAI版Office「Skyworkスーパーエージェント」を発表。文書・PPT・表計算から音声・映像まで一括生成可能。OpenAIを超えるdeep research技術を搭載し、GitHubでオープンソース公開。
中国のHygon(海光情報)とSugon(中科曙光)が合併を発表。HygonがSugonを吸収する形でCPU・GPUとスーパーコンピュータのフルスタック統合企業が誕生。AI・IT国産化を背景に中国算力市場で大きな波紋を広げている。
バイトダンスが多モーダル基盤モデル「BAGEL」を公開。画像・動画・Webも統合処理でき、Qwen2.5-VLやInternVL-2.5を超える性能。画像生成はSD3並、推論はGPT-4o級、GitHubとHugging Faceで無料提供中。
シャオミ(Xiaomi)は、自社開発の最先端3nmチップ「玄戒O1」と、96.3kWh超バッテリーを搭載した電動SUV「YU7」を発表。高性能と高級化でブランド再構築を図る。
Qunhe Technology(群核科技)とVASTが提携し、空間デザインプラットフォーム「Coolhome」にTripo AIを統合。ユーザーは文字や画像から即時に3Dモデルを生成可能となり、デザイン作業の効率と創造性を大幅に向上させる。
文字入力から瞬時にスタイル付きSVG画像を生成できる「CustomSVG」がオープンソースで公開。水彩・漫画・アイソメなど100種以上のスタイルに対応し、学術論文も同時発表。WebUI付きでWin/Mac両対応。
テンセントは、大規模AIモデル「混元」に基づくゲーム特化のAIGC基盤「混元ゲーム」を正式公開。リアルタイムキャンバスや多視点生成などの4機能を搭載し、デザイナーの制作効率を最大300%向上。画像・動画モデルも公開され、産業レベルの統合生成ツールとして注目を集めている。
H200などNVIDIA製チップの流通が制限される中、中国国内では争奪戦が激化。一方で、全国のAIデータセンターは稼働率が低迷し、計算資源供給の構造的なミスマッチが深刻化。DeepSeekの登場を契機に、AI訓練バブルの終焉が現実味を帯びている。
Bilibiliがアニメ動画生成モデル「Index-AniSora」の強化版を発表。人間の好みに沿った報酬モデル「AnimeReward」と新手法「GAPO」により、視覚品質・一貫性・キャラクター保持の精度が大幅向上。技術はすべてオープンソースで公開中。
テンセントはGDC 2025で、秦朝の古代都市・咸陽をPCG技術で再現。従来336人月の工数を独自のツール群とクラウド基盤により9人月に短縮。Unreal、Houdini、USDを活用した大規模仮想都市構築の実例となった。
アリババの「LAM」は、1枚の画像からアニメーション対応の3Dガウス顔モデルを高速生成・編集可能な革新的技術。テキストや2D画像からも生成・編集でき、スマホ含む多様な端末でリアルタイム動作。AIGC・VTuber活用にも注目。
中国発の画像生成エージェント「Lovart」と「Manus」を徹底比較。VI設計、絵コンテ生成、3Dモデル生成など6つの実用ケースで検証した結果、業務特化型のLovartが生成速度と品質で大きくリード。今後のAIエージェント選定に一石を投じた。
AIエージェント「Manus」が画像生成機能を搭載。家具提案や商品広告、Webデザインなどを自動で行い、ユーザー意図を理解してから“動く”アプローチが特徴。競合「Lovart」登場の影響も指摘されている。
画像生成エージェント「Lovart」が急成長。Manusに続く話題作として注目され、24時間で2万超の登録、Elon Muskも反応。専門的なキャンバスUIとデザイナー主導の開発体制が特徴。将来はAIが創造チームそのものになる構想も。
テンセントが画像生成モデル「Hunyuan Image 2.0」を発表。テキストや音声、草図入力にリアルタイムで反応し、図像を即時生成。多様なスタイルと高速処理、高精度な意味理解を兼ね備えた次世代モデルとして注目される。
liblibが開発したデザインAI「Lovart」が海外で大反響。プロンプト一文で設計から納品まで一貫処理し、画像・動画・音楽の全自動生成に対応。イーロン・マスクもX上で作品を評価し、話題に。Claude 3.7やGPT-4oを統合した次世代のDesign Agent。
テンセントは2025年Q1決算で売上高1800億元(約3兆7800億円)、純利益497億元(約1兆400億円)を記録。CEOの馬化騰(Pony Ma)は、WeChat独自のAIエージェント開発を明かし、広告収益拡大とAI製品の普及を狙う。Yuanbao(元宝)や大規模なAI人材採用にも注力。
StepFunは、画像・テキストから制御可能な高精度3D資産を生成するフレームワーク「Step1X-3D」を公開。200万点の高品質データとLoRA対応により、既存SOTAを凌駕する性能を実現。論文とコードは完全公開。
アリババ傘下のTongyi Labが開発したVACEは、文・画像・動画・制御信号などマルチモーダルな入力に対応した統合型AI動画編集モデル。1モデルで生成、再描画、背景変更などを柔軟に処理でき、GitHubやHugging Faceなどで入手可能。
Three.js+Vue3+Typescriptで構築された3D可視化エディタがオープンソースで公開。3日間で1,000スターを獲得し注目を集める。直感的なUIと豊富な機能で3Dモデルの表示・編集・埋め込みまでを一括サポート。MITライセンスで商用利用も可能。
バイトダンスが開発した「FlowTok」は、画像を1次元トークンに圧縮することで、テキストと画像を同一形式で扱える新方式の生成AI。PixArt比3倍の高速性と少ない計算資源での高性能を両立し、GitHubでオープンソースとして公開された。
バイトダンスのSeedチームが、英中両言語での検索に最適化されたベクトルモデル「Seed1.5-Embedding」を公開。MTEBおよびBRIGHTベンチマークでSOTAを記録し、Hugging Faceで事前学習済みモデルも提供中。APIはVolcano Ark(火山方舟)で近日公開予定。
バイトダンスが新たに展開したAIマーケティング支援ツール「Pippit」がProduct Huntで週刊ランキング1位を獲得。動画生成、デジタルヒューマン、画像制作、テンプレート管理などを統合し、中小事業者の海外マーケティングを支援する“万能AIツール”として注目を集めている。
バイトダンスのSeedチームが、コード生成モデル「Seed-Coder」を初公開。8B規模でQwen3を超える性能を発揮し、MITライセンスでHugging FaceやGitHub上に全面公開。データ選別から訓練までをモデル自身が担う新手法を実証し、複数用途のバリエーションも展開。
NVIDIAは米国の対中輸出規制強化を受け、中国市場向けに性能を大幅に削減したH20チップの新バージョンを7月に投入予定。中国売上が13%を占める中、緊急対応により市場維持を狙う。
Kuaishou(快手)のKling(可霊)チームが、SIGGRAPH 2025採択の動画生成フレームワーク「CineMaster」を発表。3D空間で被写体とカメラを自在に制御でき、ユーザーが演出可能な“映画級”テキストtoビデオを実現した。
Maitrixが公開した音声AIモデル「Voila」は、エンドツーエンド構成で195msの低遅延と同時対話機能を実現。ASR/TTS/翻訳対応、多言語・多音声プリセット搭載で次世代のAI音声体験を可能にする。
ファーウェイのPanGu(盤古)チームが、中国国産Ascend NPUクラスタを活用し、7180億パラメータのMoEモデルを安定訓練。従来の課題を独自技術で解決し、大規模AI開発における脱NVIDIAを実現した。
Appleは中国市場向けiPhoneのAI機能にアリババとバイドゥの技術を採用し、シェアはアリババ65%、バイドゥ35%。バイドゥはかつて唯一のパートナーだったが、技術戦略とデータ所有権交渉の失敗で主導権を喪失。AppleのAI開発の遅れも中国市場での影響を強めている。
テンセントの「Hunyuan(混元)3D V2.5」は、画像やテキストから高精度な3Dモデルを生成可能な無料ツール。アニメーションやゲーム開発にも対応し、CGクリエイターから高評価を集めている。
ウィーライド(文遠知行)はL4自動運転技術を武器に、Robotaxiを中東・欧州へ展開。Uberと提携し今後5年で15都市に拡大予定。共通技術基盤により多製品・多国展開を実現。
アリババのTongyi Labから、人物生成技術を牽引してきた薄列峰(Bo Liefeng)が4月末に離職。わずか3ヶ月で2人の幹部が退職し、技術部門の再編と激化する人材争奪戦の影響が顕在化している。薄氏は米国の大手企業に移籍し、マルチモーダル領域のVPとして事業を率いる。
DeepSeekが新たに公開した「Prover V2」は、6710億パラメータを持つ数学問題解決特化の大規模モデル。MITライセンスでオープンソース化され、推論性能と超長文対応力でAGIに向けた一歩と注目されている。
Xiaomiは推論能力に特化したAIモデル「MiMo-7B」をオープンソースで発表。数学・コード分野でOpenAIやアリババの大型モデルを超えた性能を示し、GitHubで技術仕様、HuggingFaceで4種のモデルを完全公開した。
アリババのTongyi Lab(通義実験室)が開発したCosyVoiceは、音声生成の全機能を備えたオープンソースAI。ゼロショット音声クローン、5言語対応、感情・方言の細粒度制御などを実現し、教育・動画配信・ゲーム制作などに応用可能。
アリババは新世代混合推論モデル「Qwen3」をオープンソース公開した。小型ながら前世代大型モデルを超える性能を達成し、思考モード切り替え機能や119言語対応など、多機能性も強化。主要プラットフォームで提供開始され、推論・ツール連携の実用性を大幅に高めた。
Infinigence AI(無問芯穹)が開発したFlashOverlapは、信号ベースで計算と通信を重複させる新手法。GPU通信のボトルネックを低侵入で解消し、4090やA800環境で最大1.65倍の性能改善を実現。
南洋理工大学、オックスフォード大学、シンガポール理工大学の研究チームは、部分的に遮蔽された2D画像から、完全な3D形状と外観を再構築する条件付き3D生成モデル「Amodal3R」を発表した。遮蔽情報を活用する独自機構により、従来手法を大きく上回る精度を達成した。
DeepSeek R2がパラメータ規模1.2兆、コスト97.3%削減との情報が流出。Hybrid MoE 3.0採用で性能とコストの大幅向上を実現し、米国半導体業界への影響が懸念されている。真偽は未確認ながら、AI業界再編の引き金になる可能性が指摘される。
StepFun(階躍星辰)が画像編集モデル「Step1X-Edit」をオープンソース公開。MLLMとDiffusion技術を融合し、自然言語指令による高精度な画像編集を実現。11種類の編集タスクに対応し、人物の顔やポーズの一貫性も維持可能。性能はGPT-4o級に達し、GitHubなどで一般公開された。
Kunlun Techは2024年度、売上高566億元(約1兆1,800億円)を達成し、AI短編ドラマ配信、音楽生成、ソーシャルアプリなどが好調。海外売上比率は91%に達し、自社開発の大規模モデル「天工」シリーズも技術力を強化している。
Moonshot AIは、音声認識・理解・対話など多機能に対応する汎用音声基盤モデル「Kimi-Audio」をオープンソース公開した。10以上の音声基準テストで総合性能トップを記録し、独自アーキテクチャと大規模データによる事前学習を実施。モデルコード、チェックポイント、評価ツール一式もGitHubで無償提供している。
中国発AIアシスタントManusが、Benchmark主導の7500万ドル(約116億円)資金調達を経て、本社をシンガポールへの移転を検討中。国際事業と中国国内事業の完全分離を目指す。米中関係悪化に伴うリスク回避を背景に、海外展開を加速する方針。
中国AI大規模モデル企業の先駆け、Zhipu(智譜)が北京証券取引所にIPO申請。設立6年で19回の資金調達、評価額30億ドル(約4500億円)に達し、資本市場へ進出。推理型大規模AIモデルの強みと堅実な商用展開を武器に、中国AI産業の資本化を先導する。
清華大学が開発したVideoSceneは、動画から直接3Dシーンを生成する革新的な一括拡散モデル。3D-aware蒸留戦略と動的ノイズ除去により、生成効率と品質を大幅に向上させ、従来のマルチステップ推論の課題を解消する。
バイドゥは開発者大会「Create2025」でERNIE 4.5(文心4.5)TurboやX1 Turbo、マルチモーダル対応のAIアプリ「心響」、電商MCPサーバーなどを発表。高性能かつ低コストな基盤で開発者支援を拡大し、AIの普及を加速する。
中国AI企業Monicaが汎用AIエージェント「Manus」で注目され、Benchmark主導で7500万ドル(約115億円)の資金調達を実施。海外展開を進める中、資本構造の見直しや拠点移転といった「中国色の排除」戦略が浮上している。
Li Auto(理想汽車)が「AI企業化」を本格化。新たに発表したMCAF(多モーダル映像焦点抽出フレームワーク)は、長時間動画から重要情報のみを抽出する技術で、自動運転性能向上を目指す。冗長データ削減と即時分析を実現し、既存技術に比べ大幅な性能向上を達成した。
CAMEL-AIは強化学習エージェントの“最後の一マイル”問題を解決すべく、共通環境を構築するオープンプロジェクトを開始。LoongやOASISなど既存基盤を活かし、7分野で環境整備を推進。開発者に広く参加を呼びかけている。
Vision Intelligence(未来智能)がAI通訳イヤホン「iFLYBUDS」を軸に3ヶ月で2度の資金調達を達成。自社開発AIと実用重視の製品戦略により、グローバル展開と多モーダル端末への進化を加速している。
中国発の動画生成AI「Vidu Q1」が、VBenchおよびSuperCLUEにて世界1位を獲得。RunwayやSoraを凌駕し、画像生成動画部門でも高評価を受けた。Web・モバイル両方で利用可能。
中国のAIスタートアップSand.AIが、動画生成モデル「Magi-1」を発表。Diffusion Transformerベースの自回帰構造で無限長の動画生成や秒単位の制御が可能。物理整合性や因果性も高精度に実現し、全コードと技術文書を完全公開。Soraを超えるとの声も。
VASTが新ツール「Tripo Doodle」をオープンソースで公開。スケッチとテキストをもとにリアルタイムで3Dモデルを生成できる直感的なツールで、SIGGRAPH Asia 2024で話題を集めた。生成AIによる3D制作の民主化を加速する。
アリババ、高徳地図、北京郵電大学が共同開発した「FantasyTalking」は、Wan2.1を活用した音声駆動型デジタルヒューマン生成技術。画像・音声・テキストを入力するだけで、個人の特徴を保ったリアルな会話アニメを自動生成する。
TripoAIが開発したTripoSGは、画像・テキスト・スケッチなど多様な入力から高精細な3Dモデルを生成できるオープンソースAI。新たに「TripoSG-scribble」も登場し、スケッチとプロンプトからの高速3Dプロトタイピングが可能になった。
iFLYTEKが開発するSpark X1(星火X1)が進化。OpenAI o1やDeepSeek R1に匹敵する精度を中国国産インフラで実現。API無料開放、簡易なカスタムチューニング機能も提供し、導入・応用がより身近に。
Kunlun Techが開発したSkyReels-V2は、Diffusion-forcingとマルチモーダルLLMを融合し、映画レベルの長時間映像を生成可能に。関連技術も含め完全オープンソース化を実現。
Yuanjing(元境)は上海市メタバース成果展にて、3D AIGCと空間認識技術を活用した観光・文化産業向けソリューションを発表。リアルと仮想の融合により没入型体験を実現し、デジタルコンテンツの生産性と商業価値の向上を図る。
Cozeが「Coze Space(扣子空間)」のクローズドテストを開始。汎用AIエージェントから専門家エージェントまでを活用し、業務自動化とタスク解決を支援。MCP連携による機能拡張や探索・計画モードの選択も可能。
VASTは、清華大学・香港大学と共同で、3Dモデルへの自動骨格生成フレームワーク「UniRig」と、不可視部分も補完する部品分割技術「HoloPart」をオープンソースで公開。3D制作の自動化と編集自由度を大幅に向上。
テンセントのHunyuan(混元)チームが、同一キャラクターを多様な場面に高精度で生成できる画像生成プラグイン「InstantCharacter」をオープンソースで公開。わずか1枚の画像とテキスト入力で自在にキャラクターを再現可能で、既存モデルFluxにも対応。コンテンツ制作の柔軟性を飛躍的に向上させる。
シリコンバレー発のTripoは、テキストや画像から高精度な3Dモデルを生成できるAIツール。豊富な編集機能と既存ツールとの連携で、ゲームや映像制作の実務にも対応。生成品質とワークフローの柔軟性で注目を集めている。
バイトダンスは、視覚と操作の連携で実行力を高めた「思考型ユーザー操作エージェント」UI-TARS-1.5をオープンソースで公開。GUI操作やMinecraft環境において前例のない性能を示し、強化学習と推論による進化型モデルとして次世代の汎用AIの可能性を示した。
ファーウェイは最新SUV「問界M8」を発表し、発売1時間で2万台を受注。ADS 4.0による「駐車場から駐車場まで」の自動運転、安全面でのトリプルセーフティ設計、家庭空間を再現する車内装備などが話題に。価格は36万元(約750万円)から。
アリババのTongyi Labが開発した動画生成モデル「Wan2.1」を公開。2枚の画像から自然な映像を生成できる高精度モデルで、推論速度とコスト効率にも優れる。GitHubやHugging Faceで入手可能。
AIハードウェア企業X-ORIGIN-AI(玄源科技)が、感情的な人間・機械インタラクションを核とした個性化AIロボット開発で約1億元(約21億円)を調達。AGI時代に向けたマルチモーダル感情認識技術と動的記憶システムで「温もりある知能」を実現。
復旦大学とバイトダンスが共同開発した自回帰型画像生成AI「SimpleAR」が公開された。0.5BパラメータでGenEvalスコア0.59を記録し、従来の拡散モデルを超える性能と推論速度14秒を両立。次世代画像生成の有力候補として注目される。
ACTalkerは、音声と表情の複数信号でデジタルヒューマンの口元生成を制御する動画拡散フレームワーク。Mamba構造とmask-drop戦略により、顔の各部位を独立制御し、自然で高精度な口型同期を実現。学術・実装コード・デモがすべて公開されており、実用性も高い。
バイトダンスのDoubao(豆包)チームが、文章からの画像生成モデル「Seedream 3.0」を発表。2K画像を直接出力し、小文字や構造の正確性、画像の美しさが大幅に向上。商用デザインにも対応し、設計者ニーズにも応える。
上海AI LabとSenseTimeが共同開発したマルチモーダル大言語モデル「InternVL3」が公開された。新しいトレーニング手法と位置エンコーディングを採用し、MMMUスコアで従来のQwen2.5-VLを上回る72.2点を記録。今後の研究促進のため、学習データとモデル重みも公開予定。
香港大学とバイトダンスが発表したGigaTokは、30億パラメータの大規模画像トークナイザー。意味正則化と非対称構造により再構成と生成の両性能を両立し、2025年4月14日に論文・コード・モデル・学習済みチェックポイントがGitHub上で公開された。
Zhipu(智譜)がGLMシリーズの32B/9BモデルをMITライセンスでオープンソース公開。高性能推論モデルGLM-Z1-32BはDeepSeek-R1と同等の性能を持ちながら、価格は1/30。中国国内最速の推論速度も実現し、新体験サイト「Z.ai」も同時に公開された。
HiDream(智象未来)が開発した画像生成モデル「HiDream-I1」が、GPT-4oに匹敵する性能をオープンソースで公開。高精度な指令理解とリアルな描写力を兼ね備え、商用利用も可能。次期モデル「HiDream-E1」は画像編集に対応予定で、さらなる注目を集めている。
バイトダンスのSeedチームが、次世代推論モデル「Seed-Thinking-v1.5」の技術詳細を公開。数学やプログラミングなど専門タスクで業界最先端水準を達成しつつ、推論コストはDeepSeek R1比で50%削減。4月17日からVolcano Engine(火山引擎)で体験可能。
アリババはAGIの実現を最重要目標に据え、3年間で3800億元(約7.8兆円)をAI・クラウド基盤に投資する計画を進行中。Qwenのオープンソース戦略やToCアプリの強化により、商用AI時代の再起を目指している。戦略は未公表だが、既に実行段階に突入している。
MiniMaxがマルチモーダル生成機能を統合した「MCP Server」をリリース。テキスト入力のみで動画、画像、音声、音声クローンなどを一括生成可能。CursorやClaude Desktopなど複数のMCPクライアントに対応し、GitHubでコードをオープンソース公開済み。
アリババクラウドの「Bailian(百錬)」プラットフォームが、業界初のフルライフサイクルMCP(Model-Callable Protocol)サービスを公開。開発者は0行のコードと5分の操作で企業レベルのAI Agentを構築可能。標準化プロトコルによりツール接続の効率も飛躍的に向上した。
バイトダンスが新たなAIスマートグラスを自社開発中。自社大規模モデルやチャットボット「Doubao(豆包)」の技術を活用し、過去のPicoやOla Friendの低調な売上を挽回する狙い。中国・米国でAIデバイス開発が加速する中、競争激化の兆し。
テンセントは2024年4月11日、高保真な画像生成と個性表現を両立する新フレームワーク「FlexIP」を発表。論文と公式サイトで手法とデモを公開し、スタイルと識別性の柔軟な制御が可能な次世代拡散モデルとして注目されている。
ARグラス開発企業のXrealが西湖大学と共同で、純テキストからマルチモーダル訓練データを合成する「Unicorn」フレームワークを開発。高精度かつコスト効率の高いVLM訓練を実現し、実画像不要の新パラダイムを提示した。
SenseTime(商湯科技)が新たに発表した大規模モデル「日日新 SenseNova V6」は、マルチモーダル長期推論と全体記憶機構を活用し、画像・音声・映像を横断した複雑な理解と推論を実現。保険処理や動画編集、音読翻訳など日常生活や業務にAIが実用レベルで融合。高性能ながらコストは国内最低水準で、GPT-4やGemini 2.0 Proと同等以上の能力を持つ。
バイトダンスは推論特化型の大規模AIモデルSeed-Thinking-v1.5を発表し、GitHubで評価用データセットとベンチマーク結果を同時公開。数学・コード・科学分野でDeepSeek R1を上回る性能を実現し、創作分野でも高いユーザー評価を得た。
中国は技術自立を国家戦略とし、CPUを含むコンピューティング能力の国産化を推進。x86互換のC86体系を核に、実用性・制御性・安全性を兼ね備えたCPUが次世代のIT国産化産業を牽引。Hygon(海光)などが進めるオープンかつ自律的な発展モデルに注目が集まる。
香港大学とAdobeの研究チームが、変分オートエンコーダ(VAE)を使わず、ピクセル空間で直接画像を生成する新手法「PixelFlow」を開発。段階的に解像度を高める設計とFlow Matchingにより、高画質・高効率な生成を実現。ImageNetベンチマークで最先端モデルを超える性能を示した。
バイトダンスのDoubao(豆包)チームが、7言語対応のコード修復ベンチマーク「Multi-SWE-bench」と強化学習用「Multi-SWE-RL」を公開。1,632件の実例と詳細評価指標により、AIの多言語プログラミング能力の評価・向上を目指す。
バイトダンスが発表した画像生成モデル「UNO」は、テキスト生成画像から複数主体の融合までを1つのモデルで処理可能とする。モデルとデータの「共進化」により、多様な入力条件への対応と高精度な画像生成を両立している。
中国を中心に人気の高まるAI画像生成ツール14種を対象に、統一されたプロンプトテンプレートを用いて横断比較を実施。Midjourneyや即夢3.0、ChatGPT 4oなど、それぞれのツールが生成する画像の特徴や表現の違いを明らかにし、高精度な生成のためには具体的なプロンプト設計が不可欠であることが示された。
Tezignが開発したAtypica.AIは、RedNote(小紅書)上の投稿を分析して仮想ユーザーを生成し、対話形式でインサイトを抽出する新型のユーザー洞察AI。選択式インタビューと仮想インタビューを組み合わせ、高完成度なレポートを生成する。
NVIDIAがAIスタートアップLepton AIを数億ドルで買収し、創業者の賈揚清(元アリババ副総裁)ら約20名のチームが同社に合流した。Leptonは設立から2年未満で急成長し、AIクラウド基盤の提供で注目されていた。賈氏はディープラーニングフレームワーク「Caffe」の開発者としても知られる。投資家は短期間で大きなリターンを得た。
AI Agent開発プラットフォーム「Coze」が全面アップグレードされた。新たに「Coze開発プラットフォーム」と運用支援ツール「Coze羅盤」を公開し、Go言語ベースの開発フレームワーク「Eino」もオープンソース化。多様な料金プランや企業向けイベントも併せて展開する。
中国AI企業・StepFunが軽量マルチモーダル推論モデル「Step-R1-V-Mini」を公開。画像とテキストを組み合わせた複雑な推論が可能で、複数の視覚系ベンチマークで他モデルを上回る高精度を記録。強化学習と合成データで性能を強化した。
自動運転チップ企業「Black Sesame Technologies(黒芝麻智能)」が2024年に黒字化を達成と発表、純利益は3.13億元(約65億円)に上る。しかしその実態は、会計上の評価益による見せかけの黒字で、営業損失は依然として大きく、実質的には13億元(約270億円)の赤字。業界全体では国産チップのシェア拡大が進み、NVIDIA一強時代に変化の兆しが見え始めている。
アリババのTongyi Labが開発した「LHM」と「LAM」は、写真1枚からインタラクティブな3Dデジタル人間を数秒で生成するオープンソースAI。LHMはモーション対応3D人体を、LAMは会話可能な3Dアバターを出力。ゲーム、VR、バーチャル接客などに応用可能。
miHoYo創業者・蔡浩宇が率いるAnuttaconが開発中のAIゲーム『Whispers From The Star』の実機映像が公開された。プレイヤーの音声や発言によってヒロイン「ステラ(Stella)」の運命がリアルタイムに変化する設計で、従来のゲームとは異なる没入型の体験を提供する。
MetaがMoEアーキテクチャを採用したLlama 4シリーズを発表。中型・大型モデルは高性能かつ単一GPUで運用可能で、特にMaverickはGPT-4oを上回る性能を示した。2兆パラメータの超大規模モデルも訓練中で、性能とコストの両面でオープンソースAIの頂点に立った。
Simular.aiが公開したAIエージェントフレームワーク「Agent S2」が、複数のGUI操作ベンチマークでSOTAを達成。専門モジュールに機能を分離する新設計により、従来の単一モデル型より柔軟かつ高性能なエージェント設計を実現した。2025年4月には最新論文も発表された。
DeepSeekと清華大学は、推論時に性能を拡張できる報酬モデル手法「SPCT」を発表。既存モデルの限界を突破し、複雑なタスクへの対応力を強化する。一方、OpenAIのサム・アルトマンはGPT-5の発表を数ヶ月後に延期すると明らかにした。
トランプ前大統領は、TikTokの米国事業売却を義務付ける行政命令の発効を75日間延長した。新たな期限は6月中旬。バイトダンスは米政府と協議中であり、未だ正式な合意には至っていない。法的・政治的リスクのもと、TikTokは存続を賭けた交渉と法廷闘争を続けている。
Li Auto(理想汽車)は、人気AIモデル「DeepSeek」を車載向けに最適化した自社開発の推理モデルを発表。ユーザーの発話内容から思考の必要性と深さを自律的に判断し、旅行計画や投資助言、家族対応まで高速かつ柔軟に応答する機能を備える。
バイドゥのAIプロジェクトが、2025年のエジソン賞で金賞と銀賞を受賞。無人運転サービス「Apollo Go」は中国初の金賞に輝き、野生動物保護ツール「絶滅危惧種AI守護官2.0」は持続可能性分野で銀賞を獲得。両者とも国際的な評価を得た。
2025年3月のAIアプリランキングが発表され、夸克(Quark)、豆包(Doubao)、DeepSeek、元宝(Yuanbao)、Talkieが世界トップ10入り。中国国内市場ではアリババ、バイトダンス、テンセントが主導権争いを繰り広げている。
中国のCAMELチームが開発したOASISは、最大100万体のAIエージェントがソーシャルメディア上で相互作用するシミュレーション環境。最近のアップデートで推論速度が13倍に高速化され、OpenAIのEmbeddingモデルを活用した推薦システムも導入された。
中国のMainFunc社が開発したGensparkは、無料かつ高機能なAIエージェントとして急速に注目を集めている。動画制作やPPT作成を音声指示だけで実行でき、既存の有力AI「Manus」をベンチマークテストで上回った。AIエージェント市場に新たな勢力図が生まれつつある。
OPPOはAIによってスマホ撮影技術を再構築し、大規模モデルでの画像復元や夜景ポートレートの革新を推進。独自のレンズと評価システムも導入し、AppleやSamsungを超える成果を実現した。
中国国家天文台とアリババクラウドが、世界初の太陽フレア予測に特化した大規模AIモデル「金烏」を共同発表。従来の手作業では困難だった膨大な観測データを処理し、M5クラスのフレアで91%超の予測精度を実現。宇宙空間の安全保障にAIが新たな力をもたらす。
バイドゥの深層学習フレームワーク「PaddlePaddle(飛槳)」が3.0正式版を公開。自動並列化や大規模モデル対応、高次自動微分、神経ネットワークコンパイラ、多種チップへの適応性を強化し、AIの産業化と科学研究の両面で開発者を支援する。
アントグループと清華大学が共同開発したRL訓練フレームワーク「AReaL-boba」が公開された。わずか200ドル・200件のデータでSOTA級の数学推理AI「QwQ-32B」を再現可能で、コードやデータも完全公開されている。中小規模チームでも短期間で高性能モデルを構築できる新たな訓練パラダイムとして注目を集めている。
人型ロボット開発で注目されるUniTree(宇樹科技)が、アントグループとチャイナモバイル(中国移動)から戦略投資を受ける見込みとなった。評価額は前回と同水準の約80億元(約1,600億円)。四足ロボットで世界的なシェアを持つ同社には今後、政府・企業向けの商用展開が期待される。一方で、業界全体の投資過熱に対する懸念も強まっている。