清華大学が開発したVideoSceneは、動画から直接3Dシーンを生成する革新的な一括拡散モデル。3D-aware蒸留戦略と動的ノイズ除去により、生成効率と品質を大幅に向上させ、従来のマルチステップ推論の課題を解消する。
バイドゥは開発者大会「Create2025」でERNIE 4.5(文心4.5)TurboやX1 Turbo、マルチモーダル対応のAIアプリ「心響」、電商MCPサーバーなどを発表。高性能かつ低コストな基盤で開発者支援を拡大し、AIの普及を加速する。
中国AI企業Monicaが汎用AIエージェント「Manus」で注目され、Benchmark主導で7500万ドル(約115億円)の資金調達を実施。海外展開を進める中、資本構造の見直しや拠点移転といった「中国色の排除」戦略が浮上している。
CAMEL-AIは強化学習エージェントの“最後の一マイル”問題を解決すべく、共通環境を構築するオープンプロジェクトを開始。LoongやOASISなど既存基盤を活かし、7分野で環境整備を推進。開発者に広く参加を呼びかけている。
Vision Intelligence(未来智能)がAI通訳イヤホン「iFLYBUDS」を軸に3ヶ月で2度の資金調達を達成。自社開発AIと実用重視の製品戦略により、グローバル展開と多モーダル端末への進化を加速している。
中国発の動画生成AI「Vidu Q1」が、VBenchおよびSuperCLUEにて世界1位を獲得。RunwayやSoraを凌駕し、画像生成動画部門でも高評価を受けた。Web・モバイル両方で利用可能。
中国のAIスタートアップSand.AIが、動画生成モデル「Magi-1」を発表。Diffusion Transformerベースの自回帰構造で無限長の動画生成や秒単位の制御が可能。物理整合性や因果性も高精度に実現し、全コードと技術文書を完全公開。Soraを超えるとの声も。
VASTが新ツール「Tripo Doodle」をオープンソースで公開。スケッチとテキストをもとにリアルタイムで3Dモデルを生成できる直感的なツールで、SIGGRAPH Asia 2024で話題を集めた。生成AIによる3D制作の民主化を加速する。
アリババ、高徳地図、北京郵電大学が共同開発した「FantasyTalking」は、Wan2.1を活用した音声駆動型デジタルヒューマン生成技術。画像・音声・テキストを入力するだけで、個人の特徴を保ったリアルな会話アニメを自動生成する。
TripoAIが開発したTripoSGは、画像・テキスト・スケッチなど多様な入力から高精細な3Dモデルを生成できるオープンソースAI。新たに「TripoSG-scribble」も登場し、スケッチとプロンプトからの高速3Dプロトタイピングが可能になった。
iFLYTEKが開発するSpark X1(星火X1)が進化。OpenAI o1やDeepSeek R1に匹敵する精度を中国国産インフラで実現。API無料開放、簡易なカスタムチューニング機能も提供し、導入・応用がより身近に。
Kunlun Techが開発したSkyReels-V2は、Diffusion-forcingとマルチモーダルLLMを融合し、映画レベルの長時間映像を生成可能に。関連技術も含め完全オープンソース化を実現。
Yuanjing(元境)は上海市メタバース成果展にて、3D AIGCと空間認識技術を活用した観光・文化産業向けソリューションを発表。リアルと仮想の融合により没入型体験を実現し、デジタルコンテンツの生産性と商業価値の向上を図る。
Cozeが「Coze Space(扣子空間)」のクローズドテストを開始。汎用AIエージェントから専門家エージェントまでを活用し、業務自動化とタスク解決を支援。MCP連携による機能拡張や探索・計画モードの選択も可能。
VASTは、清華大学・香港大学と共同で、3Dモデルへの自動骨格生成フレームワーク「UniRig」と、不可視部分も補完する部品分割技術「HoloPart」をオープンソースで公開。3D制作の自動化と編集自由度を大幅に向上。
テンセントのHunyuan(混元)チームが、同一キャラクターを多様な場面に高精度で生成できる画像生成プラグイン「InstantCharacter」をオープンソースで公開。わずか1枚の画像とテキスト入力で自在にキャラクターを再現可能で、既存モデルFluxにも対応。コンテンツ制作の柔軟性を飛躍的に向上させる。
シリコンバレー発のTripoは、テキストや画像から高精度な3Dモデルを生成できるAIツール。豊富な編集機能と既存ツールとの連携で、ゲームや映像制作の実務にも対応。生成品質とワークフローの柔軟性で注目を集めている。
バイトダンスは、視覚と操作の連携で実行力を高めた「思考型ユーザー操作エージェント」UI-TARS-1.5をオープンソースで公開。GUI操作やMinecraft環境において前例のない性能を示し、強化学習と推論による進化型モデルとして次世代の汎用AIの可能性を示した。
ファーウェイは最新SUV「問界M8」を発表し、発売1時間で2万台を受注。ADS 4.0による「駐車場から駐車場まで」の自動運転、安全面でのトリプルセーフティ設計、家庭空間を再現する車内装備などが話題に。価格は36万元(約750万円)から。
アリババのTongyi Labが開発した動画生成モデル「Wan2.1」を公開。2枚の画像から自然な映像を生成できる高精度モデルで、推論速度とコスト効率にも優れる。GitHubやHugging Faceで入手可能。
AIハードウェア企業X-ORIGIN-AI(玄源科技)が、感情的な人間・機械インタラクションを核とした個性化AIロボット開発で約1億元(約21億円)を調達。AGI時代に向けたマルチモーダル感情認識技術と動的記憶システムで「温もりある知能」を実現。
復旦大学とバイトダンスが共同開発した自回帰型画像生成AI「SimpleAR」が公開された。0.5BパラメータでGenEvalスコア0.59を記録し、従来の拡散モデルを超える性能と推論速度14秒を両立。次世代画像生成の有力候補として注目される。
ACTalkerは、音声と表情の複数信号でデジタルヒューマンの口元生成を制御する動画拡散フレームワーク。Mamba構造とmask-drop戦略により、顔の各部位を独立制御し、自然で高精度な口型同期を実現。学術・実装コード・デモがすべて公開されており、実用性も高い。
バイトダンスのDoubao(豆包)チームが、文章からの画像生成モデル「Seedream 3.0」を発表。2K画像を直接出力し、小文字や構造の正確性、画像の美しさが大幅に向上。商用デザインにも対応し、設計者ニーズにも応える。
上海AI LabとSenseTimeが共同開発したマルチモーダル大言語モデル「InternVL3」が公開された。新しいトレーニング手法と位置エンコーディングを採用し、MMMUスコアで従来のQwen2.5-VLを上回る72.2点を記録。今後の研究促進のため、学習データとモデル重みも公開予定。
香港大学とバイトダンスが発表したGigaTokは、30億パラメータの大規模画像トークナイザー。意味正則化と非対称構造により再構成と生成の両性能を両立し、2025年4月14日に論文・コード・モデル・学習済みチェックポイントがGitHub上で公開された。
Zhipu(智譜)がGLMシリーズの32B/9BモデルをMITライセンスでオープンソース公開。高性能推論モデルGLM-Z1-32BはDeepSeek-R1と同等の性能を持ちながら、価格は1/30。中国国内最速の推論速度も実現し、新体験サイト「Z.ai」も同時に公開された。
HiDream(智象未来)が開発した画像生成モデル「HiDream-I1」が、GPT-4oに匹敵する性能をオープンソースで公開。高精度な指令理解とリアルな描写力を兼ね備え、商用利用も可能。次期モデル「HiDream-E1」は画像編集に対応予定で、さらなる注目を集めている。
バイトダンスのSeedチームが、次世代推論モデル「Seed-Thinking-v1.5」の技術詳細を公開。数学やプログラミングなど専門タスクで業界最先端水準を達成しつつ、推論コストはDeepSeek R1比で50%削減。4月17日からVolcano Engine(火山引擎)で体験可能。
アリババはAGIの実現を最重要目標に据え、3年間で3800億元(約7.8兆円)をAI・クラウド基盤に投資する計画を進行中。Qwenのオープンソース戦略やToCアプリの強化により、商用AI時代の再起を目指している。戦略は未公表だが、既に実行段階に突入している。
MiniMaxがマルチモーダル生成機能を統合した「MCP Server」をリリース。テキスト入力のみで動画、画像、音声、音声クローンなどを一括生成可能。CursorやClaude Desktopなど複数のMCPクライアントに対応し、GitHubでコードをオープンソース公開済み。
アリババクラウドの「Bailian(百錬)」プラットフォームが、業界初のフルライフサイクルMCP(Model-Callable Protocol)サービスを公開。開発者は0行のコードと5分の操作で企業レベルのAI Agentを構築可能。標準化プロトコルによりツール接続の効率も飛躍的に向上した。
バイトダンスが新たなAIスマートグラスを自社開発中。自社大規模モデルやチャットボット「Doubao(豆包)」の技術を活用し、過去のPicoやOla Friendの低調な売上を挽回する狙い。中国・米国でAIデバイス開発が加速する中、競争激化の兆し。
テンセントは2024年4月11日、高保真な画像生成と個性表現を両立する新フレームワーク「FlexIP」を発表。論文と公式サイトで手法とデモを公開し、スタイルと識別性の柔軟な制御が可能な次世代拡散モデルとして注目されている。
ARグラス開発企業のXrealが西湖大学と共同で、純テキストからマルチモーダル訓練データを合成する「Unicorn」フレームワークを開発。高精度かつコスト効率の高いVLM訓練を実現し、実画像不要の新パラダイムを提示した。
SenseTime(商湯科技)が新たに発表した大規模モデル「日日新 SenseNova V6」は、マルチモーダル長期推論と全体記憶機構を活用し、画像・音声・映像を横断した複雑な理解と推論を実現。保険処理や動画編集、音読翻訳など日常生活や業務にAIが実用レベルで融合。高性能ながらコストは国内最低水準で、GPT-4やGemini 2.0 Proと同等以上の能力を持つ。
バイトダンスは推論特化型の大規模AIモデルSeed-Thinking-v1.5を発表し、GitHubで評価用データセットとベンチマーク結果を同時公開。数学・コード・科学分野でDeepSeek R1を上回る性能を実現し、創作分野でも高いユーザー評価を得た。
中国は技術自立を国家戦略とし、CPUを含むコンピューティング能力の国産化を推進。x86互換のC86体系を核に、実用性・制御性・安全性を兼ね備えたCPUが次世代のIT国産化産業を牽引。Hygon(海光)などが進めるオープンかつ自律的な発展モデルに注目が集まる。
香港大学とAdobeの研究チームが、変分オートエンコーダ(VAE)を使わず、ピクセル空間で直接画像を生成する新手法「PixelFlow」を開発。段階的に解像度を高める設計とFlow Matchingにより、高画質・高効率な生成を実現。ImageNetベンチマークで最先端モデルを超える性能を示した。
バイトダンスのDoubao(豆包)チームが、7言語対応のコード修復ベンチマーク「Multi-SWE-bench」と強化学習用「Multi-SWE-RL」を公開。1,632件の実例と詳細評価指標により、AIの多言語プログラミング能力の評価・向上を目指す。
バイトダンスが発表した画像生成モデル「UNO」は、テキスト生成画像から複数主体の融合までを1つのモデルで処理可能とする。モデルとデータの「共進化」により、多様な入力条件への対応と高精度な画像生成を両立している。
中国を中心に人気の高まるAI画像生成ツール14種を対象に、統一されたプロンプトテンプレートを用いて横断比較を実施。Midjourneyや即夢3.0、ChatGPT 4oなど、それぞれのツールが生成する画像の特徴や表現の違いを明らかにし、高精度な生成のためには具体的なプロンプト設計が不可欠であることが示された。
Tezignが開発したAtypica.AIは、RedNote(小紅書)上の投稿を分析して仮想ユーザーを生成し、対話形式でインサイトを抽出する新型のユーザー洞察AI。選択式インタビューと仮想インタビューを組み合わせ、高完成度なレポートを生成する。
NVIDIAがAIスタートアップLepton AIを数億ドルで買収し、創業者の賈揚清(元アリババ副総裁)ら約20名のチームが同社に合流した。Leptonは設立から2年未満で急成長し、AIクラウド基盤の提供で注目されていた。賈氏はディープラーニングフレームワーク「Caffe」の開発者としても知られる。投資家は短期間で大きなリターンを得た。
AI Agent開発プラットフォーム「Coze」が全面アップグレードされた。新たに「Coze開発プラットフォーム」と運用支援ツール「Coze羅盤」を公開し、Go言語ベースの開発フレームワーク「Eino」もオープンソース化。多様な料金プランや企業向けイベントも併せて展開する。
中国AI企業・StepFunが軽量マルチモーダル推論モデル「Step-R1-V-Mini」を公開。画像とテキストを組み合わせた複雑な推論が可能で、複数の視覚系ベンチマークで他モデルを上回る高精度を記録。強化学習と合成データで性能を強化した。
自動運転チップ企業「Black Sesame Technologies(黒芝麻智能)」が2024年に黒字化を達成と発表、純利益は3.13億元(約65億円)に上る。しかしその実態は、会計上の評価益による見せかけの黒字で、営業損失は依然として大きく、実質的には13億元(約270億円)の赤字。業界全体では国産チップのシェア拡大が進み、NVIDIA一強時代に変化の兆しが見え始めている。
アリババのTongyi Labが開発した「LHM」と「LAM」は、写真1枚からインタラクティブな3Dデジタル人間を数秒で生成するオープンソースAI。LHMはモーション対応3D人体を、LAMは会話可能な3Dアバターを出力。ゲーム、VR、バーチャル接客などに応用可能。
miHoYo創業者・蔡浩宇が率いるAnuttaconが開発中のAIゲーム『Whispers From The Star』の実機映像が公開された。プレイヤーの音声や発言によってヒロイン「ステラ(Stella)」の運命がリアルタイムに変化する設計で、従来のゲームとは異なる没入型の体験を提供する。
MetaがMoEアーキテクチャを採用したLlama 4シリーズを発表。中型・大型モデルは高性能かつ単一GPUで運用可能で、特にMaverickはGPT-4oを上回る性能を示した。2兆パラメータの超大規模モデルも訓練中で、性能とコストの両面でオープンソースAIの頂点に立った。
Simular.aiが公開したAIエージェントフレームワーク「Agent S2」が、複数のGUI操作ベンチマークでSOTAを達成。専門モジュールに機能を分離する新設計により、従来の単一モデル型より柔軟かつ高性能なエージェント設計を実現した。2025年4月には最新論文も発表された。
DeepSeekと清華大学は、推論時に性能を拡張できる報酬モデル手法「SPCT」を発表。既存モデルの限界を突破し、複雑なタスクへの対応力を強化する。一方、OpenAIのサム・アルトマンはGPT-5の発表を数ヶ月後に延期すると明らかにした。
トランプ前大統領は、TikTokの米国事業売却を義務付ける行政命令の発効を75日間延長した。新たな期限は6月中旬。バイトダンスは米政府と協議中であり、未だ正式な合意には至っていない。法的・政治的リスクのもと、TikTokは存続を賭けた交渉と法廷闘争を続けている。
Li Auto(理想汽車)は、人気AIモデル「DeepSeek」を車載向けに最適化した自社開発の推理モデルを発表。ユーザーの発話内容から思考の必要性と深さを自律的に判断し、旅行計画や投資助言、家族対応まで高速かつ柔軟に応答する機能を備える。
バイドゥのAIプロジェクトが、2025年のエジソン賞で金賞と銀賞を受賞。無人運転サービス「Apollo Go」は中国初の金賞に輝き、野生動物保護ツール「絶滅危惧種AI守護官2.0」は持続可能性分野で銀賞を獲得。両者とも国際的な評価を得た。
2025年3月のAIアプリランキングが発表され、夸克(Quark)、豆包(Doubao)、DeepSeek、元宝(Yuanbao)、Talkieが世界トップ10入り。中国国内市場ではアリババ、バイトダンス、テンセントが主導権争いを繰り広げている。
中国のCAMELチームが開発したOASISは、最大100万体のAIエージェントがソーシャルメディア上で相互作用するシミュレーション環境。最近のアップデートで推論速度が13倍に高速化され、OpenAIのEmbeddingモデルを活用した推薦システムも導入された。
中国のMainFunc社が開発したGensparkは、無料かつ高機能なAIエージェントとして急速に注目を集めている。動画制作やPPT作成を音声指示だけで実行でき、既存の有力AI「Manus」をベンチマークテストで上回った。AIエージェント市場に新たな勢力図が生まれつつある。
OPPOはAIによってスマホ撮影技術を再構築し、大規模モデルでの画像復元や夜景ポートレートの革新を推進。独自のレンズと評価システムも導入し、AppleやSamsungを超える成果を実現した。
中国国家天文台とアリババクラウドが、世界初の太陽フレア予測に特化した大規模AIモデル「金烏」を共同発表。従来の手作業では困難だった膨大な観測データを処理し、M5クラスのフレアで91%超の予測精度を実現。宇宙空間の安全保障にAIが新たな力をもたらす。
バイドゥの深層学習フレームワーク「PaddlePaddle(飛槳)」が3.0正式版を公開。自動並列化や大規模モデル対応、高次自動微分、神経ネットワークコンパイラ、多種チップへの適応性を強化し、AIの産業化と科学研究の両面で開発者を支援する。
アントグループと清華大学が共同開発したRL訓練フレームワーク「AReaL-boba」が公開された。わずか200ドル・200件のデータでSOTA級の数学推理AI「QwQ-32B」を再現可能で、コードやデータも完全公開されている。中小規模チームでも短期間で高性能モデルを構築できる新たな訓練パラダイムとして注目を集めている。
人型ロボット開発で注目されるUniTree(宇樹科技)が、アントグループとチャイナモバイル(中国移動)から戦略投資を受ける見込みとなった。評価額は前回と同水準の約80億元(約1,600億円)。四足ロボットで世界的なシェアを持つ同社には今後、政府・企業向けの商用展開が期待される。一方で、業界全体の投資過熱に対する懸念も強まっている。