チャイナAI速報

February 6/2025

ByteDance、新AIモデル「OmniHuman」発表！写真1枚で全身動画を生成

出典：https://www.chnfund.com/article/ARd6342944-8a26-e6ed-5911-3a17ec5e0f70

概要ポイント

ByteDance が「OmniHuman」を発表：単一の画像と音声データで全身動作動画を生成可能。
リアルな動きの再現：表情、ジェスチャー、物体との相互作用まで忠実に再現。
DiTアーキテクチャを活用：高精度なデータ処理と学習モデルを採用。
18700時間のデータで訓練：精度向上とデータ効率化を実現。
デジタルヒューマン市場の拡大：中国では2026年までに102.4億元規模へ成長見込み。

本文

AI技術の急成長が続く中、中国の大手テクノロジー企業であるByteDance（字節跳動）は、2月6日に新たなデジタルヒューマン生成技術「OmniHuman」を発表した。この新技術は、単一の画像と音声データを組み合わせることで、リアルな全身動作を持つ動画を生成できるという画期的なものだ。OmniHumanは、人間の顔の表情、身体の動き、手のジェスチャー、さらには物体との相互作用までを自然に再現し、まるで実際の人間が動いているかのような動画を生成可能。この技術は、これまでのAIによるアニメーション技術が主に顔の動きに制限されていたのに対し、全身の自然な動作を再現できる点が大きな特徴となっている。

ByteDance の研究チームは、OmniHumanの開発において、DiT（Diffusion Transformer）アーキテクチャを基盤としたマルチモーダルトレーニング手法を採用。この技術により、高品質なデータが不足する問題を解決し、テキスト、音声、動作情報を統合的に学習させることで、よりリアルな動きの再現を可能にしている。また、OmniHumanは、18700時間以上の人間の動画データを活用して学習を行い、従来のモデルと比較してより精度の高い動画生成が可能となった。さらに、多様な入力信号（画像、音声、動画）を活用できるため、シンプルな操作で高品質なデジタルヒューマン動画を生成できる。

AIを活用したデジタルヒューマンの市場は急速に成長しており、2024年9月時点で中国国内の関連企業数は114.4万社に達した。特に、バイドゥ、テンセント、アリババといった大手企業に加え、華為（Huawei）や京東（JD）、科大訊飛（iFlytek）なども積極的に参入している。市場調査会社IDCのレポートによると、中国におけるバーチャルヒューマン市場の規模は2026年までに102.4億元（約2100億円）に達する見込み。特に、AI駆動型デジタルヒューマンの需要が急増し、コスト削減や業務効率向上の手段としても注目されている。

現在のデジタルヒューマンは大きくリアル駆動型（実際の人間の動きをモーションキャプチャで反映）と、AI駆動型（完全にAIが自律して動作）の2種類に分かれる。AI技術の進歩により、今後はAI駆動型デジタルヒューマンが主流となる見込みだ。特に、自然言語処理（NLP）やディープラーニングの発展により、AI駆動型のデジタルヒューマンの認知能力や表現力が大幅に向上すると予測されている。加えて、コストの低減も進んでおり、企業のマーケティングやカスタマーサポート、エンターテインメント分野での導入がさらに加速する可能性が高い。

OmniHumanの発表は、こうしたAIデジタルヒューマン技術の競争が激化する中での大きな一歩となった。Google、Meta、Microsoftといったグローバル企業も類似技術を開発しており、今後の市場争いがますます熾烈になることが予想される。

OmniHuman Lab 公式サイト：https://omnihuman-lab.github.io/