ByteDance、新AIモデル「OmniHuman」発表!写真1枚で全身動画を生成

出典:https://www.chnfund.com/article/ARd6342944-8a26-e6ed-5911-3a17ec5e0f70

概要ポイント
  • ByteDance が「OmniHuman」を発表:単一の画像と音声データで全身動作動画を生成可能。
  • リアルな動きの再現:表情、ジェスチャー、物体との相互作用まで忠実に再現。
  • DiTアーキテクチャを活用:高精度なデータ処理と学習モデルを採用。
  • 18700時間のデータで訓練:精度向上とデータ効率化を実現。
  • デジタルヒューマン市場の拡大:中国では2026年までに102.4億元規模へ成長見込み。
本文

AI技術の急成長が続く中、中国の大手テクノロジー企業であるByteDance(字節跳動)は、2月6日に新たなデジタルヒューマン生成技術「OmniHuman」を発表した。この新技術は、単一の画像と音声データを組み合わせることで、リアルな全身動作を持つ動画を生成できるという画期的なものだ。OmniHumanは、人間の顔の表情、身体の動き、手のジェスチャー、さらには物体との相互作用までを自然に再現し、まるで実際の人間が動いているかのような動画を生成可能。この技術は、これまでのAIによるアニメーション技術が主に顔の動きに制限されていたのに対し、全身の自然な動作を再現できる点が大きな特徴となっている。

ByteDance の研究チームは、OmniHumanの開発において、DiT(Diffusion Transformer)アーキテクチャを基盤としたマルチモーダルトレーニング手法を採用。この技術により、高品質なデータが不足する問題を解決し、テキスト、音声、動作情報を統合的に学習させることで、よりリアルな動きの再現を可能にしている。また、OmniHumanは、18700時間以上の人間の動画データを活用して学習を行い、従来のモデルと比較してより精度の高い動画生成が可能となった。さらに、多様な入力信号(画像、音声、動画)を活用できるため、シンプルな操作で高品質なデジタルヒューマン動画を生成できる。

AIを活用したデジタルヒューマンの市場は急速に成長しており、2024年9月時点で中国国内の関連企業数は114.4万社に達した。特に、バイドゥ、テンセント、アリババといった大手企業に加え、華為(Huawei)や京東(JD)、科大訊飛(iFlytek)なども積極的に参入している。市場調査会社IDCのレポートによると、中国におけるバーチャルヒューマン市場の規模は2026年までに102.4億元(約2100億円)に達する見込み。特に、AI駆動型デジタルヒューマンの需要が急増し、コスト削減や業務効率向上の手段としても注目されている。

現在のデジタルヒューマンは大きくリアル駆動型(実際の人間の動きをモーションキャプチャで反映)と、AI駆動型(完全にAIが自律して動作)の2種類に分かれる。AI技術の進歩により、今後はAI駆動型デジタルヒューマンが主流となる見込みだ。特に、自然言語処理(NLP)やディープラーニングの発展により、AI駆動型のデジタルヒューマンの認知能力や表現力が大幅に向上すると予測されている。加えて、コストの低減も進んでおり、企業のマーケティングやカスタマーサポート、エンターテインメント分野での導入がさらに加速する可能性が高い。

OmniHumanの発表は、こうしたAIデジタルヒューマン技術の競争が激化する中での大きな一歩となった。Google、Meta、Microsoftといったグローバル企業も類似技術を開発しており、今後の市場争いがますます熾烈になることが予想される。

OmniHuman Lab 公式サイト:https://omnihuman-lab.github.io/