AI技術の急成長が続く中、中国の大手テクノロジー企業であるByteDance(字節跳動)は、2月6日に新たなデジタルヒューマン生成技術「OmniHuman」を発表した。この新技術は、単一の画像と音声データを組み合わせることで、リアルな全身動作を持つ動画を生成できるという画期的なものだ。OmniHumanは、人間の顔の表情、身体の動き、手のジェスチャー、さらには物体との相互作用までを自然に再現し、まるで実際の人間が動いているかのような動画を生成可能。この技術は、これまでのAIによるアニメーション技術が主に顔の動きに制限されていたのに対し、全身の自然な動作を再現できる点が大きな特徴となっている。
ByteDance の研究チームは、OmniHumanの開発において、DiT(Diffusion Transformer)アーキテクチャを基盤としたマルチモーダルトレーニング手法を採用。この技術により、高品質なデータが不足する問題を解決し、テキスト、音声、動作情報を統合的に学習させることで、よりリアルな動きの再現を可能にしている。また、OmniHumanは、18700時間以上の人間の動画データを活用して学習を行い、従来のモデルと比較してより精度の高い動画生成が可能となった。さらに、多様な入力信号(画像、音声、動画)を活用できるため、シンプルな操作で高品質なデジタルヒューマン動画を生成できる。
AIを活用したデジタルヒューマンの市場は急速に成長しており、2024年9月時点で中国国内の関連企業数は114.4万社に達した。特に、バイドゥ、テンセント、アリババといった大手企業に加え、華為(Huawei)や京東(JD)、科大訊飛(iFlytek)なども積極的に参入している。市場調査会社IDCのレポートによると、中国におけるバーチャルヒューマン市場の規模は2026年までに102.4億元(約2100億円)に達する見込み。特に、AI駆動型デジタルヒューマンの需要が急増し、コスト削減や業務効率向上の手段としても注目されている。
現在のデジタルヒューマンは大きくリアル駆動型(実際の人間の動きをモーションキャプチャで反映)と、AI駆動型(完全にAIが自律して動作)の2種類に分かれる。AI技術の進歩により、今後はAI駆動型デジタルヒューマンが主流となる見込みだ。特に、自然言語処理(NLP)やディープラーニングの発展により、AI駆動型のデジタルヒューマンの認知能力や表現力が大幅に向上すると予測されている。加えて、コストの低減も進んでおり、企業のマーケティングやカスタマーサポート、エンターテインメント分野での導入がさらに加速する可能性が高い。
OmniHumanの発表は、こうしたAIデジタルヒューマン技術の競争が激化する中での大きな一歩となった。Google、Meta、Microsoftといったグローバル企業も類似技術を開発しており、今後の市場争いがますます熾烈になることが予想される。
OmniHuman Lab 公式サイト:https://omnihuman-lab.github.io/