バイドゥ(百度)は動画生成AI「蒸汽機(MuseSteamer)2.0」を発表した。従来の課題であった口の動きと音声のズレを克服し、表情や動作を含めた映像をミリ秒単位で同期。Turbo、Lite、Pro、有声版の4種類を揃え、解像度や生成速度、コストの面で幅広いニーズに対応する。有声版は音声と映像が自然に一体化した対話動画を生成できるのが特徴だ。
独自のLMMP(Latent Multi-Modal Planner)技術により、複数キャラクターの役割や台詞、感情表現を事前に設計し、自然な会話や複雑なカメラワークを実現。実際のテストでは複数人の対話や動物キャラクターを含む場面、タイムラプスやカメラ切り替えも違和感なく再現できた。
価格は中国国内の他社モデルの70%と競争力があり、5秒の有声動画を1.4元(約30円)で生成可能。中小クリエイターや一般ユーザーでも映画級の動画制作が可能となった。『2012』『マトリックス3』『トランスフォーマー3』などのVFXを手掛けた姚騏(Yao Qi)は、本モデルで330元(約7,000円)という低コストで2分間のSF短編を制作し、AIによる映像制作の民主化を象徴する成果となった。
蒸汽機2.0は既にバイドゥ(百度)検索やアプリ、クリエイティブプラットフォーム「絵想」で利用可能となっている。商業利用からエンタメ制作まで幅広く普及が見込まれ、AI動画生成の産業革命は加速している。