香港大学とByteDanceが次世代動画生成モデル「Goku」を発表—AI動画市場に革命

出典:https://finance.sina.com.cn/tech/csj/2025-02-10/doc-ineiyyfa3543237.shtml

概要ポイント
  • 香港大学とByteDanceが動画生成モデル「Goku」および「Goku+」を発表。
  • Gokuは画像・動画統合生成が可能なrectified flow Transformerベースの技術を採用。
  • Goku+は広告動画を従来の100分の1のコストで生成可能。
  • リアルな商品広告や人物映像を高精度に生成し、AI動画市場に革新をもたらす。
  • 高品質な大規模データと先進的なトレーニング技術を活用し、業界の新たな基準を確立。
本文

香港大学とByteDanceが共同開発した最新の動画生成モデル「Goku」が発表され、AI業界に大きな衝撃を与えている。Gokuは「rectified flow Transformer」技術を採用し、画像と動画を統合的に生成できる。特に広告動画の制作に特化した「Goku+」は、従来の100分の1のコストで高品質な動画を作成できるとされ、マーケティングやコンテンツ制作市場の構造を根本から変える可能性を持つ。

Gokuの生成能力は非常に高く、食べ物や化粧品の広告、さらには人物が商品を紹介する動画など、多様なシナリオに対応可能。たとえば、一枚の商品の写真とテキストプロンプトを入力するだけで、自然な表情や動作を持つ人物が製品を説明するリアルな映像が生成される。この高度な生成技術により、TikTokやYouTubeなどのクリエイター市場に大きな影響を与えると期待されている。

技術面では、Gokuは「校正流(rectified flow)」を活用した新しいTransformerアーキテクチャを採用している。画像・動画統合型VAE(変分オートエンコーダ)を利用し、統一された潜在空間での生成を実現。さらに、大規模なデータセット(3,600万本の動画、1.6億枚の画像)を用いた多段階トレーニングを採用し、生成精度と速度を大幅に向上させた。特に、データの品質向上のために美学評価やOCR分析、多言語大規模モデルを活用してコンテンツを最適化している。

また、トレーニング効率の向上にも注力しており、「ByteCheckpoint」という技術により、従来手法と比べてチェックポイントの保存・読み込み速度を大幅に向上。これにより、異なる計算リソースや用途に応じた3種類のモデル(Goku-1B, Goku-2B, Goku-8B)が提供される。

さらに、Gokuは最新のAI動画生成技術に関する指標においても高い成績を記録している。テキストから画像を生成する「GenEval」では0.76、ダイナミックシーン生成を測る「DPG-Bench」では83.65を獲得。さらに、テキストから動画を生成する「VBench」では84.85を記録し、SOTA(State Of The Art)モデルとして位置付けられている。

公式の技術レポートや研究論文は公開されているものの、現時点では一般ユーザー向けの提供は開始されていない。しかし、すでにAI研究者やコンテンツクリエイターの間で大きな話題となっており、今後の展開に期待が高まっている。Gokuは、AI動画生成の新たなスタンダードを確立し、コンテンツ制作の未来を大きく変える可能性を秘めている。

Goku公式サイト:https://saiyan-world.github.io/goku