Tongyi Lab、構造化推論で“画面を聞き取る”音声生成AI「ThinkSound」をオープンソース公開

出典:https://mp.weixin.qq.com/s/JHmZQpLBtplZX670E-td_A

ThinkSound イメージ
概要ポイント
  • ThinkSoundは映像内容を論理的に分析し、空間・時系列に合致した音声を生成。
  • 多モーダルデータセット「AudioCoT」でAIの構造的推論能力を強化。
  • CoTを用いて「物体ごとの音」や「指示に応じた音編集」に対応。
  • VGGSoundやMovieGen Audio Benchで従来モデルを大幅に上回る性能。
  • GitHubなどでコードとモデルが無償公開済み。
本文

アリババグループ傘下のTongyi Lab(通義実験室)は、画面の構造的理解を通じて論理的に音を生成する新しい音声AI「ThinkSound」を公開し、GitHub等でオープンソースとして配布を開始した。


従来の映像-to-音声(V2A)生成技術では、映像内の物体や動作に対する音声の同期性が不十分で、音と画のズレが専門的な制作現場での活用を難しくしていた。ThinkSoundはこの課題に対し、Chain-of-Thought(思考の連鎖)推論を応用することで、AIが映像内のイベントを人間の音響技師のように段階的に理解し、画面に“耳を傾ける”ようにして音を生成する構造を持つ。


同モデルは、「AudioCoT」と名付けられた2,500時間超の多モーダル音響データセットを活用。VGGSoundやAudioSetなど複数の既存データに加え、細粒度な手動校正と自動フィルタリングにより構築された。さらに、物体単位の描写とユーザー指示による音声編集の双方に対応する構造を備え、インタラクティブな音響体験も可能にしている。


ThinkSoundは三段階の推論プロセスで音声を生成する。まず映像全体から動作や場面を把握し、次に猫や車といった対象物ごとの音響推論を実行、最後に「○○の後に××の音を加えてほしい」といった自然言語のユーザー指示にも対応し、リアルタイム編集可能な音声を合成する。


技術面では、マルチモーダル大規模言語モデル(MLLM)と、音声出力に特化した音響生成モジュールが連携。VGGSoundベンチマークでは、従来のMMAudioやV2A-Mappeを大きく上回るスコアを記録し、Meta製のMovieGenAudioを凌駕する性能を示した。


同モデルは既にGitHub、HuggingFace、ModelScopeにて公開済みで、誰でもダウンロードして利用できる。今後は、より複雑な音響環境への対応や、VR/ARを含む没入型応用分野への展開が予定されている。