Infinigence AI(無問芯穹)は、上海交通大学や清華大学との共同研究により開発した動画生成モデル推論IP「FlightVGM」で、国際的な可変再構成計算(FPGA)分野のトップ会議であるFPGA 2025において最優秀論文賞を受賞した。これはFPGA会議史上、中国本土の研究チームが主導した研究が初めて受賞した快挙であり、アジア太平洋地域のチームとしても初の受賞となる。FlightVGMは、FPGA上で動画生成モデル(VGMs)の推論を高効率に実現する技術であり、AMD V80 FPGA上でNVIDIA 3090 GPUを超える性能とエネルギー効率を達成した。
近年、動画生成モデルの需要は急速に拡大しており、その計算負荷も増大している。特に、高解像度かつ長時間の動画を生成する場合、演算量とメモリ消費が大きな課題となる。従来のGPUベースのアプローチでは、性能向上のために消費電力が増加し、コスト効率が低下する問題があった。これに対し、FlightVGMはFPGAを活用することで計算効率を最大化し、低消費電力での高性能推論を実現した。特に、動画圧縮技術から着想を得た「時間・空間」オンライン稀疎化技術を導入し、推論プロセスで発生する冗長な計算を動的に削減することで、処理速度を大幅に向上させた。
FlightVGMの最大の特徴は、FPGAの柔軟なハードウェア設計を活かした革新的な計算アーキテクチャにある。AMD V80 FPGAに搭載されるDSP58演算ユニットを拡張し、浮動小数点(FP16)と整数演算(INT8)を組み合わせることで、精度を維持しつつ演算効率を向上させた。従来のGPUアーキテクチャでは、一律に高精度演算が求められるため、不要な計算負荷が発生しやすかった。しかし、FlightVGMは、注意力機構などの重要な演算にはFP16を適用し、線形層などの負荷の低い演算にはINT8を適用することで、リソースの最適配分を実現した。さらに、稀疎化技術による計算負荷の変動に対応するため、動的に処理順序を調整するアルゴリズムを導入し、全体の計算効率を最大化している。
今回の研究は、FPGAを活用した大規模AIモデル推論の可能性を大きく広げるものだ。近年、大規模モデルのパラメータ数が急増しており、OpenAIの「OpenSora」は0.7B(7億)パラメータだったが、最新の「混元Video」では12.8B(128億)パラメータへと増大している。これにより、従来のGPUベースの推論環境では計算コストが飛躍的に増大している。一方で、Infinigence AIは2024年に発表した言語生成モデル向け推論IP「FlightLLM」に続き、今回のFlightVGMで動画生成モデルにもFPGAの活用を拡大。動画生成モデル専用のスパース化アクセラレータ「ViDA」も開発し、ASP-DAC 2025で最優秀論文賞を受賞するなど、さらなる技術革新を進めている。
今回のFlightVGMの成功により、Infinigence AIはFPGAを活用した大規模モデル推論の分野でリーダーシップを確立しつつある。同社はこの技術を自社開発の大規模モデル推論IP「LPU(Large-model Processing Unit)」に統合し、パートナー企業との実証実験を進めており、今後の実用化に向けた取り組みに注目が集まっている。
【関連リンク】
FlightVGM論文詳細:https://dl.acm.org/doi/10.1145/3706628.3708864