Baichuan社、多モーダル対応モデル『Baichuan-Omni-1.5』を公開――医療AI分野でGPT-4o miniを凌駕

出典:https://mp.weixin.qq.com/s/QiL5CfTgkLMOLiTW6TgbkQ

概要ポイント
  • Baichuan-Omni-1.5を公開:テキスト・画像・音声・動画を一括処理し、GPT-4o miniを上回る性能を実現し、医療分野で特に優位性を示す。
  • “模型降智”問題の克服:多モーダル化による推論力の低下を構造設計や学習戦略の最適化で軽減し、数理推論も高水準を維持。
  • 音声・映像処理の強化:ASR・TTSの統合やリアルタイム対話を可能にし、エッジ環境への適用力を向上。
  • オープンソース評価基盤:医用画像解析を含む「OpenMM-Medical」と音声・論理推論を測る「OpenAudioBench」を公開。
  • 医療応用と今後の展望:画像診断支援などで正確性と効率を高め、高品質AI医療サービスの普及を後押しすると期待される。
本文

中国のBaichuan社は、多モーダル対応の全模態生成モデル「Baichuan-Omni-1.5」を新たに公開した。同モデルはテキスト、画像、音声、動画といった多様なデータを統合的に扱えるのが特徴で、既存のGPT-4o miniを上回る総合性能を示す。特に医療分野においては、診断精度や効率を大幅に向上させる可能性を指摘している。

開発にあたっては、いわゆる“模型降智”と呼ばれる多モーダル化による推論力の低下を克服するため、モデル構造・学習データ・訓練プロセスの最適化を徹底。音声技術の分野でも、ASRとTTSの機能を統合し、動画と音声のリアルタイム連動を実現するなど、幅広い応用に対応したエンドツーエンドソリューションを採用している。

さらに同社は、医療特化評価データセット「OpenMM-Medical」や音声・論理推論を多角的に計測できる「OpenAudioBench」をオープンソース化。X線・CTなどの医用画像や多種多様な音声・テキストデータを含んだこれらの評価基盤は、業界の研究者や開発者にとって、より実践的なモデル検証と最適化の場を提供することが期待される。

今後は、本モデルを通じて医療AIのさらなる高度化を進めるとともに、多モーダル解析の拡張や実利用シーンの拡大を目指す姿勢を明らかにしている。中国におけるAIヘルスケアの普及や高品質医療サービスの実現を後押しする取り組みとして、国内外から注目を集めている。