中国のBaichuan社は、多モーダル対応の全模態生成モデル「Baichuan-Omni-1.5」を新たに公開した。同モデルはテキスト、画像、音声、動画といった多様なデータを統合的に扱えるのが特徴で、既存のGPT-4o miniを上回る総合性能を示す。特に医療分野においては、診断精度や効率を大幅に向上させる可能性を指摘している。
開発にあたっては、いわゆる“模型降智”と呼ばれる多モーダル化による推論力の低下を克服するため、モデル構造・学習データ・訓練プロセスの最適化を徹底。音声技術の分野でも、ASRとTTSの機能を統合し、動画と音声のリアルタイム連動を実現するなど、幅広い応用に対応したエンドツーエンドソリューションを採用している。
さらに同社は、医療特化評価データセット「OpenMM-Medical」や音声・論理推論を多角的に計測できる「OpenAudioBench」をオープンソース化。X線・CTなどの医用画像や多種多様な音声・テキストデータを含んだこれらの評価基盤は、業界の研究者や開発者にとって、より実践的なモデル検証と最適化の場を提供することが期待される。
今後は、本モデルを通じて医療AIのさらなる高度化を進めるとともに、多モーダル解析の拡張や実利用シーンの拡大を目指す姿勢を明らかにしている。中国におけるAIヘルスケアの普及や高品質医療サービスの実現を後押しする取り組みとして、国内外から注目を集めている。