バイドゥ「MiniGen(文小言)」が大幅アップグレード:マルチモデル・方言対応・画像問答に対応

出典:https://mp.weixin.qq.com/s/szn1KYJL_xs41iamWS7diw

概要ポイント
  • ERNIE(文心大模型)などを統合し、マルチモデルによる柔軟なタスク処理を実現。
  • 方言対応の音声言語モデルにより、自然な会話と低コスト・高速な応答を両立。
  • 画像問答機能を強化し、教育・買い物・デザイン支援など多様な用途に対応。
  • DeepSeek-R1など外部モデルとの協調処理も可能で拡張性が向上。
  • 感情表現のある音声合成で、対話の臨場感と人間らしさを強化。
本文

2025年3月31日に開催されたバイドゥの「AI Day」において、AIアシスタント「MiniGen(文小言)」が大幅に機能を拡張した新バージョンを発表した。今回のアップグレードでは、ERNIE(文心大模型)X1やERNIE 4.5など複数の大規模モデルを統合し、用途に応じて自動的に最適なモデルを選択・連携処理できるマルチモデル調整機能を搭載。これにより、タスク処理能力や応答速度が飛躍的に向上した。


また、対話型AIとして重要な音声機能も刷新された。新たに実装されたエンドツーエンドの音声言語大モデルは、cross attentionベースで構築され、音声認識と合成を統合。これにより、話者の割り込みや複雑な対話にも自然に対応し、情感豊かな応答が可能となった。方言対応も強化され、重慶語や広西語など複数の地域言語にも対応。業界平均に比べ、通話音声応答のコストを50〜90%削減し、応答速度も1秒以下に抑えるなど、実用性が大きく向上している。


画像問答機能も目玉の一つだ。ユーザーが撮影・アップロードした画像に対し、テキストや音声による質問を受け付け、AIが即座に内容を解析し、教育支援や商品比較、デザイン提案まで幅広く対応。例えば、子どもの数学問題の解説動画を自動生成したり、登山に適した服の選定、好みのインテリアスタイルに基づいたカスタム提案も可能となっている。


さらに、画像から面白い雑学を引き出す「図個冷知识」機能では、AIが異なるキャラクター設定で一枚の画像に対して多角的な解釈を提示することも可能になった。


今回のアップグレードにより、「MiniGen(文小言)」は音声と視覚を統合した高度なマルチモーダルAIアシスタントとして、生活から教育、ビジネス支援まで多様なシーンでの活用が見込まれる。