SenseTime(商湯科技)が「日日新 SenseNova V6」発表、マルチモーダル推論で日常生活にAIを浸透

出典:https://mp.weixin.qq.com/s/bATGCgben6zH4UgOvfdtIw

概要ポイント
  • マルチモーダル長期推論と全体記憶により、推論能力を大幅強化。
  • 保険処理や文書審査など複雑な実務も1分で処理可能。
  • 10分動画の解析・要約・解説生成が可能で編集支援にも対応。
  • 音読や翻訳など対話型シーンにも強く、実用的な具身知能へ進化。
  • 多モーダル統合体験アプリ「商量APP」の内測を開始。
本文

SenseTime(商湯科技)は、4月10日にマルチモーダルAIモデル「日日新 SenseNova V6」を発表した。今回のバージョンでは、複数の情報形式を統合して長期的に思考する「マルチモーダル長期推論」や、全体文脈を保持しながら推論を行う「全体記憶」機構、さらに強化学習の導入により、従来モデルを凌駕するマルチモーダル推論性能を実現した。


特に注目されるのは、日常業務へのAI応用例である。たとえば、医療保険の請求処理では、従来は数日を要した複雑な文書確認作業が、V6モデルでは1分で完了する。診断名と処方記録の照合、医薬品の適正確認、過剰医療の検出など、すべてをマルチモーダルな文脈理解と推論でカバーできる。


技術的には、2000億件を超える高品質な訓練データを用い、最大64Kトークンに及ぶ長時間思考が可能。この長期推論能力と複数モダリティ対応が一体となり、従来のAIを超える実用性が生まれている。


動画解析においても「SenseNova V6」は大きな飛躍を見せる。10分のゲーム映像を全フレーム処理し、重要場面を自動で抽出。映像・音声・字幕・時間軸を統一的に処理し、圧縮後も意味を保つ多層的な情報統合技術を実現。映像編集やゲームハイライト作成など、コンテンツ制作支援への応用も見込まれる。


さらに、対話機能を強化した「SenseNova V6 Omni」も同時発表。絵本の読み聞かせでは、ユーザーの操作に対して自然な文脈理解を行い、物語の主旨まで掘り下げて語る能力を示した。指差し翻訳では、視線やジェスチャーを通じて情報の局所性と全体性を統合的に判断し、人間らしいインタラクションが可能となっている。


最後に、SenseTimeは「日日新 V6」の機能をすべて統合したマルチモーダル対話アプリ「商量APP」を発表。文字・画像・動画を横断してやり取りできるオールインワンプラットフォームとして内測を開始した。オフィス向けには「小浣熊」シリーズも提供し、業務での導入も進めている。