DeepSeek は、統合型マルチモーダル理解・生成モデル「Janus-Pro」を正式に発表した。本モデルは、従来の「Janus」からさらに進化し、最適化されたトレーニング手法、拡張されたデータセット、より大規模なモデルサイズへのスケーリングを特徴としている。
Janus-Pro は、テキストと画像の統合的な理解と生成を強化し、特定タスクに特化したモデルと同等以上のパフォーマンスを達成。特に、テキストから画像を生成する際の精度と安定性が大幅に向上している。従来のマルチモーダルモデルが直面していた、視覚エンコーダの役割衝突の問題を解決するため、Janus-Pro では視覚情報の処理を分離したアーキテクチャを採用。この手法により、視覚認識と生成の両タスクにおいて一貫した性能を発揮する。
また、JanusFlow という派生技術では、「整流フロー(Rectified Flow)」を組み込むことで、既存の自己回帰型モデルと比べ、より効率的な生成が可能になった。この技術は、大規模言語モデルのフレームワーク内で自然にトレーニングできるため、複雑なアーキテクチャ変更を必要としない点も大きな利点である。
現在、Janus-Pro はオープンソースとして提供されており、研究者や企業が利用可能。Hugging Face からのダウンロードや、オンラインデモを通じた体験も可能である。今後の展開として、さらなるモデルの拡張や、より高度なタスクへの適用が期待される。
DeepSeek の Janus-Pro は、次世代の統合型マルチモーダルモデルとして、AIの応用範囲を広げる重要なステップとなるだろう。