強力なニュース: Yann LeCun、Fei-Fei Li、Sai-Ning Xie が共同で最新のマルチモーダル モデル Cambrian-S をリリースしました。これにより、マルチモーダル インテリジェンスが空間超知覚機能を備えるようになります。 マルチモーダルな大規模モデルは画像と言語のタスクでは優れたパフォーマンスを発揮しますが、ビデオ理解、特に空間認識においては依然として大きな欠陥があります。これらのモデルは画像の一部しか理解できず、「空間を理解する」ことや「何が起こったかを記憶する」ことには程遠い状態です。 真のマルチモーダルインテリジェンスは、画像や説明の意味的認識に限定されるべきではなく、空間的超感覚的認識能力も備えている必要があります。 この目的のために、彼らは共同で新しい目標、新しいベンチマーク、新しいモデル、新しい学習パラダイムを提案しました。 1. 新しいベンチマーク:VSI-SUPER(2つのタスクを含む) VSR では、任意の長さのビデオ内の異常オブジェクトの空間的な位置と発生順序をモデルが記憶し、思い出す必要があります。 VSC では、モデルが複数の部屋や視点にわたってターゲット オブジェクトを継続的にカウントする必要があり、ストリーミングによる質問応答をサポートします。 これらのタスクはどちらも、単にコンテキスト ウィンドウを拡大したり、ブルート フォース サンプリングを行ったりするだけでは解決できません。モデルには、真の空間理解とメモリ メカニズムが必要です。 2. カンブリアン-S VSI-Bench でのスコアは 67.5% で、Gemini-2.5-Pro のスコアは 51.5% でした。 複数の画像/ビデオベンチマークで優れたパフォーマンス しかし、VSI-SUPER でのパフォーマンスは依然として低く、データ拡張だけでは空間認識のボトルネックを克服できないことを示しています。 3. 新しい学習パラダイム:予測センシング 目標は、主に予測エラーを通じて記憶とイベントの理解を促進することで、モデルが「見る」だけでなく、知覚された経験を「予測」および「整理」できるようにすることです。 実験では、この手法は VSI-SUPER 上の Gemini-2.5 などの商用モデルを大幅に上回り、非常に長いビデオ (120 分) でも安定したパフォーマンスを維持することが示されています。 #カンブリアンS #空間知能
ギットハブ: github.com/cambrian-mllm/…
