強,Yann LeCun、李飛飛、謝賽寧聯手發布了最新多模態模型: Cambrian-S,讓多模態智能具備空間超感知能力 多模態大模型雖然在圖像和語言任務上表現強勁,但在視頻理解,尤其是空間感知方面仍存在明顯短板,模型只是看懂了一點畫面,還遠遠沒有“理解空間”和“記住發生了什麼” 而真正的多模態智能不應只停留在看圖說話的語意感知層面,應具備空間超感知能力 為此,他們共同提出了一個新目標、一個新基準、一個新模型、一個新的學習範式 1、新基準:VSI-SUPER,包含兩個任務 VSR,要求模型在任意長度的影片中記住並回憶異常物體的空間位置與出現順序 VSC,要求模型在多個房間、多個視角下持續計數目標物體,支援流式問答 這兩個任務都無法透過簡單擴大情境視窗或暴力採樣解決,需要模型具備真正的空間理解與記憶機制 2、Cambrian-S 在VSI-Bench上得分67.5%,Gemini-2.5-Pro為51.5%, 在多個影像/視訊基準上表現優異 但在VSI-SUPER上表現仍不佳,顯示僅靠資料擴展無法突破空間感知的瓶頸 3.新的學習範式:Predictive Sensing 目的是讓模型不僅“看見”,還要“預測”和“組織”感知經驗,主要是透過預測誤差驅動記憶與事件理解 實驗表明,這種方法在VSI-SUPER上顯著優於Gemini-2.5 等商業模型,在超長影片(120分鐘)上仍能保持穩定性能 #CambrianS #空間智能
github:github.com/cambrian-mllm/…
