🧵[1/8] 很高興與大家分享我們的 NeurIPS 2025 Spotlight 論文 “大型預訓練視覺 Transformer 模型中物件綁定是否會自然出現?” ✨ 為了進一步探討神經網路中的綁定問題,我們提出以下問題:Vision Transformer 是否以及如何執行物件綁定(即將物件的眾多特徵整合為一個連貫的整體的能力)。 💡 📄 紙張:
[2/8] 綁定問題幾十年來一直困擾著研究人員。如果能夠解決,模型就能在實體或概念層面上有效率且組合地進行推理。但現代模型在這方面仍然存在缺陷:例如,擴散模型會混淆屬性,即使被要求只生成紅色貓和藍色狗,也會產生「藍色貓」。 🔴🐈+🔵🐕➡️🔵🐈
[3/8] 我們透過偵測 IsSameObject 來測試大型預訓練 Vision Transformer 是否能執行物件綁定。我們將 ViT 圖像塊視為最小單元,並且由於圖像塊之間僅通過成對注意力進行交互,我們衡量 IsSameObject(兩個圖像塊是否來自同一對象)能否從內部激活中解碼出來(0 = 不同對象,1 = 同一對象)。
[4/8] 以下是我們互動式示範的片段,展示了從 DinoV2-Large 模型解碼的 IsSameObject 函數(歡迎造訪我們的網站體驗!🌐)。即使一隻鹿的軀幹和臀部被另一隻鹿擋住視線,模型仍然會將這些部分綁定到一個物體。 🦌
[5/8] 這種探測方法也有助於我們確定綁定訊號的編碼和使用機制:我們比較了不同的探測架構,發現二次探測的 IsSameObject 可解碼性最佳,優於線性探測。這表明綁定依賴於圖像塊嵌入之間的二次交互,這與自註意力機製本身執行的二次交互相吻合。 🔬
[6/8] 二次探測的形式為 φ_quad(x, y) = x^TW^TW y。這本質上是將影像區塊嵌入投影到 W 空間,並比較這些投影嵌入之間的相似性。為了驗證是否存在一個與外觀特徵不同的真正綁定子空間,我們對視覺特徵完全相同的物件進行測試,結果顯示所得的聚類是線性可分的。 🚗
[7/8] 重要性:我們希望這項工作能引起更多人對綁定機制的關注,並鼓勵未來的研究致力於解決綁定失敗的問題。我們的結果表明,物件綁定可能並不依賴架構,而是依賴訓練目標,這為槽注意力機制提供了更巧妙的替代方案。此外,值得注意的是,關於「哪些部分屬於同一組」的符號知識可以在連結主義系統中自然湧現。 🤔
[8/8] 鏈接 📄論文連結:httpsopenreview.net/pdf?id=5BS6gBb…代碼:https:github.com/liyihao0302/vi…址:https://t.yihaoli.org/vit-object-bin… @ssn_io 和兩位出色的導師 @LyleUngar 和 @KordingLab。這是我博士第一年的項目,雖然它並不完美,但我從中受益匪淺,也成長了很多 ❤️
![🧵[1/8]
很高興與大家分享我們的 NeurIPS 2025 Spotlight 論文 “大型預訓練視覺 Transformer 模型中物件綁定是否會自然出現?” ✨
為了進一步探討神經網路中的綁定問題,我們提出以下問題:Vision](https://pbs.twimg.com/media/G7DcpP_XAAAJnTL.jpg)
![[2/8] 綁定問題幾十年來一直困擾著研究人員。如果能夠解決,模型就能在實體或概念層面上有效率且組合地進行推理。但現代模型在這方面仍然存在缺陷:例如,擴散模型會混淆屬性,即使被要求只生成紅色貓和藍色狗,也會產生「藍色貓」。 🔴🐈+🔵�](https://pbs.twimg.com/media/G7Dc2hPWoAA6QJ3.jpg)
![[3/8] 我們透過偵測 IsSameObject 來測試大型預訓練 Vision Transformer 是否能執行物件綁定。我們將 ViT 圖像塊視為最小單元,並且由於圖像塊之間僅通過成對注意力進行交互,我們衡量 IsSameObjec](https://pbs.twimg.com/media/G7DdC0YXAAAhLgX.jpg)
![[4/8] 以下是我們互動式示範的片段,展示了從 DinoV2-Large 模型解碼的 IsSameObject 函數(歡迎造訪我們的網站體驗!🌐)。即使一隻鹿的軀幹和臀部被另一隻鹿擋住視線,模型仍然會將這些部分綁定到一個物體。 🦌](https://pbs.twimg.com/media/G7DdxxiWUAAt4Pu.jpg)
![[5/8] 這種探測方法也有助於我們確定綁定訊號的編碼和使用機制:我們比較了不同的探測架構,發現二次探測的 IsSameObject 可解碼性最佳,優於線性探測。這表明綁定依賴於圖像塊嵌入之間的二次交互,這與自註意力機製本身執行的二次交互相](https://pbs.twimg.com/media/G7Dd-30XUAAEzHl.jpg)
![[6/8] 二次探測的形式為 φ_quad(x, y) = x^TW^TW y。這本質上是將影像區塊嵌入投影到 W 空間,並比較這些投影嵌入之間的相似性。為了驗證是否存在一個與外觀特徵不同的真正綁定子空間,我們對視覺特徵完全相同的物件進行測](https://pbs.twimg.com/media/G7DeO34WsAA4An9.jpg)