🧵[1/8] 很高兴与大家分享我们的 NeurIPS 2025 Spotlight 论文“大型预训练视觉 Transformer 模型中对象绑定是否会自然出现?” ✨ 为了进一步探讨神经网络中的绑定问题,我们提出以下问题:Vision Transformer 是否以及如何执行对象绑定(即将对象的众多特征整合为一个连贯的整体的能力)。💡 📄 纸张:
[2/8] 绑定问题几十年来一直困扰着研究人员。如果能够解决,模型就能在实体或概念层面上高效且组合地进行推理。但现代模型在这方面仍然存在缺陷:例如,扩散模型会混淆属性,即使被要求只生成红色猫和蓝色狗,也会生成“蓝色猫”。🔴🐈+🔵🐕➡️🔵🐈
[3/8] 我们通过探测 IsSameObject 来测试大型预训练 Vision Transformer 是否能执行对象绑定。我们将 ViT 图像块视为最小单元,并且由于图像块之间仅通过成对注意力进行交互,我们衡量 IsSameObject(两个图像块是否来自同一对象)能否从内部激活中解码出来(0 = 不同对象,1 = 同一对象)。
[4/8] 以下是我们交互式演示的片段,展示了从 DinoV2-Large 模型解码的 IsSameObject 函数(欢迎访问我们的网站体验!🌐)。即使一只鹿的躯干和臀部被另一只鹿挡住视线,模型仍然会将这些部分绑定到一个对象中。🦌
[5/8] 这种探测方法还有助于我们确定绑定信号的编码和使用机制:我们比较了不同的探测架构,发现二次探测的 IsSameObject 可解码性最佳,优于线性探测。这表明绑定依赖于图像块嵌入之间的二次交互,这与自注意力机制本身执行的二次交互相吻合。🔬
[6/8] 二次探测的形式为 φ_quad(x, y) = x^TW^TW y。这本质上是将图像块嵌入投影到以 W 为中心构建的新空间,并比较这些投影嵌入之间的相似性。为了验证是否存在一个与仅具有外观特征不同的真正绑定子空间,我们对视觉特征完全相同的对象进行测试,结果表明所得聚类是线性可分的。🚗
[7/8] 重要性:我们希望这项工作能引起更多人对绑定机制的关注,并鼓励未来的研究致力于解决绑定失败的问题。我们的结果表明,对象绑定可能并不依赖于架构,而是依赖于训练目标,这为槽注意力机制提供了更为巧妙的替代方案。此外,值得注意的是,关于“哪些部分属于同一组”的符号知识可以在连接主义系统中自然涌现。🤔
[8/8] 链接 📄论文链接:httpsopenreview.net/pdf?id=5BS6gBb…代码:https:github.com/liyihao0302/vi…站:https://t.yihaoli.org/vit-object-bin… @ssn_io 和两位出色的导师 @LyleUngar 和 @KordingLab。这是我博士第一年的项目,虽然它并不完美,但我从中受益匪浅,也成长了很多 ❤️
![🧵[1/8]
很高兴与大家分享我们的 NeurIPS 2025 Spotlight 论文“大型预训练视觉 Transformer 模型中对象绑定是否会自然出现?” ✨
为了进一步探讨神经网络中的绑定问题,我们提出以下问题:Vision](https://pbs.twimg.com/media/G7DcpP_XAAAJnTL.jpg)
![[2/8] 绑定问题几十年来一直困扰着研究人员。如果能够解决,模型就能在实体或概念层面上高效且组合地进行推理。但现代模型在这方面仍然存在缺陷:例如,扩散模型会混淆属性,即使被要求只生成红色猫和蓝色狗,也会生成“蓝色猫”。🔴🐈+🔵🐕➡](https://pbs.twimg.com/media/G7Dc2hPWoAA6QJ3.jpg)
![[3/8] 我们通过探测 IsSameObject 来测试大型预训练 Vision Transformer 是否能执行对象绑定。我们将 ViT 图像块视为最小单元,并且由于图像块之间仅通过成对注意力进行交互,我们衡量 IsSameObjec](https://pbs.twimg.com/media/G7DdC0YXAAAhLgX.jpg)
![[4/8] 以下是我们交互式演示的片段,展示了从 DinoV2-Large 模型解码的 IsSameObject 函数(欢迎访问我们的网站体验!🌐)。即使一只鹿的躯干和臀部被另一只鹿挡住视线,模型仍然会将这些部分绑定到一个对象中。🦌](https://pbs.twimg.com/media/G7DdxxiWUAAt4Pu.jpg)
![[5/8] 这种探测方法还有助于我们确定绑定信号的编码和使用机制:我们比较了不同的探测架构,发现二次探测的 IsSameObject 可解码性最佳,优于线性探测。这表明绑定依赖于图像块嵌入之间的二次交互,这与自注意力机制本身执行的二次交互相](https://pbs.twimg.com/media/G7Dd-30XUAAEzHl.jpg)
![[6/8] 二次探测的形式为 φ_quad(x, y) = x^TW^TW y。这本质上是将图像块嵌入投影到以 W 为中心构建的新空间,并比较这些投影嵌入之间的相似性。为了验证是否存在一个与仅具有外观特征不同的真正绑定子空间,我们对视觉特征](https://pbs.twimg.com/media/G7DeO34WsAA4An9.jpg)