🧵[1/8] Estamos muito animados para compartilhar nosso artigo de destaque na NeurIPS 2025: "A vinculação de objetos emerge naturalmente em grandes transformadores de visão pré-treinados?" ✨ Para contribuir com a discussão mais ampla sobre a integração de dados em redes neurais, questionamos se e como os Vision Transformers realizam a integração de objetos (a capacidade de unir as diversas características de um objeto em um todo coerente).💡 📄 Papel:
[2/8] O problema da vinculação tem desafiado pesquisadores há décadas. Se resolvido, permitiria que os modelos raciocinassem de forma eficiente e composicional no nível de entidades ou conceitos. Mas os modelos modernos ainda falham nesse aspecto: por exemplo, modelos de difusão misturam atributos e geram um “gato azul” mesmo quando solicitados a produzir apenas gatos vermelhos e cachorros azuis. 🔴🐈+🔵🐕➡️🔵🐈
[3/8] Testamos se grandes Vision Transformers pré-treinados realizam a vinculação de objetos, investigando a propriedade IsSameObject. Tratamos os patches do ViT como a unidade mínima e, como os patches interagem apenas por meio de atenção aos pares, medimos o quão bem IsSameObject — se dois patches vêm do mesmo objeto — pode ser decodificado a partir das ativações internas (0 = objeto diferente, 1 = mesmo objeto).
[4/8] Abaixo, um trecho da nossa demonstração interativa que visualiza IsSameObject decodificado do DinoV2-Large (experimente em nosso site! 🌐). Mesmo quando o torso e a traseira de um cervo estão separados por outro cervo bloqueando a visão, o modelo ainda une essas partes em um único objeto. 🦌
[5/8] O método de sondagem também nos ajuda a determinar o mecanismo pelo qual os sinais de ligação são codificados e usados: comparamos diferentes arquiteturas de sondagem e descobrimos que a sonda quadrática tem a melhor decodificabilidade IsSameObject, superando as sondas lineares. Isso indica que a ligação depende de interações quadráticas entre embeddings de patches, o que corresponde às interações quadráticas realizadas pela própria autoatenção. 🔬
[6/8] A sonda quadrática assume a forma φ_quad(x, y) = x^TW^TW y. Isso consiste essencialmente em projetar embeddings de patches em um novo espaço com W e comparar a similaridade entre esses embeddings projetados. Para validar se existe um subespaço de ligação genuíno distinto apenas das características de aparência, testamos em objetos cujas características visuais são idênticas e mostramos que os clusters resultantes são linearmente separáveis. 🚗
[7/8] Por que isso importa: Esperamos que nosso trabalho traga mais atenção à vinculação e incentive trabalhos futuros para abordar as falhas de vinculação. Nossos resultados sugerem que a vinculação de objetos pode não depender da arquitetura, mas sim do objetivo do treinamento, apontando para alternativas mais sutis à Atenção por Slots. Também vale a pena notar que o conhecimento simbólico sobre "quais partes pertencem juntas" pode emergir naturalmente em sistemas conexionistas. 🤔
[8/8] Links 📄 Artigopenreview.net/pdf?id=5BS6gBb…4lx 💻 Cgithub.com/liyihao0302/vi…UX8JgNy 🌐 yihaoli.org/vit-object-bin…czmZTP Um enorme agradecimento ao meu coautor @ssn_io e aos meus incríveis orientadores @LyleUngar e @KordingLab. Este foi o meu projeto de doutorado do primeiro ano e, embora não tenha sido perfeito, aprendi muito e cresci bastante com ele ❤️
![🧵[1/8]
Estamos muito animados para compartilhar nosso artigo de destaque na NeurIPS 2025: "A vinculação de objetos eme](https://pbs.twimg.com/media/G7DcpP_XAAAJnTL.jpg)
![[2/8] O problema da vinculação tem desafiado pesquisadores há décadas. Se resolvido, permitiria que os modelos raciocina](https://pbs.twimg.com/media/G7Dc2hPWoAA6QJ3.jpg)
![[3/8] Testamos se grandes Vision Transformers pré-treinados realizam a vinculação de objetos, investigando a propriedade](https://pbs.twimg.com/media/G7DdC0YXAAAhLgX.jpg)
![[4/8] Abaixo, um trecho da nossa demonstração interativa que visualiza IsSameObject decodificado do DinoV2-Large (experi](https://pbs.twimg.com/media/G7DdxxiWUAAt4Pu.jpg)
![[5/8] O método de sondagem também nos ajuda a determinar o mecanismo pelo qual os sinais de ligação são codificados e us](https://pbs.twimg.com/media/G7Dd-30XUAAEzHl.jpg)
![[6/8] A sonda quadrática assume a forma φ_quad(x, y) = x^TW^TW y. Isso consiste essencialmente em projetar embeddings de](https://pbs.twimg.com/media/G7DeO34WsAA4An9.jpg)