🧵[1/8] ¡Nos entusiasma compartir nuestro artículo destacado de NeurIPS 2025: "¿La unión de objetos surge naturalmente en grandes transformadores de visión preentrenados?"! ✨ Para contribuir a la discusión más amplia sobre la vinculación en redes neuronales, preguntamos si los transformadores de visión realizan la vinculación de objetos (la capacidad de unir las muchas características de un objeto como un todo coherente) y de qué manera. 📄 Papel:
[2/8] El problema de la vinculación ha sido un desafío para los investigadores durante décadas. De resolverse, permitiría a los modelos razonar de forma eficiente y compositiva a nivel de entidades o conceptos. Sin embargo, los modelos modernos aún fallan en este aspecto: por ejemplo, los modelos de difusión mezclan atributos y generan un "gato azul" incluso cuando se les pide que produzcan solo gatos rojos y perros azules. 🔴🐈+🔵🐕➡️🔵🐈
[3/8] Comprobamos si los Transformadores de Visión preentrenados de gran tamaño realizan la vinculación de objetos mediante la búsqueda de IsSameObject. Consideramos los parches ViT como la unidad mínima y, dado que interactúan únicamente mediante la atención por pares, medimos la eficacia de la decodificación de IsSameObject (si dos parches provienen del mismo objeto) a partir de las activaciones internas (0 = objeto diferente, 1 = mismo objeto).
[4/8] A continuación, se muestra un fragmento de nuestra demostración interactiva que visualiza IsSameObject decodificado de DinoV2-Large (¡pruébalo en nuestro sitio web! 🌐). Incluso cuando el torso y el trasero de un ciervo están separados por otro ciervo que bloquea la vista, el modelo aún une esas partes en un solo objeto. 🦌
[5/8] El método de sondeo también nos ayuda a determinar el mecanismo mediante el cual se codifican y utilizan las señales de enlace: comparamos diferentes arquitecturas de sonda y descubrimos que la sonda cuadrática ofrece la mejor decodificación de IsSameObject, superando a las sondas lineales. Esto indica que el enlace se basa en interacciones cuadráticas entre incrustaciones de parches, lo que coincide con las interacciones cuadráticas realizadas por la propia autoatención. 🔬
[6/8] La sonda cuadrática adopta la forma φ_quad(x, y) = x^TW^TW y. Esto consiste esencialmente en proyectar incrustaciones de parches en un nuevo espacio con W y comparar la similitud entre dichas incrustaciones proyectadas. Para validar la existencia de un subespacio de unión genuino, distinto de las características de apariencia únicamente, realizamos pruebas con objetos cuyas características visuales son idénticas y demostramos que los grupos resultantes son linealmente separables. 🚗
[7/8] Por qué es importante: Esperamos que nuestro trabajo atraiga más atención a la vinculación y fomente futuras investigaciones para abordar sus fallos. Nuestros resultados sugieren que la vinculación de objetos podría no depender de la arquitectura, sino del objetivo de entrenamiento, lo que sugiere alternativas más sutiles a la Atención de Ranura. También cabe destacar que el conocimiento simbólico sobre qué partes pertenecen juntas puede surgir de forma natural en sistemas conexionistas. 🤔
[8/8] Enlaces 📄 Artopenreview.net/pdf?id=5BS6gBb…z9Fm4lx github.com/liyihao0302/vi…/ZhEUX8JgNy yihaoli.org/vit-object-bin…t.co/4nVZczmZTP Muchísimas gracias a mi coautor @ssn_io y a mis increíbles asesores @LyleUngar @KordingLab. Este fue mi proyecto de doctorado de primer año y, aunque no fue perfecto, aprendí muchísimo y crecí muchísimo gracias a él ❤️
![🧵[1/8]
¡Nos entusiasma compartir nuestro artículo destacado de NeurIPS 2025: "¿La unión de objetos surge naturalmente](https://pbs.twimg.com/media/G7DcpP_XAAAJnTL.jpg)
![[2/8] El problema de la vinculación ha sido un desafío para los investigadores durante décadas. De resolverse, permitirí](https://pbs.twimg.com/media/G7Dc2hPWoAA6QJ3.jpg)
![[3/8] Comprobamos si los Transformadores de Visión preentrenados de gran tamaño realizan la vinculación de objetos media](https://pbs.twimg.com/media/G7DdC0YXAAAhLgX.jpg)
![[4/8] A continuación, se muestra un fragmento de nuestra demostración interactiva que visualiza IsSameObject decodificad](https://pbs.twimg.com/media/G7DdxxiWUAAt4Pu.jpg)
![[5/8] El método de sondeo también nos ayuda a determinar el mecanismo mediante el cual se codifican y utilizan las señal](https://pbs.twimg.com/media/G7Dd-30XUAAEzHl.jpg)
![[6/8] La sonda cuadrática adopta la forma φ_quad(x, y) = x^TW^TW y. Esto consiste esencialmente en proyectar incrustacio](https://pbs.twimg.com/media/G7DeO34WsAA4An9.jpg)