🧵[1/8] Nous sommes ravis de partager notre article phare de NeurIPS 2025 intitulé « L'émergence naturelle de la liaison d'objets dans les grands transformateurs de vision pré-entraînés ? » ✨ Pour enrichir le débat plus large sur la liaison dans les réseaux neuronaux, nous nous demandons si et comment les Vision Transformers réalisent la liaison d'objets (la capacité à lier les nombreuses caractéristiques d'un objet en un tout cohérent).💡 📄 Papier :
[2/8] Le problème de la liaison représente un défi pour les chercheurs depuis des décennies. Sa résolution permettrait aux modèles de raisonner efficacement et de manière compositionnelle au niveau des entités ou des concepts. Or, les modèles modernes échouent encore sur ce point : par exemple, les modèles de diffusion mélangent les attributs et génèrent un « chat bleu » même lorsqu’on leur demande de ne produire que des chats rouges et des chiens bleus. 🔴🐈+🔵🐕➡️🔵🐈
[3/8] Nous testons si les grands Vision Transformers pré-entraînés effectuent la liaison d'objets en sondant la présence d'objets identiques. Nous traitons les patchs ViT comme l'unité minimale, et comme les patchs interagissent uniquement par le biais d'une attention par paires, nous mesurons dans quelle mesure la présence d'objets identiques — deux patchs provenant-ils du même objet — peut être décodée à partir des activations internes (0 = objet différent, 1 = même objet).
[4/8] Voici un extrait de notre démo interactive visualisant la fonction IsSameObject décodée à partir de DinoV2-Large (essayez-la sur notre site web ! 🌐). Même lorsque le torse et l’arrière-train d’un cerf sont séparés par un autre cerf qui bloque la vue, le modèle parvient à fusionner ces zones en un seul objet. 🦌
[5/8] La méthode de sondage nous aide également à déterminer le mécanisme d'encodage et d'utilisation des signaux de liaison : nous comparons différentes architectures de sondes et constatons que la sonde quadratique présente la meilleure décodabilité IsSameObject, surpassant les sondes linéaires. Ceci indique que la liaison repose sur des interactions quadratiques entre les plongements de patchs, ce qui correspond aux interactions quadratiques mises en œuvre par l'auto-attention elle-même. 🔬
[6/8] La sonde quadratique prend la forme φ_quad(x, y) = x^TW^TW y. Elle consiste essentiellement à projeter les plongements de patchs dans un nouvel espace avec W et à comparer la similarité entre ces plongements projetés. Pour vérifier l'existence d'un véritable sous-espace de liaison distinct des seules caractéristiques d'apparence, nous effectuons des tests sur des objets dont les caractéristiques visuelles sont identiques et montrons que les clusters résultants sont linéairement séparables. 🚗
[7/8] Importance : Nous espérons que nos travaux mettront en lumière la question de la liaison d’objets et encourageront les recherches futures à résoudre les problèmes de liaison. Nos résultats suggèrent que la liaison d’objets pourrait ne pas dépendre de l’architecture, mais plutôt de l’objectif d’apprentissage, ouvrant ainsi la voie à des alternatives plus subtiles à l’attention par slots. Il est également intéressant de noter que des connaissances symboliques sur les liens entre les différentes parties peuvent émerger naturellement dans les systèmes connexionnistes. 🤔
[8/8] Liens 📄 Documopenreview.net/pdf?id=5BS6gBb…9Fm4lx �github.com/liyihao0302/vi…hEUX8JgNy �yihaoli.org/vit-object-bin…co/4nVZczmZTP Un immense merci à ma co-auteure @ssn_io et à mes formidables directeurs de thèse @LyleUngar et @KordingLab. C'était mon projet de doctorat de première année, et même s'il n'était pas parfait, j'ai énormément appris et progressé grâce à lui ❤️
![🧵[1/8]
Nous sommes ravis de partager notre article phare de NeurIPS 2025 intitulé « L'émergence naturelle de la liaiso](https://pbs.twimg.com/media/G7DcpP_XAAAJnTL.jpg)
![[2/8] Le problème de la liaison représente un défi pour les chercheurs depuis des décennies. Sa résolution permettrait a](https://pbs.twimg.com/media/G7Dc2hPWoAA6QJ3.jpg)
![[3/8] Nous testons si les grands Vision Transformers pré-entraînés effectuent la liaison d'objets en sondant la présence](https://pbs.twimg.com/media/G7DdC0YXAAAhLgX.jpg)
![[4/8] Voici un extrait de notre démo interactive visualisant la fonction IsSameObject décodée à partir de DinoV2-Large (](https://pbs.twimg.com/media/G7DdxxiWUAAt4Pu.jpg)
![[5/8] La méthode de sondage nous aide également à déterminer le mécanisme d'encodage et d'utilisation des signaux de lia](https://pbs.twimg.com/media/G7Dd-30XUAAEzHl.jpg)
![[6/8] La sonde quadratique prend la forme φ_quad(x, y) = x^TW^TW y. Elle consiste essentiellement à projeter les plongem](https://pbs.twimg.com/media/G7DeO34WsAA4An9.jpg)