🧵[1/8] NeurIPS 2025 스포트라이트 논문 "대규모 사전 훈련된 비전 변환기에서 객체 바인딩이 자연스럽게 나타나는가?"를 공유하게 되어 기쁩니다. ✨ 신경망의 바인딩에 대한 더 광범위한 논의에 덧붙여, Vision Transformers가 객체 바인딩(객체의 여러 기능을 일관된 전체로 연결하는 기능)을 수행하는지 여부와 그 방법을 묻습니다.💡 📄 종이:
[2/8] 결합 문제는 수십 년 동안 연구자들에게 난제였습니다. 이 문제가 해결된다면, 모델은 개체 또는 개념 수준에서 효율적이고 구성적으로 추론할 수 있을 것입니다. 하지만 현대 모델은 여전히 이 부분에서 실패합니다. 예를 들어, 확산 모델은 속성을 혼합하여 빨간 고양이와 파란 개만 생성하도록 요청했을 때에도 "파란 고양이"를 생성합니다. 🔴🐈+🔵🐕➡️🔵🐈
[3/8] 사전 학습된 대규모 비전 트랜스포머가 IsSameObject를 탐색하여 객체 바인딩을 수행하는지 테스트합니다. ViT 패치를 최소 단위로 취급하며, 패치는 쌍별 어텐션을 통해서만 상호 작용하기 때문에, 두 패치가 동일한 객체에서 유래했는지 여부(IsSameObject)를 내부 활성화(0 = 다른 객체, 1 = 동일한 객체)로부터 얼마나 잘 디코딩할 수 있는지 측정합니다.
[4/8] 아래는 DinoV2-Large에서 디코딩된 IsSameObject를 시각화하는 대화형 데모의 일부입니다(웹사이트에서 직접 확인해 보세요! 🌐). 사슴의 몸통과 엉덩이가 다른 사슴에 의해 시야가 가려져 있더라도, 모델은 여전히 두 부분을 하나의 객체로 연결합니다. 🦌
[5/8] 프로빙 방법은 바인딩 신호가 인코딩되고 사용되는 메커니즘을 파악하는 데에도 도움이 됩니다. 다양한 프로브 아키텍처를 비교한 결과, 이차 프로브가 IsSameObject 디코딩 성능이 가장 뛰어나 선형 프로브보다 우수함을 확인했습니다. 이는 바인딩이 패치 임베딩 간의 이차 상호작용에 의존함을 나타내며, 이는 셀프 어텐션 자체에서 수행되는 이차 상호작용과 일치합니다. 🔬
[6/8] 이차 탐침은 φ_quad(x, y) = x^TW^TW y 형태를 취합니다. 이는 본질적으로 패치 임베딩을 W를 갖는 새로운 공간으로 투영하고 투영된 임베딩 간의 유사도를 비교하는 것입니다. 외형 특징만으로는 구별되는 진정한 결합 부분 공간이 존재하는지 검증하기 위해, 시각적 특징이 동일한 객체에 대해 검정하고 결과 클러스터가 선형적으로 분리 가능함을 보입니다. 🚗
[7/8] 중요 이유: 본 연구가 바인딩에 더 많은 관심을 불러일으키고 바인딩 실패 문제를 해결하기 위한 향후 연구를 장려하기를 바랍니다. 연구 결과는 객체 바인딩이 아키텍처가 아닌 학습 목표에 의존할 수 있음을 시사하며, 이는 슬롯 어텐션에 대한 더욱 미묘한 대안을 제시합니다. 또한, "어떤 부분이 서로 속하는지"에 대한 상징적 지식이 연결주의 시스템에서 자연스럽게 나타날 수 있다는 점도 주목할 만합니다. 🤔
[8/8] 링크 📄 논문: httpopenreview.net/pdf?id=5BS6gBb… 코드: httpgithub.com/liyihao0302/vi… 웹사이트: httpsyihaoli.org/vit-object-bin…저자 @ssn_io 님과 훌륭한 지도 교수 @LyleUngar @KordingLab 님께 진심으로 감사드립니다. 이 프로젝트는 제 1학년 박사 과정 프로젝트였는데, 완벽하지는 않았지만 정말 많은 것을 배우고 성장할 수 있었습니다 ❤️
![🧵[1/8]
NeurIPS 2025 스포트라이트 논문 "대규모 사전 훈련된 비전 변환기에서 객체 바인딩이 자연스럽게 나타나는가?"를 공유하게 되어 기쁩니다. ✨
신경망의 바인딩에 대한 더 광범위한 논의에 덧붙](https://pbs.twimg.com/media/G7DcpP_XAAAJnTL.jpg)
![[2/8] 결합 문제는 수십 년 동안 연구자들에게 난제였습니다. 이 문제가 해결된다면, 모델은 개체 또는 개념 수준에서 효율적이고 구성적으로 추론할 수 있을 것입니다. 하지만 현대 모델은 여전히 이 부분에서 실패](https://pbs.twimg.com/media/G7Dc2hPWoAA6QJ3.jpg)
![[3/8] 사전 학습된 대규모 비전 트랜스포머가 IsSameObject를 탐색하여 객체 바인딩을 수행하는지 테스트합니다. ViT 패치를 최소 단위로 취급하며, 패치는 쌍별 어텐션을 통해서만 상호 작용하기 때문에, 두](https://pbs.twimg.com/media/G7DdC0YXAAAhLgX.jpg)
![[4/8] 아래는 DinoV2-Large에서 디코딩된 IsSameObject를 시각화하는 대화형 데모의 일부입니다(웹사이트에서 직접 확인해 보세요! 🌐). 사슴의 몸통과 엉덩이가 다른 사슴에 의해 시야가 가려져 있](https://pbs.twimg.com/media/G7DdxxiWUAAt4Pu.jpg)
![[5/8] 프로빙 방법은 바인딩 신호가 인코딩되고 사용되는 메커니즘을 파악하는 데에도 도움이 됩니다. 다양한 프로브 아키텍처를 비교한 결과, 이차 프로브가 IsSameObject 디코딩 성능이 가장 뛰어나 선형 프로](https://pbs.twimg.com/media/G7Dd-30XUAAEzHl.jpg)
![[6/8] 이차 탐침은 φ_quad(x, y) = x^TW^TW y 형태를 취합니다. 이는 본질적으로 패치 임베딩을 W를 갖는 새로운 공간으로 투영하고 투영된 임베딩 간의 유사도를 비교하는 것입니다. 외형 특징만](https://pbs.twimg.com/media/G7DeO34WsAA4An9.jpg)