🧵[1/8] NeurIPS 2025 スポットライト論文「大規模な事前学習済みビジョントランスフォーマーでオブジェクトバインディングは自然に出現するのか?」を皆さんにご紹介できることを嬉しく思います ✨ ニューラル ネットワークにおけるバインディングに関するより広範な議論に追加して、Vision Transformers がオブジェクト バインディング (オブジェクトの多くの機能を首尾一貫した全体としてバインディングする機能) を実行するかどうか、またどのように実行するかを尋ねます。💡 📄 論文:
[2/8] 束縛問題は数十年にわたり研究者を悩ませてきました。もし解決されれば、モデルは実体や概念レベルで効率的かつ構成的に推論できるようになります。しかし、現代のモデルは依然としてこの問題に対処できていません。例えば、拡散モデルは赤い猫と青い犬だけを生成するように指示されているにもかかわらず、属性を混ぜ合わせて「青い猫」を生成してしまうのです。🔴🐈+🔵🐕➡️🔵🐈
[3/8] 大規模な事前学習済みVision TransformerがIsSameObjectを探索することで物体結合を行えるかどうかをテストします。ViTパッチを最小単位として扱い、パッチ間の相互作用はペアワイズアテンションのみであるため、内部活性化からIsSameObject(2つのパッチが同じ物体に由来するかどうか)をどの程度正確にデコードできるかを測定します(0 = 異なる物体、1 = 同じ物体)。
[4/8] 以下は、DinoV2-Large からデコードした IsSameObject を視覚化したインタラクティブデモの一部です(ウェブサイトでお試しください!🌐)。鹿の胴体と尻が別の鹿に遮られて視界が遮られている場合でも、モデルはそれらの部分を単一のオブジェクトに結合します。🦌
[5/8] プローブ法は、バインディングシグナルがどのように符号化され、使用されるかというメカニズムの解明にも役立ちます。様々なプローブアーキテクチャを比較した結果、二次プローブがIsSameObjectのデコード可能性において最も優れており、線形プローブよりも優れていることがわかりました。これは、バインディングがパッチ埋め込み間の二次相互作用に依存していることを示しており、これは自己注意自体によって実行される二次相互作用と一致しています。🔬
[6/8] 二次プローブは φ_quad(x, y) = x^TW^TW y の形をとります。これは本質的に、パッチ埋め込みを W を持つ新しい空間に射影し、それらの射影された埋め込み間の類似性を比較するものです。外観特徴のみとは異なる真の結合部分空間が存在するかどうかを検証するために、視覚特徴が同一のオブジェクトでテストを行い、結果として得られるクラスターが線形分離可能であることを示します。🚗
[7/8] 重要性:本研究がバインディングへの注目を高め、バインディングの失敗に対処するための将来の研究を促進することを期待しています。私たちの研究結果は、オブジェクトのバインディングがアーキテクチャではなく、学習目標に依存する可能性があることを示唆しており、スロットアテンションよりも巧妙な代替手段を示唆しています。また、「どのパーツが一緒に属しているか」に関する記号的知識がコネクショニストシステムにおいて自然に出現する可能性があることも注目に値します。🤔
[8/8] リンク 📄 論文: httpopenreview.net/pdf?id=5BS6gBb… コード: httgithub.com/liyihao0302/vi…� ウェブサイト: htyihaoli.org/vit-object-bin…著者の@ssn_ioと素晴らしい指導教官の@LyleUngar @KordingLabに心から感謝します。これは私の博士課程1年目のプロジェクトでした。完璧ではありませんでしたが、多くのことを学び、大きく成長することができました❤️
![🧵[1/8]
NeurIPS 2025 スポットライト論文「大規模な事前学習済みビジョントランスフォーマーでオブジェクトバインディングは自然に出現するのか?」を皆さんにご紹介できることを嬉しく思います ✨
ニューラル ネットワークにお](https://pbs.twimg.com/media/G7DcpP_XAAAJnTL.jpg)
![[2/8] 束縛問題は数十年にわたり研究者を悩ませてきました。もし解決されれば、モデルは実体や概念レベルで効率的かつ構成的に推論できるようになります。しかし、現代のモデルは依然としてこの問題に対処できていません。例えば、拡散モデルは赤い猫と](https://pbs.twimg.com/media/G7Dc2hPWoAA6QJ3.jpg)
![[3/8] 大規模な事前学習済みVision TransformerがIsSameObjectを探索することで物体結合を行えるかどうかをテストします。ViTパッチを最小単位として扱い、パッチ間の相互作用はペアワイズアテンションのみであるため](https://pbs.twimg.com/media/G7DdC0YXAAAhLgX.jpg)
![[4/8] 以下は、DinoV2-Large からデコードした IsSameObject を視覚化したインタラクティブデモの一部です(ウェブサイトでお試しください!🌐)。鹿の胴体と尻が別の鹿に遮られて視界が遮られている場合でも、モデルはそ](https://pbs.twimg.com/media/G7DdxxiWUAAt4Pu.jpg)
![[5/8] プローブ法は、バインディングシグナルがどのように符号化され、使用されるかというメカニズムの解明にも役立ちます。様々なプローブアーキテクチャを比較した結果、二次プローブがIsSameObjectのデコード可能性において最も優れてお](https://pbs.twimg.com/media/G7Dd-30XUAAEzHl.jpg)
![[6/8] 二次プローブは φ_quad(x, y) = x^TW^TW y の形をとります。これは本質的に、パッチ埋め込みを W を持つ新しい空間に射影し、それらの射影された埋め込み間の類似性を比較するものです。外観特徴のみとは異なる真の](https://pbs.twimg.com/media/G7DeO34WsAA4An9.jpg)