#16 - Une enquête sur le mécanisme causal des puits d'attention Lien : https://t.co/7Nb21sY76l Lectusmoothcriminal.notion.site/let-that-sink-…uyu0327 RoPE impose un ordre de positions dépendant de la fréquence. Le puits se forme à la position dont les angles de rotation composites sont extrêmes dans cet ordre. La continuité est importante car les positions voisines produisent des directions q/k corrélées, ce qui permet d'injecter de manière répétée le vecteur de valeur de la position extrême à travers les couches. La discontinuité rompt ce renforcement. L'auteur démontre la dépendance causale en modifiant la contribution de l'attention du puits par une fonction logit. Le puits disparaît car la boucle de renforcement QK itérative est interrompue. >Cela signifie que les puits ne sont pas des artefacts sémantiques, mais des attracteurs positionnels produits par la structure géométrique de RoPE et la dynamique de mise à jour itérative du transformateur.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
