#15 - Déclin prudent du poids Lien : https://t.co/5KyC4dUbah > arxiv.org/abs/2510.12402s ne tient pas compte de la direction souhaitée par la mise à jour de l'optimiseur. > Pour SGD, AdamW, Lion, Muon, etc., la décroissance du poids découplée équivaut à optimiser une version régularisée ou contrainte de la perte, et non la perte originale. Peut-on donc bénéficier des effets positifs de la décroissance du poids (stabilité, régularisation) sans orienter l'optimiseur vers un objectif différent ?
#16 - Une enquête sur le mécanisme causal des puits d'attention Lien : https://t.co/7Nb21sY76l Lectusmoothcriminal.notion.site/let-that-sink-…uyu0327 RoPE impose un ordre de positions dépendant de la fréquence. Le puits se forme à la position dont les angles de rotation composites sont extrêmes dans cet ordre. La continuité est importante car les positions voisines produisent des directions q/k corrélées, ce qui permet d'injecter de manière répétée le vecteur de valeur de la position extrême à travers les couches. La discontinuité rompt ce renforcement. L'auteur démontre la dépendance causale en modifiant la contribution de l'attention du puits par une fonction logit. Le puits disparaît car la boucle de renforcement QK itérative est interrompue. >Cela signifie que les puits ne sont pas des artefacts sémantiques, mais des attracteurs positionnels produits par la structure géométrique de RoPE et la dynamique de mise à jour itérative du transformateur.

