#16 - Una investigación sobre el mecanismo causal de los sumideros de atención enlace - https://t.co/smoothcriminal.notion.site/let-that-sink-…ra de @HeMuyu0327 >RoPE impone un ordenamiento dependiente de la frecuencia en las posiciones. El sumidero se forma en la posición cuyos ángulos de rotación compuestos son extremos en ese ordenamiento. La continuidad es importante porque las posiciones vecinas producen direcciones q/k correlacionadas, lo que hace que el vector de valor de la posición extremal se inyecte repetidamente a través de las capas. La discontinuidad rompe este refuerzo. El autor demuestra la dependencia causal mediante la modificación logit de la contribución de atención del nodo receptor. El nodo receptor desaparece porque se rompe el bucle de refuerzo QK iterativo. Esto significa que los sumideros no son artefactos semánticos, sino atractores posicionales producidos por la estructura geométrica de RoPE y la dinámica de actualización iterativa del transformador.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
