#15 - Pérdida de peso cautelosa Enlace: https://t.co/5KyC4dUbah arxiv.org/abs/2510.12402 no tiene en cuenta la dirección que desee la actualización del optimizador. Para SGD, AdamW, Lion, Muon, etc., la descomposición de peso desacoplada es equivalente a optimizar alguna versión regularizada o restringida de la pérdida, no la pérdida original. ¿Podemos, entonces, obtener los efectos positivos de la regularización por decaimiento de peso (estabilidad, regularización) sin sesgar el optimizador hacia un objetivo diferente?
#16 - Una investigación sobre el mecanismo causal de los sumideros de atención enlace - https://t.co/smoothcriminal.notion.site/let-that-sink-…ra de @HeMuyu0327 >RoPE impone un ordenamiento dependiente de la frecuencia en las posiciones. El sumidero se forma en la posición cuyos ángulos de rotación compuestos son extremos en ese ordenamiento. La continuidad es importante porque las posiciones vecinas producen direcciones q/k correlacionadas, lo que hace que el vector de valor de la posición extremal se inyecte repetidamente a través de las capas. La discontinuidad rompe este refuerzo. El autor demuestra la dependencia causal mediante la modificación logit de la contribución de atención del nodo receptor. El nodo receptor desaparece porque se rompe el bucle de refuerzo QK iterativo. Esto significa que los sumideros no son artefactos semánticos, sino atractores posicionales producidos por la estructura geométrica de RoPE y la dinámica de actualización iterativa del transformador.

