El premio al mejor artículo de NeurIPS 2025 se otorgó a este artículo: El mecanismo de Atención permite que los modelos de lenguaje determinen qué tokens son más importantes, pero tiene limitaciones: por ejemplo, independientemente de la importancia de los tokens en sí, tiende a centrarse demasiado en los tokens que aparecen primero. El mecanismo Gating (que suprime o amplifica selectivamente el flujo de información en una red neuronal) mejora otras arquitecturas, por lo que los investigadores también han intentado añadirlo a Attention. Sin embargo, los intentos anteriores a menudo combinaban la activación con otros cambios arquitectónicos, lo que dificultaba evaluar la contribución de la activación de forma aislada. En este artículo se separan estos efectos y se prueban sistemáticamente más de 30 variantes de activación con un recuento de parámetros de modelo de hasta 15 mil millones. En una capa de transformador estándar, cada cabezal de atención calcula una combinación ponderada de valores; las salidas de los cabezales se concatenan y luego pasan a través de una proyección lineal final. El enfoque con mejor rendimiento en este artículo es insertar una operación adicional antes de la concatenación: la salida de cada cabeza se multiplica por una puerta aprendida calculada a partir de la representación del token actual (multiplicación elemento por elemento o multiplicación cabeza por elemento, siendo la multiplicación elemento por elemento la que tiene mejor rendimiento). De esta manera cada cabeza puede suprimir o conservar su aportación en función del contexto. Estos cambios arquitectónicos aportaron beneficios reales, no sólo mejoras menores en los parámetros de referencia: 1. El entrenamiento se vuelve más estable, lo que permite tasas de aprendizaje más elevadas, mientras que los modelos de referencia divergen a dichas tasas de aprendizaje. 2. La activación de puertas también reduce en gran medida la "pérdida de atención", es decir, la situación en la que los primeros tokens absorben demasiada atención. Esto, a su vez, se relaciona con las mejoras significativas en los puntos de referencia de texto largo, que se vuelven aún más evidentes una vez que se amplía la ventana de contexto utilizando técnicas estándar. Para aquellos que quieran aprender más, pueden consultar el documento en ChapterPal o leer el PDF directamente.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
