Le prix du meilleur article de NeurIPS 2025 a été décerné à cet article : Le mécanisme d’attention permet aux modèles de langage de déterminer quels jetons sont les plus importants, mais il présente des limites ; par exemple, quelle que soit l’importance des jetons eux-mêmes, il a tendance à se concentrer excessivement sur les jetons qui apparaissent en premier. Le mécanisme de contrôle (qui supprime ou amplifie sélectivement le flux d'informations dans un réseau neuronal) améliore d'autres architectures, c'est pourquoi les chercheurs ont également essayé de l'ajouter à l'attention. Cependant, les tentatives précédentes associaient souvent le contrôle d'accès à d'autres modifications architecturales, ce qui rendait difficile l'évaluation de la contribution du contrôle d'accès de manière isolée. Cet article sépare ces effets et teste systématiquement plus de 30 variantes de contrôle avec un nombre de paramètres de modèle allant jusqu'à 15 milliards. Dans une couche Transformer standard, chaque tête d'attention calcule une combinaison pondérée de valeurs ; les sorties des têtes sont concaténées puis transmises via une projection linéaire finale. L'approche la plus performante de cet article consiste à insérer une opération supplémentaire avant la concaténation : la sortie de chaque tête est multipliée par une porte apprise calculée à partir de la représentation du jeton actuel (multiplication élément par élément ou tête par tête, la multiplication élément par élément étant la plus performante). De cette manière, chaque tête peut supprimer ou conserver sa contribution en fonction du contexte. Ces modifications architecturales ont apporté de réels avantages, et non de simples améliorations mineures des performances : 1. L'entraînement devient plus stable, supportant des taux d'apprentissage plus élevés, tandis que les modèles de base divergent à de tels taux d'apprentissage. 2. Le contrôle d'accès réduit également considérablement les « puits d'attention » — la situation où les premiers jetons absorbent trop d'attention. Ceci, à son tour, se rapporte aux améliorations significatives des performances en matière de textes longs, qui deviennent encore plus évidentes une fois que la fenêtre de contexte est élargie à l'aide de techniques standard. Pour ceux qui souhaitent en savoir plus, vous pouvez consulter l'article sur ChapterPal ou lire directement le PDF.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
