Apprentissage silencieux des caractéristiques dans les transformateurs Voici un article intéressant paru cette semaine : il souligne que les courbes de perte peuvent induire en erreur notre interprétation de ce que le modèle a appris. Généralement, nous utilisons la perte comme principale mesure de la progression de l'entraînement des réseaux neuronaux. Si la perte ne change pas, on suppose que le modèle n'a rien appris ; si la perte diminue, on suppose qu'un apprentissage a lieu. Cependant, cette hypothèse ne se vérifie pas lorsqu'il s'agit de tâches algorithmiques. Cette nouvelle étude a utilisé Transformer pour traiter 10 tâches algorithmiques de base et a découvert des « caractéristiques silencieuses » : les représentations internes continuent d'évoluer même lorsque la perte stagne. L'étude a révélé que le modèle avait déjà appris les étapes de calcul intermédiaires avant d'améliorer ses performances de sortie. Par exemple : la retenue dans l'addition, l'appartenance à une file d'attente dans le parcours en largeur (BFS) et le produit partiel dans la multiplication. Ces caractéristiques se forment progressivement sur une longue période de stabilité, puis se combinent soudainement pour résoudre le problème. Les chercheurs ont exploré les représentations internes dans l'arithmétique binaire (addition, multiplication), les algorithmes de graphes (BFS, chemin le plus court, tri topologique, MST) et l'optimisation de séquences (sous-tableau maximal, sélection active). Les six tâches ont toutes présenté une transition en deux phases distincte : après une longue période de stagnation, les performances se sont soudainement améliorées. L'expérience d'ablation a confirmé la relation de cause à effet. La suppression des fonctions de retenue du modèle d'addition 64 bits a réduit la précision de 75,1 %. La suppression des relations d'appartenance à la file d'attente dans BFS a réduit la précision de 43,6 %. La tâche algorithmique nécessite que plusieurs sous-routines fonctionnent ensemble. Un seul composant correctement aligné ne réduira pas les pertes tant que toutes les pièces ne seront pas alignées. Le modèle accumule les capacités potentielles sous une courbe de pertes plate. Il apparaît que la perte d'entropie croisée est une méthode de diagnostic incomplète. Même si les indicateurs semblent stagner, un apprentissage interne important peut avoir lieu. Cela nous a incités à développer des outils de surveillance offrant une assistance plus complète que de simples courbes de pertes. 🔖 Lien vers l'article :
Ce contenu a été géxaicreator.comttps://t.co/Gxsobg3hEN
Merci d'avoir pris le temps de lire ce tweet ! Suivez @Yangyixxxx pour des informations sur l'IA, des analyses commerciales et des stratégies de croissance. Si ce contenu vous a plu, n'hésitez pas à aimer et à partager le premier tweet pour diffuser ces informations précieuses à un public plus large.
