Trêve de géopolitique, voici une avancée extrêmement intéressante dans l'interprétabilité des méchas. Goodfire utilise l'analyse de la courbure de perte pour décomposer les structures mémorisées et généralisées au niveau de l'espace des poids, et supprime la mémorisation par édition des poids.
La courbure des points d'entraînement mémorisés est beaucoup plus prononcée que celle des points non mémorisés, ce qui signifie que le classement des composantes de pondération par courbure décroissante peut révéler une distinction sans étiquettes explicites. Je parle de « singularités pointues » depuis toujours, ils traitent cela de manière formelle.



