Dejando a un lado la geopolítica, este es un avance sumamente interesante en la interpretabilidad de la mecánica. Goodfire utiliza el análisis de curvatura de pérdida para descomponer estructuras memorizadas y generalizadas en el espacio de pesos, y suprimir la memorización mediante la edición de pesos.
La curvatura de los puntos de entrenamiento memorizados es mucho más pronunciada que la de los no memorizados, lo que significa que ordenar los componentes de peso de mayor a menor curvatura puede revelar una distinción sin etiquetas explícitas. Llevo hablando de «singularidades puntiagudas» desde siempre, lo tratan formalmente.



