Chega de geopolítica, este é um avanço extremamente interessante na interpretabilidade de mechas. Goodfire usa análise de curvatura de perda para decompor estruturas memorizadas e generalizadas no nível do espaço de pesos e suprimir a memorização por meio da edição de pesos.
A curvatura dos pontos de treinamento memorizados é muito mais acentuada do que a dos pontos não memorizados, o que significa que ordenar os componentes de peso da maior para a menor curvatura pode revelar uma distinção sem rótulos explícitos. Venho falando de «singularidades pontiagudas» há tempos, elas são tratadas formalmente.



