拋開地緣政治不談,這確實是機理可解釋性方面一個極其有趣的進展。 Goodfire 利用損失曲率分析,在權重空間層面分解記憶化和泛化結構,並透過權重編輯抑制記憶效應。
記憶訓練點的曲率比非記憶訓練點的曲率要陡峭得多,這意味著按曲率從高到低排序權重分量可以揭示出這種區別,而無需明確的標籤。 我一直在談論“尖峰奇點”,他們對此進行了正式的處理。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月7日 上午11:17
拋開地緣政治不談,這確實是機理可解釋性方面一個極其有趣的進展。 Goodfire 利用損失曲率分析,在權重空間層面分解記憶化和泛化結構,並透過權重編輯抑制記憶效應。
記憶訓練點的曲率比非記憶訓練點的曲率要陡峭得多,這意味著按曲率從高到低排序權重分量可以揭示出這種區別,而無需明確的標籤。 我一直在談論“尖峰奇點”,他們對此進行了正式的處理。