抛开地缘政治不谈,这确实是机理可解释性方面一个极其有趣的进展。Goodfire 利用损失曲率分析,在权重空间层面分解记忆化和泛化结构,并通过权重编辑抑制记忆效应。
记忆训练点的曲率比非记忆训练点的曲率要陡峭得多,这意味着按曲率从高到低排序权重分量可以揭示出这种区别,而无需明确的标签。 我一直在谈论“尖峰奇点”,他们对此进行了正式的处理。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月7日 11:17
抛开地缘政治不谈,这确实是机理可解释性方面一个极其有趣的进展。Goodfire 利用损失曲率分析,在权重空间层面分解记忆化和泛化结构,并通过权重编辑抑制记忆效应。
记忆训练点的曲率比非记忆训练点的曲率要陡峭得多,这意味着按曲率从高到低排序权重分量可以揭示出这种区别,而无需明确的标签。 我一直在谈论“尖峰奇点”,他们对此进行了正式的处理。