#15 - 谨慎减重 链接 - https://t.co/5KyC4dUbah 权重衰减并不关心优化器更新的方向。 对于 SGD、arxiv.org/abs/2510.12402减相当于优化损失函数的某种正则化或约束版本,而不是原始损失函数。 那么,我们能否在不使优化器偏向不同目标的情况下,获得权重衰减的良好效果(稳定性、正则化)?
#16 - 对注意力陷阱因果机制的调查 链接 - https://t.co/7Nb21sY76l @HeMuyu0327 的文章写得真好。 RoPE 对位置施加了频率相关的排序。汇形成于复合旋转角度在smoothcriminal.notion.site/let-that-sink-…相邻位置会产生相关的q/k方向,这使得极值位置的值向量能够跨层重复注入。不连续性会破坏这种强化作用。 作者通过对汇聚点的注意力贡献进行逻辑回归分析来展示因果依赖性。汇聚点消失是因为迭代QK强化回路被破坏了。 >这意味着汇聚点不是语义产物,而是由 RoPE 的几何结构和转换器的迭代更新动态产生的位置吸引子。

