#16 - 对注意力陷阱因果机制的调查 链接 - https://t.co/7Nb21sY76l @HeMuyu0327 的文章写得真好。 RoPE 对位置施加了频率相关的排序。汇形成于复合旋转角度在smoothcriminal.notion.site/let-that-sink-…相邻位置会产生相关的q/k方向,这使得极值位置的值向量能够跨层重复注入。不连续性会破坏这种强化作用。 作者通过对汇聚点的注意力贡献进行逻辑回归分析来展示因果依赖性。汇聚点消失是因为迭代QK强化回路被破坏了。 >这意味着汇聚点不是语义产物,而是由 RoPE 的几何结构和转换器的迭代更新动态产生的位置吸引子。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
