#16 - 注意力陷阱因果機制的調查 連結 - https://t.co/7Nb21sY76l @HeMuyu0327 的文章寫得真好。 RoPE 對位置施加了頻率相關的排序。匯形成於複合旋轉角度在該smoothcriminal.notion.site/let-that-sink-…鄰位置會產生相關的q/k方向,這使得極值位置的值向量能夠跨層重複注入。不連續性會破壞這種強化作用。 作者透過對匯聚點的注意力貢獻進行邏輯迴歸分析來展示因果依賴性。匯聚點消失是因為迭代QK強化迴路被破壞了。 >這表示匯聚點不是語意產物,而是由 RoPE 的幾何結構和轉換器的迭代更新動態產生的位置吸引子。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
