#15 - 謹慎減重 連結 - https://t.co/5KyC4dUbah 權重衰減並不關心優化器更新的方向。 對於 SGD、arxiv.org/abs/2510.12402減相當於最佳化損失函數的某種正則化或約束版本,而不是原始損失函數。 那麼,我們能否在不使優化器偏向不同目標的情況下,獲得權重衰減的良好效果(穩定性、正規化)?
#16 - 注意力陷阱因果機制的調查 連結 - https://t.co/7Nb21sY76l @HeMuyu0327 的文章寫得真好。 RoPE 對位置施加了頻率相關的排序。匯形成於複合旋轉角度在該smoothcriminal.notion.site/let-that-sink-…鄰位置會產生相關的q/k方向,這使得極值位置的值向量能夠跨層重複注入。不連續性會破壞這種強化作用。 作者透過對匯聚點的注意力貢獻進行邏輯迴歸分析來展示因果依賴性。匯聚點消失是因為迭代QK強化迴路被破壞了。 >這表示匯聚點不是語意產物,而是由 RoPE 的幾何結構和轉換器的迭代更新動態產生的位置吸引子。

