#15 - 慎重な体重減少 リンク - https://t.co/5KyC4dUbah > 重みの減少は、オプティマイザーの更新arxiv.org/abs/2510.12402AdamW、Lion、Muon などの場合、分離された重みの減衰は、元の損失ではなく、損失の正規化または制約されたバージョンを最適化することと同等です。 では、オプティマイザーを別の目的に偏らせることなく、重み減衰の良好な効果(安定性、正則化)を得ることができるでしょうか?
#16 - 注意力低下の因果メカニズムの調査 リンク - https://t.co/7Nb21sY76l @HeMuyu0327 による素敵な読み物 >RoPE は、周波数に依存した順序付けを位置に課しsmoothcriminal.notion.site/let-that-sink-…度が極値となる位置に形成されます。 > 連続性は、隣接する位置が相関した q/k 方向を生成するため重要であり、これにより極値位置の値ベクトルがレイヤー全体に繰り返し注入されます。不連続性はこの強化を破壊します。 >著者は、シンクの注意寄与をロジットパッチすることで因果依存性を示しています。反復的なQK強化ループが壊れているため、シンクは消滅します。 >これは、シンクが意味的なアーティファクトではなく、RoPE の幾何学的構造とトランスフォーマーの反復的な更新ダイナミクスによって生成される位置アトラクターであることを意味します。

