#15 - 신중한 체중 감량 링크 - https://t.co/5KyC4dUbah > 가중치 감소는 최적화기 업데이arxiv.org/abs/2510.12402 SGD, AdamW, Lion, Muon 등의 경우 분리된 가중치 감소는 원래 손실이 아닌 손실의 정규화되거나 제한된 버전을 최적화하는 것과 동일합니다. 그러면 최적화 프로그램을 다른 목적에 편향시키지 않고도 가중치 감소(안정성, 정규화)의 좋은 효과를 얻을 수 있을까요?
#16 - 주의력 저하의 인과 메커니즘에 대한 조사 링크 - https://t.co/7Nb21sY76l @HeMuyu0327의 좋은 글이네요 >RoPE는 위치에 주파수에 따른 순smoothcriminal.notion.site/let-that-sink-… 해당 순서에서 극단적인 위치에서 형성됩니다. >연속성은 이웃 위치가 상관된 q/k 방향을 생성하고, 이로 인해 극단 위치의 값 벡터가 여러 층에 반복적으로 주입되기 때문에 중요합니다. 불연속성은 이러한 강화를 깨뜨립니다. 저자는 싱크의 주의 기여도를 로짓 패칭하여 인과적 종속성을 보여줍니다. 반복적인 QK 강화 루프가 끊어지기 때문에 싱크가 사라집니다. >즉, 싱크는 의미적 아티팩트가 아니라 RoPE의 기하학적 구조와 변환기의 반복적 업데이트 역학에 의해 생성된 위치적 어트랙터입니다.

