#15 - Perda de peso cautelosa link - https://t.co/5KyC4dUbah > arxiv.org/abs/2510.12402aimento de peso não leva em consideração a direção desejada pela atualização do otimizador. > Para SGD, AdamW, Lion, Muon, etc., a decomposição de peso desacoplada é equivalente a otimizar alguma versão regularizada ou restrita da função de perda, e não a função de perda original. Então, podemos obter os efeitos positivos da regularização por decaimento de peso (estabilidade, regularização) sem enviesar o otimizador para um objetivo diferente?
#16 - uma investigação sobre o mecanismo causal dos sumidouros de atenção Link - https://t.co/7Nb21sYsmoothcriminal.notion.site/let-that-sink-…HeMuyu0327 >O algoritmo RoPE impõe uma ordenação dependente da frequência nas posições. O sumidouro se forma na posição cujos ângulos de rotação compostos são extremos nessa ordenação. A continuidade é importante porque posições vizinhas produzem direções q/k correlacionadas, o que faz com que o vetor de valor da posição extremal seja repetidamente injetado entre as camadas. A descontinuidade quebra esse reforço. O autor demonstra a dependência causal aplicando um patch logit à contribuição da atenção do sumidouro. O sumidouro desaparece porque o ciclo iterativo de reforço QK é interrompido. Isso significa que os sinks não são artefatos semânticos, mas sim atratores posicionais produzidos pela estrutura geométrica do RoPE e pela dinâmica de atualização iterativa do transformer.

