#16 - uma investigação sobre o mecanismo causal dos sumidouros de atenção Link - https://t.co/7Nb21sYsmoothcriminal.notion.site/let-that-sink-…HeMuyu0327 >O algoritmo RoPE impõe uma ordenação dependente da frequência nas posições. O sumidouro se forma na posição cujos ângulos de rotação compostos são extremos nessa ordenação. A continuidade é importante porque posições vizinhas produzem direções q/k correlacionadas, o que faz com que o vetor de valor da posição extremal seja repetidamente injetado entre as camadas. A descontinuidade quebra esse reforço. O autor demonstra a dependência causal aplicando um patch logit à contribuição da atenção do sumidouro. O sumidouro desaparece porque o ciclo iterativo de reforço QK é interrompido. Isso significa que os sinks não são artefatos semânticos, mas sim atratores posicionais produzidos pela estrutura geométrica do RoPE e pela dinâmica de atualização iterativa do transformer.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
