O prêmio de Melhor Artigo do NeurIPS 2025 foi concedido a este artigo: O mecanismo de Atenção permite que os modelos de linguagem determinem quais tokens são mais importantes, mas tem limitações — por exemplo, independentemente da importância dos próprios tokens, ele tende a se concentrar demais nos tokens que aparecem primeiro. O mecanismo de gating (que suprime ou amplifica seletivamente o fluxo de informações em uma rede neural) aprimora outras arquiteturas, por isso os pesquisadores também tentaram adicioná-lo à atenção. No entanto, tentativas anteriores frequentemente combinavam o controle de acesso com outras alterações arquitetônicas, dificultando a avaliação da contribuição do controle de acesso de forma isolada. Este artigo separa esses efeitos e testa sistematicamente mais de 30 variantes de gating com uma contagem de parâmetros do modelo de até 15 bilhões. Em uma camada Transformer padrão, cada cabeça de atenção calcula uma combinação ponderada de valores; as saídas das cabeças são concatenadas e, em seguida, passam por uma projeção linear final. A abordagem com melhor desempenho neste artigo consiste em inserir uma operação adicional antes da concatenação: a saída de cada cabeça é multiplicada por um mecanismo aprendido, calculado a partir da representação atual do token (multiplicação elemento a elemento ou por cabeça, sendo a multiplicação elemento a elemento a que apresenta melhor desempenho). Dessa forma, cada cabeça pode suprimir ou manter sua contribuição com base no contexto. Essas mudanças arquitetônicas trouxeram benefícios reais, não apenas pequenas melhorias de desempenho: 1. O treinamento torna-se mais estável, suportando taxas de aprendizado mais altas, enquanto os modelos de referência divergem nessas taxas de aprendizado. 2. O controle de acesso também reduz significativamente os "sumidouros de atenção" — a situação em que os primeiros tokens absorvem muita atenção. Isso, por sua vez, relaciona-se às melhorias significativas nos benchmarks de textos longos, que se tornam ainda mais evidentes quando a janela de contexto é expandida usando técnicas padrão. Para quem quiser saber mais, pode consultar o artigo no ChapterPal ou ler o PDF diretamente.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
