O fato de terem feito isso depois da NSA, que argumentou que a esparsidade pós-treinamento era um beco sem saída, também demonstra sua capacidade de ignorar custos irrecuperáveis. Fico pensando no que aconteceu com a NSA. É evidente que a atenção em blocos não é a ideal, mas também que a DSA é apenas uma solução paliativa.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
