Os principais pontos de discórdia no momento são que não há muitos benefícios visíveis e que sequências mais longas exigem mais cache de chave-valor, aumentando a pressão sobre a memória da GPU. Além disso, a vantagem significativa só é observada na tarefa específica de compreensão de caracteres, com pouca melhoria notável em outras tarefas. Resumindo, vale a pena ficar de olho. A exploração em espiral durante períodos de avanços tecnológicos é sempre muito interessante. Por exemplo, eu particularmente gostava dos retificadores de mercúrio (última imagem), mas eles já foram substituídos pelos IGBTs.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

