Tão incrivelmente bem fundamentado que o DeepSeek ganhou o prêmio de melhor artigo na ACL com o NSA, e então, aparentemente, insatisfeito com os resultados em larga escala, descobriu uma arquitetura melhor que pode usar modelos de atenção completa, publicou essa arquitetura e compartilhou os pesos. Frequentemente suspeitamos que o Google faça o oposto.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
