X (Twitter)

Palpite muito agressivo e possivelmente muito retardado: É Flash 3, e tem um total de 1,2 TB de memória ativa (12 bytes). Pro é algo em torno de 30-3200 Os sistemas deles permitem isso, o Google é incomparável em economia de custos, e nós (obrigado @AntLingAGI) sabemos que uma esparsidade superior a 99% continua a gerar vantagens em termos de eficiência.

Prevejo também que a granularidade possui uma lei de escala complexa que depende das especificidades da arquitetura e do treinamento, e que modelos maiores (o Ant para em 28 bilhões no total) têm uma granularidade ideal maior do que a que usamos atualmente.

Pensando bem, para que meu Flash hipotético tivesse um padrão expert de 16/3200, esses experts teriam que ser MINÚSCULOS!! E acho que isso não é o ideal. Por outro lado: este artigo sobre memes e o fato de que a Qwen3-Next já conta com especialistas desse nível (se meus cálculos estiverem corretos)

Thread de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informações do autor

Conteúdo da thread