X (Twitter)

Prevejo também que a granularidade possui uma lei de escala complexa que depende das especificidades da arquitetura e do treinamento, e que modelos maiores (o Ant para em 28 bilhões no total) têm uma granularidade ideal maior do que a que usamos atualmente.

Pensando bem, para que meu Flash hipotético tivesse um padrão expert de 16/3200, esses experts teriam que ser MINÚSCULOS!! E acho que isso não é o ideal. Por outro lado: este artigo sobre memes e o fato de que a Qwen3-Next já conta com especialistas desse nível (se meus cálculos estiverem corretos)

Thread de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informações do autor

Conteúdo da thread