X (Twitter)

Seria uma loucura se o especialista ideal (ou seja, mesmo quando estamos otimizando o número de operações de ponto flutuante (FLOPs) do treinamento para atingir a meta de desempenho subsequente, e não os custos ao longo da vida útil) tivesse menos de 1 milhão de parâmetros. Mas também será lógico. Modelos minúsculos são surpreendentemente fortes. Precisamos apenas de um roteamento melhor. Aliás, eu meio que previ isso.

Bons tempos aqueles em que 100 curtidas eram uma x.com/teortaxesTex/s…im.

Thread de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informações do autor

Conteúdo da thread