X (Twitter)

#8 - Superando a discrepância entre treinamento e inferência por meio do FP16 arxiv.org/abs/2510.26788o8w36nc Dando continuidade ao mesmo tema dos capítulos 6 e 7, considere esta leitura obrigatória para se atualizar sobre o assunto. Trabalhos anteriores tentaram corrigir esse problema de incompatibilidade entre treinamento e inferência com técnicas de amostragem por importância ou engenharia complexa para melhor alinhar os kernels. Isso ajuda até certo ponto, mas: >custa computação extra (passagens adicionais para frente) >Não resolve realmente o problema de você estar otimizando uma e implantando outra. >ainda pode ser instável Portanto, a tese do artigo é: o verdadeiro vilão é o BF16. Use FP16. Me diverti muito criando vários memes sobre isso no meu Twitter.

#8 - Superando a discrepância entre treinamento e inferência por meio do FP16
link - https://t.co/rFKo8w36nc

Dando co

#9 - O Potencial da Otimização de Segunda Ordem para LLMs: Um Estudo com Gauss-Newton Completo link - https://tarxiv.org/abs/2510.09378go demonstra que, ao usar a curvatura Gauss-Newton real em vez das aproximações simplificadas que todos utilizam, é possível treinar LLMs drasticamente mais rápido: o GN completo reduz o número de etapas de treinamento em cerca de 5,4 vezes em comparação com o SOAP e 16 vezes em comparação com o muon. Eles também não oferecem garantias teóricas em relação a essa afirmação, nem ela foi testada em larga escala (apenas 150 milhões de parâmetros).

#9 - O Potencial da Otimização de Segunda Ordem para LLMs: Um Estudo com Gauss-Newton Completo
link - https://t.co/wlkp

Thread de tokenbender (@tokenbender)

Informações do autor

Conteúdo da thread