#9 - O Potencial da Otimização de Segunda Ordem para LLMs: Um Estudo com Gauss-Newton Completo link - https://tarxiv.org/abs/2510.09378go demonstra que, ao usar a curvatura Gauss-Newton real em vez das aproximações simplificadas que todos utilizam, é possível treinar LLMs drasticamente mais rápido: o GN completo reduz o número de etapas de treinamento em cerca de 5,4 vezes em comparação com o SOAP e 16 vezes em comparação com o muon. Eles também não oferecem garantias teóricas em relação a essa afirmação, nem ela foi testada em larga escala (apenas 150 milhões de parâmetros).
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
