#9 - Le potentiel de l'optimisation du second ordre pour les LLM : une étude avec la méthode de Gauss-Newton comarxiv.org/abs/2510.09378.co/wlkpXHz4sf L'article montre que si vous utilisez la courbure de Gauss-Newton réelle au lieu des approximations simplifiées que tout le monde utilise, vous pouvez entraîner les LLM beaucoup plus rapidement : la méthode GN complète réduit le nombre d'étapes d'entraînement d'environ 5,4× par rapport à SOAP et de 16× par rapport à muon. Ils ne fournissent aucune garantie théorique concernant cette affirmation et celle-ci n'a pas été testée à grande échelle (seulement 150 millions de paramètres).
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
