#9 - El potencial de la optimización de segundo orden para LLM: un estudio con Gauss-Newton completo Enlace: htarxiv.org/abs/2510.09378 El artículo muestra que si se utiliza la curvatura real de Gauss-Newton en lugar de las aproximaciones diluidas que todos usan, se pueden entrenar los LLM mucho más rápido: GN completo reduce el número de pasos de entrenamiento en aproximadamente 5,4 veces en comparación con SOAP y 16 veces en comparación con muon. Tampoco ofrecen garantías teóricas respecto a esta afirmación ni se ha probado a escala (solo 150 millones de parámetros).
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
