Este es un blog de investigación intrigante, proveniente de las mismas personas que escribieron el artículo “RL tunes small subnets”. Lo encuentro útil porque analiza cómo la combinación SGD-RLVR tiene un 0,01 % de parámetros actualizados, en comparación con adamW con hasta un 90 % de parámetros actualizados. Esto implica que podemos descartar adamW sobre SGD para RLVR al menos. Tengo múltiples preguntas en mi cabeza que intentaré responder con mi propia experimentación a continuación. > ¿Dónde está exactamente el límite entre el “subespacio seguro de SGD” y el “espacio completo necesario para adamW” en el post-entrenamiento? ¿Podemos convertir sistemáticamente la pequeña subred activa de RLVR/SGD en una pila de adaptadores modulares reutilizables para entrenamiento multidominio? > cuando se fuerza el post-entrenamiento para operar en estos subespacios diminutos y estructurados (encontrados por RLVR/SGD o diseñados como LoRA), ¿cómo cambian las propiedades globales del modelo en comparación con el RLHF/RLVR de adamW en espacio completo? Necesito pensar en experimentos limpios a pequeña escala para esto y actualizaría este hilo. Puede que no tenga mucho rendimiento más allá de RLVR, pero es una cuestión poco explorada todavía.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.