Sí, este Neurips es el Neurips de la vida real y los modelos del mundo. Hay muchísimas sesiones y talleres sobre estos temas, y con razón. Rich Sutton también nos recordó que la forma en que hacemos RL para LLM (RLVR/GROO) no es una lección amarga y solo puede hacer que las habilidades existentes sean más confiables, pero no más... Dicho esto, RL aún tiene muchas oportunidades al alcance de la mano. Ayer conocí a los autores de ToolRL, DAPO. Aún hay muchas oportunidades al alcance de la mano…
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.