Las confusiones en torno a RLVR y LLM probablemente se puedan aclarar explicando cómo explicamos la búsqueda en Introducción a la IA (al menos como yo lo hago). Si buscas algo, al menos deberías poder reconocerlo si te lo encuentras. Es decir, si has dado con la solución correcta, deberías poder verificar que efectivamente lo es. En otras palabras, todo comienza con el "verificador". Ahora bien, el verificador puede ser una caja negra o declarativo (en el sentido de que proporciona una afirmación lógica sobre cuándo un candidato es una solución correcta). Si se trata de una caja negra, entonces en su mayoría se puede realizar una búsqueda de estilo de generación-prueba, es decir, el tipo de búsqueda más primitivo. (Como veremos a continuación, RLVR se puede entender en términos de esto). (Si es declarativo, entonces para cada forma diferente de verificar la solución candidata, se puede invertir ese criterio para definir la búsqueda. Por ejemplo, en la planificación, se puede verificar un plan mediante progresión, regresión o explicación causal; al invertir cada una de ellas se obtiene la planificación de progresión, la planificación de regresión y la búsqueda de planificación en el espacio de planes). Nótese que nada de esto impone ningún requisito sobre la complejidad del verificador: si el verificador pertenece a la clase P, entonces la búsqueda pertenecerá a la clase NP; si no, la búsqueda pertenecerá a una clase de complejidad superior. == Ahora bien, en lo que respecta a RLVR y LLM, básicamente, RLVR se puede considerar como un proceso de RL injertado sobre una búsqueda de generación y prueba mediante LLM. Como argumentamos en el artículo de LLM-Modulo --https://t.co/mREKgH8mxk -- la razón por la que generar y probar, que es el tipo de búsqueda más primitivo, no se descarta es porque los LLM pueden ser generadores mucho mejores que los generadores aleatorios. De hecho, se puede pensar en RLVR como una especie de "Módulo LLM interno" + RL, o como un Módulo LLM utilizado durante el entrenamiento para generar trayectorias y señales de recompensa/corrección, que luego se compilan muy lentamente de nuevo en el generador con la ayuda de RL. Al igual que en la búsqueda convencional, nada de esto exige que el verificador utilizado en RLVR pertenezca a la clase P. De hecho, ya contamos con LRM que funcionan bien en clases de problemas cuya verificación no pertenece a la clase P. Por ejemplo, incluso la planificación simple de STRIPS es completa en el espacio P, ya que el plan correcto puede ser exponencialmente largo y, por lo tanto, requerir un tiempo de verificación exponencial. ¡Pensemos en las Torres de Hanoi! Como otro ejemplo, AlphaProof abordará demostraciones cuya verificación Lean sería proporcional a la longitud de la demostración y, por consiguiente, puede estar fuera de la clase P (recordemos que la complejidad se define en términos de especificación de entrada). En otras palabras, >> Los LLM se pueden utilizar para resolver cualquier problema en modo Generar-Probar con LLM-Modulo si se dispone de verificadores. >>Si realiza este módulo LLM durante la fase de entrenamiento sobre instancias de problemas sintéticos y utiliza RL para compilar la señal del verificador en el LLM base, obtiene RLVR. Esto último es lo que se está manejando como "Programación 2.0", donde si tienes un verificador, puedes dejar que RLVR obtenga el modelo para que sea un mejor generador para ese problema. Si quieres obtener más información, puedes consultar esta charla: https://t.co/oiCQQ73KvV
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.