X (Twitter)

Entonces DeepSeek-Math-V2. Podría subtitularse: "¿Cómo entrenar mejores verificadores?" y la mayor parte del asunto es simplemente... mejor trabajo con datos y canales de síntesis (incluso si todos los modelos se entrenan con RL). DeepSeek se distancia aún más de las promesas iniciales de autoverificación espontánea de R0, simplemente porque el enfoque no es escalable: el razonamiento tortuoso que finalmente produce respuestas correctas todavía es muy frágil y propenso a fallar. El proyecto comienza con anotaciones humanas, salvo que se trata de anotaciones realizadas por expertos de alto nivel, lo que representa un cambio más amplio en la industria, donde buscamos escalar/automatizar el mejor proceso de calidad de datos posible. Este proceso también aprovecha algo que observamos al desarrollar el pipeline matemático para SYNTH: las personas (y los modelos correctamente guiados) pueden identificar casos de razonamiento complejo sin necesidad de consultar las respuestas finales. El artículo también menciona una técnica que probablemente se utilizará ampliamente en las canalizaciones sintéticas: los «metaverificadores», que básicamente evalúan el propio proceso de evaluación. Esto se debe a que incluso el verificador puede ser víctima de un ataque de recompensa: «Al evaluar pruebas defectuosas (donde 𝑠𝑖 < 1) durante el entrenamiento, el verificador puede recibir la recompensa completa al predecir las puntuaciones correctas mientras alucina problemas inexistentes». Las anotaciones humanas se realizan primero en borradores sintéticos y, a su vez, sirven para construir evaluadores que producen recursivamente mejores pruebas y rutas de resolución cada vez más eficientes. En general, el proceso crea ciclos de retroalimentación positiva: «El verificador y el generador de pruebas crean un ciclo sinérgico: el verificador mejora al generador y, a medida que este mejora, produce nuevas pruebas que desafían las capacidades actuales del verificador». Todo el entrenamiento de verificadores/metaverificadores/modelo final se realiza con RL (lo cual es lógico para modelos muy grandes, ya que la SFT/entrenamiento intermedio puede ser bastante destructiva). Sin embargo, incluso en estos casos, la creciente complejidad de RLVR, que no puede limitarse a una simple "verificación" formal, exige el desarrollo de canales sintéticos integrados y cada vez más autosuficientes. Una vez más, los demostradores matemáticos llevan la investigación de LLM a la frontera real y conducen a soluciones creativas y elegantes que probablemente irrigarán todo el campo en los próximos meses.

Hilo de Alexander Doria (@Dorialexander)

Información del autor

Contenido del hilo