Llegué un poco tarde a la fiesta, pero leí el artículo de Deepseek Math v2. Este es el primer y único trabajo que replica el éxito que se vio en código cerrado, es decir, IMO Gold, utilizando modelos de lenguaje grandes. No hay muchas cosas nuevas aquí. Si tuviera que decir qué es lo que más destaca sería: > simplemente la idea de que recompensar las respuestas no es garantía de un proceso de razonamiento correcto > Así que entrenamos a un verificador sobre datos calificados por expertos de 17.5k > Capacitamos a un metaverificador para garantizar aún más que el verificador no califique incorrectamente De hecho, es tan simple como parece y una parte de mí esperaba que el modelo dorado de código abierto de la OMI utilizara algo más sofisticado. Tenía algunas teorías que quería ver validadas o descartadas, pero supongo que cuando pasemos a modelos generalistas con tales capacidades, podremos ver eso. Hasta entonces, es una gran estrella del norte con un enfoque bastante simple pero que requiere mucho procesamiento y se apoya en la curación de datos, que nos brinda algo que se consideraba increíblemente difícil para los modelos hasta el año pasado.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
