¡Ayer en #NeurIPS2025, escuché demasiadas opiniones erróneas (en mi humilde opinión) sobre el "RL" de DeepSeek R1 vs. SFT! 🤦♂️ Con el MDP degenerado que usa R1, donde divide la recompensa del verificador por la solución equitativamente entre todos los tokens intermedios y de solución, el RL de R1 es en realidad una forma filtrada/iterativa de SFT. ¡Ven a charlar con nosotros en los talleres de LAW y ForLM el domingo! 👇
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
