RT @shao__meng: Resumen de fin de curso de maestría en Derecho 2025 de Andrej Karpathy: 6 "Cambios de paradigma" 1. RLVR: Para 2025, el aprendizaje por refuerzo pasará de la recompensa verificable (RLVR) a la nueva etapa estándar para la formación en LLM. Al optimizar las recompensas durante un largo periodo en dominios objetivos como las matemáticas y la programación, los modelos exhibirán de forma natural un razonamiento similar al humano.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.