¿Por qué es tan importante el aprendizaje automático? Agente RFT, etc. La siguiente historia es una prueba tan grande que su modelo necesita ver las herramientas que va a utilizar en producción durante su entrenamiento posterior al RL. Opus 4.5 con Claude Code supera a CORE-Bench, mientras que el rendimiento utilizando el otro arnés no es digno de mención. La única diferencia es el cambio de arnés (y herramientas). El equipo de Cursor planteó el mismo punto al hablar sobre el entrenamiento de Compose. El modelo mejoró en el uso de herramientas, en particular la búsqueda integrada. RL será la técnica principal de post entrenamiento. @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.