El modelo de codificación propio de Cursor (1/4) está a la vanguardia, y es 4 veces más rápido y económico. Esto ayuda a Cursor a reducir su dependencia de OpenAI y Anthropic. ¿Para qué mejorar sus modelos si puedes crear los tuyos propios?
2/4 Realizaron RL a gran escala en el modelo MoE (principalmente uno de los modelos chinos como modelos base). El modelo de aprendizaje por refuerzo aprendió automáticamente a realizar llamadas a herramientas en paralelo y a leer y buscar más información antes de modificar el código. Este comportamiento surgió de forma natural.
3/4 ¿Cómo desarrollaron entornos de RL para recopilar trayectorias para RL? Reutilizaron su infraestructura de agentes en segundo plano. Cita: "Durante el aprendizaje por refuerzo, queremos que nuestro modelo pueda llamar a cualquier herramienta del entorno Cursor Agent. Estas herramientas permiten editar código, usar búsqueda semántica, filtrar cadenas y ejecutar comandos de terminal." A nuestra escala, enseñar al modelo a llamar eficazmente a estas herramientas requiere ejecutar cientos de miles de entornos de codificación aislados y simultáneos en la nube. Para soportar esta carga de trabajo, adaptamos la infraestructura existente que habíamos creado para Background Agents, reescribiendo nuestro planificador de máquinas virtuales para que soportara la naturaleza intermitente y la escala de las ejecuciones de entrenamiento. Esto permitió una unificación perfecta de los entornos de RL con los entornos de producción.
4/4 Infraestructura física para el entrenamiento del modelo Composer de Cursor. Afirman haber entrenado (y seguir entrenando) con miles de GPU. Entrenan los modelos con baja precisión y utilizan aprendizaje por refuerzo asíncrono (en el siguiente tuit se explicará en qué consiste). Cita: "Hemos creado una infraestructura de entrenamiento personalizada utilizando PyTorch y Ray para potenciar el aprendizaje por refuerzo asíncrono a gran escala. Entrenamos nuestros modelos de forma nativa con baja precisión combinando nuestros núcleos MXFP8 MoE con paralelismo experto y paralelismo de datos fragmentados híbrido, lo que nos permite escalar el entrenamiento a miles de GPU NVIDIA con un coste de comunicación mínimo. Además, el entrenamiento con MXFP8 nos permite ofrecer velocidades de inferencia más rápidas sin necesidad de cuantización posterior al entrenamiento.”
5/5 ¿Qué es el aprendizaje por refuerzo asíncrono que utiliza el entrenamiento del modelo Customer Composer? Utiliza la ejecución asíncrona en múltiples niveles para evitar esperar en operaciones lentas, por ejemplo, una generación de despliegue prolongada. Como ya sabrás, para un problema dado, en aprendizaje por refuerzo como GRPO generamos múltiples trayectorias. Sin embargo, algunas trayectorias pueden tardar demasiado en completarse. Así pues, una vez que tienen suficientes trayectorias, ejecutan el entrenamiento. Las implementaciones/muestras parciales se reanudan posteriormente con un modelo actualizado. Esto provoca que algunos tokens se generen con el modelo/política anterior y otros con el nuevo. Sin embargo, esto es aceptable. Si desea obtener más información sobre el aprendizaje por refuerzo asíncrono, consulte APRIL, un proyecto sobre aprendizaje por refuerzo asíncrono.


