4/4 Infraestructura física para el entrenamiento del modelo Composer de Cursor. Afirman haber entrenado (y seguir entrenando) con miles de GPU. Entrenan los modelos con baja precisión y utilizan aprendizaje por refuerzo asíncrono (en el siguiente tuit se explicará en qué consiste). Cita: "Hemos creado una infraestructura de entrenamiento personalizada utilizando PyTorch y Ray para potenciar el aprendizaje por refuerzo asíncrono a gran escala. Entrenamos nuestros modelos de forma nativa con baja precisión combinando nuestros núcleos MXFP8 MoE con paralelismo experto y paralelismo de datos fragmentados híbrido, lo que nos permite escalar el entrenamiento a miles de GPU NVIDIA con un coste de comunicación mínimo. Además, el entrenamiento con MXFP8 nos permite ofrecer velocidades de inferencia más rápidas sin necesidad de cuantización posterior al entrenamiento.”
5/5 ¿Qué es el aprendizaje por refuerzo asíncrono que utiliza el entrenamiento del modelo Customer Composer? Utiliza la ejecución asíncrona en múltiples niveles para evitar esperar en operaciones lentas, por ejemplo, una generación de despliegue prolongada. Como ya sabrás, para un problema dado, en aprendizaje por refuerzo como GRPO generamos múltiples trayectorias. Sin embargo, algunas trayectorias pueden tardar demasiado en completarse. Así pues, una vez que tienen suficientes trayectorias, ejecutan el entrenamiento. Las implementaciones/muestras parciales se reanudan posteriormente con un modelo actualizado. Esto provoca que algunos tokens se generen con el modelo/política anterior y otros con el nuevo. Sin embargo, esto es aceptable. Si desea obtener más información sobre el aprendizaje por refuerzo asíncrono, consulte APRIL, un proyecto sobre aprendizaje por refuerzo asíncrono.
