4/4 Infraestrutura física para o treinamento do modelo Composer do Cursor. Eles afirmam ter treinado (e continuam treinando) em milhares de GPUs. Treinam modelos com baixa precisão e usam RL assíncrono (o próximo tweet explicará o que é). Citação: "Construímos uma infraestrutura de treinamento personalizada, aproveitando PyTorch e Ray, para impulsionar o aprendizado por reforço assíncrono em grande escala." Treinamos nossos modelos nativamente com baixa precisão, combinando nossos kernels MXFP8 MoE com paralelismo especializado e paralelismo híbrido de dados fragmentados, o que nos permite escalar o treinamento para milhares de GPUs NVIDIA com custo mínimo de comunicação. Além disso, o treinamento com MXFP8 nos permite oferecer velocidades de inferência mais rápidas sem a necessidade de quantização pós-treinamento."
5/5 O que é RL assíncrono usado no treinamento de modelos do Customer Composer? Ele utiliza execução assíncrona em múltiplos níveis para evitar a espera por operações lentas, como por exemplo, uma geração de implantação demorada. Como você sabe, para um determinado problema, em aprendizado por reforço como o GRPO, geramos múltiplas trajetórias. No entanto, algumas trajetórias podem demorar muito para serem concluídas. Assim que tiverem trajetórias suficientes, eles executam o treinamento. Amostras/implementações parciais são retomadas posteriormente com o modelo atualizado. Isso causa uma situação em que alguns tokens são gerados pelo modelo/política antigo e outros pelo novo. No entanto, isso é aceitável. Se você quiser entender mais sobre Async RL, leia APRIL - um projeto para Async RL.
