1/4 O compositor de modelo de codificação próprio do Cursor está na vanguarda, sendo 4 vezes mais rápido e mais barato. Isso ajuda o Cursor a reduzir a dependência da OpenAI e da Anthropic. Por que aprimorar os modelos deles quando você pode criar seus próprios modelos?
2/4 Eles realizaram aprendizado por reforço em larga escala no modelo do Ministério da Educação (principalmente um dos modelos chineses como modelos base). O modelo RLed aprendeu automaticamente a fazer chamadas de ferramentas em paralelo e a ler e pesquisar mais antes de fazer alterações no código. Esse comportamento surgiu organicamente.
3/4 Como eles desenvolveram ambientes de RL para coletar trajetórias para RL? Eles reaproveitaram a infraestrutura de Agentes em Segundo Plano. Citação: "Durante o aprendizado por reforço, queremos que nosso modelo seja capaz de chamar qualquer ferramenta do Cursor Agent. Essas ferramentas permitem editar código, usar pesquisa semântica, buscar strings e executar comandos de terminal." Na nossa escala, ensinar o modelo a chamar essas ferramentas de forma eficaz exige a execução de centenas de milhares de ambientes de codificação isolados e simultâneos na nuvem. Para suportar essa carga de trabalho, adaptamos a infraestrutura existente que havíamos construído para Agentes em Segundo Plano, reescrevendo nosso agendador de máquinas virtuais para suportar a natureza intermitente e a escala das execuções de treinamento. Isso possibilitou a unificação perfeita dos ambientes de RL com os ambientes de produção."
4/4 Infraestrutura física para o treinamento do modelo Composer do Cursor. Eles afirmam ter treinado (e continuam treinando) em milhares de GPUs. Treinam modelos com baixa precisão e usam RL assíncrono (o próximo tweet explicará o que é). Citação: "Construímos uma infraestrutura de treinamento personalizada, aproveitando PyTorch e Ray, para impulsionar o aprendizado por reforço assíncrono em grande escala." Treinamos nossos modelos nativamente com baixa precisão, combinando nossos kernels MXFP8 MoE com paralelismo especializado e paralelismo híbrido de dados fragmentados, o que nos permite escalar o treinamento para milhares de GPUs NVIDIA com custo mínimo de comunicação. Além disso, o treinamento com MXFP8 nos permite oferecer velocidades de inferência mais rápidas sem a necessidade de quantização pós-treinamento."
5/5 O que é RL assíncrono usado no treinamento de modelos do Customer Composer? Ele utiliza execução assíncrona em múltiplos níveis para evitar a espera por operações lentas, como por exemplo, uma geração de implantação demorada. Como você sabe, para um determinado problema, em aprendizado por reforço como o GRPO, geramos múltiplas trajetórias. No entanto, algumas trajetórias podem demorar muito para serem concluídas. Assim que tiverem trajetórias suficientes, eles executam o treinamento. Amostras/implementações parciais são retomadas posteriormente com o modelo atualizado. Isso causa uma situação em que alguns tokens são gerados pelo modelo/política antigo e outros pelo novo. No entanto, isso é aceitável. Se você quiser entender mais sobre Async RL, leia APRIL - um projeto para Async RL.


