X (Twitter)

Como o Cursor Composer é construído? A palestra de abertura de @srush_nlp, pesquisador da @cursor_ai, no Ray Summit da @anyscalecompute, focou em inovação tecnológica, desafios e aplicações práticas, enfatizando o papel do aprendizado por reforço na construção de modelos de IA especializados. Principais características e motivações do compositor Rush começou explicando os principais destaques de desempenho do Composer: nos benchmarks internos do Cursor, seu desempenho se aproximou dos modelos de ponta mais avançados, superando modelos lançados no verão de 2024, os melhores modelos de código aberto e até mesmo modelos considerados "rápidos". Além disso, superou modelos inteligentes semelhantes em 4 vezes na eficiência de geração de tokens e foi significativamente mais rápido no uso real do editor. Isso faz com que o Composer não seja apenas "inteligente", mas também "pareça" rápido, permitindo que os usuários mantenham um processo de pensamento contínuo em vez de esperar por respostas demoradas. A inspiração para o Composer veio do popular recurso "Cursor Tab" do aplicativo Cursor. A equipe então desenvolveu um protótipo de modelo de agente inteligente chamado "Cheetah", que os usuários descreveram como "tecnologia alienígena". Com base nisso, o objetivo era criar uma versão mais inteligente, mantendo a eficiência. Rush enfatiza que inteligência não se trata de buscar benchmarks gerais, mas sim de lidar com cenários de codificação do mundo real: como gerenciar grandes bases de código e aderir a padrões de estilo de codificação. Esses elementos são cruciais para o desenvolvimento de software do dia a dia. Além disso, o Composer enfatiza uma experiência de "velocidade imediata": a geração de tokens não só é eficiente, como também aproveita chamadas de ferramentas paralelas (como busca simultânea de código, execução de comandos de terminal e edição de arquivos) para concluir todo o processo em segundos. Rush demonstrou essa experiência em um vídeo de demonstração: após um usuário enviar uma consulta, o agente executa imediatamente as ferramentas de forma multithread, gerando edições e resumos rapidamente, um contraste marcante com as iterações lentas dos agentes tradicionais. Implementação Técnica: O núcleo da apresentação sobre Agentes de Aprendizado por Reforço e Infraestrutura é o método de construção Composer. Rush descreve brevemente o mecanismo de funcionamento do Cursor: as consultas do usuário são enviadas ao backend, o agente gera tokens e formata chamadas de ferramentas em formato XML (como leitura de arquivos, edição, busca de código e execução de comandos). Essas ferramentas podem ser executadas em série ou em paralelo, e o agente exibe as alterações em tempo real na IDE. O Composer é treinado usando aprendizado por reforço (RL): começando com uma consulta do usuário, ele simula múltiplas "execuções" (caminhos), cada uma tentando resolver o problema usando uma sequência diferente de ferramentas. Esses caminhos são então avaliados (por exemplo, qual é o mais eficaz) e os parâmetros do modelo são atualizados de acordo. Isso é análogo a executar várias instâncias do Cursor em paralelo para otimizar o melhor caminho. Rush discutiu três grandes desafios: 1. Treinamento e Correspondência de Inferência: Um modelo híbrido de especialistas (MoE) em larga escala é usado para treinamento distribuído em milhares de GPUs. A equipe desenvolveu um kernel personalizado para suportar treinamento de baixa precisão (MXFP8), alcançando um aumento de velocidade de 3,5x (especialmente em chips Blackwell) sem exigir quantização adicional. 2. Implantação complexa: Tarefas de codificação no mundo real envolvem de 100.000 a milhões de tokens e centenas de chamadas de ferramentas, resultando em tempos de execução irregulares. O framework Ray é usado para gerenciar o balanceamento de carga e evitar problemas de "cauda" (onde alguns caminhos são muito lentos). 3. Consistência: O ambiente de treinamento deve simular o Cursor de produção, incluindo respostas idênticas das ferramentas. A equipe reutiliza a infraestrutura de "agente em nuvem" do Cursor, usando microVMs para criar um ambiente com estado que suporte a modificação de arquivos e a execução de comandos. Simultaneamente, um modelo de incorporação personalizado é integrado para busca semântica, ajudando o agente a localizar arquivos com eficiência. Essas decisões de infraestrutura (como a integração de servidores de treinamento PyTorch, servidores de inferência Ray e servidores de ambiente de máquina virtual) são essenciais para o sucesso, garantindo uma transição perfeita entre o treinamento e a implantação real. Uma semana após o lançamento, a Rush compartilhou resultados iniciais, insights e perspectivas futuras: a cada iteração do RL, o desempenho do modelo melhorou constantemente, desde os níveis de código aberto até a versão final, demonstrando a eficácia do investimento computacional. O modelo aprendeu a usar mais ferramentas paralelas, reduzindo a edição às cegas e focando, em vez disso, na leitura e busca, melhorando assim a precisão. O feedback dos usuários foi positivo, com eles acreditando que a combinação de velocidade e inteligência mudou os hábitos de programação — de "iniciar o agente e esperar" para "iterar rapidamente para resolver problemas". As reflexões de Rush incluem: • O aprendizado por reforço (RL) é particularmente adequado para a construção de modelos específicos de domínio, em vez de modelos de lógica latente (LLMs) de propósito geral. A IA transformou o processo de P&D: as equipes estão usando seus próprios agentes de IA para construir painéis e sistemas de back-end, acelerando as iterações para equipes pequenas. • A infraestrutura é o principal motor do aprendizado por reforço (RL), envolvendo profunda integração de produtos, escalabilidade e aprendizado de máquina (ML). Endereço do vídeo:

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread