X (Twitter)

[Novo Benchmark para Agentes de Programação] cline-bench: Uma iniciativa de benchmark de código aberto, recém-lançada e baseada em situações reais, para agentes de programação, desenvolvida pela equipe @cline. O objetivo principal desta iniciativa é abordar dois grandes problemas no campo atual da avaliação de agentes de programação: os benchmarks existentes (como o SWE-Bench) são excessivamente acadêmicos, carecem de credibilidade e são facilmente manipuláveis; e há uma falta de ambientes de alta qualidade adequados para treinamento de aprendizado por reforço. Por que é necessário um banco cline? Os benchmarks de agentes codificados mais utilizados atualmente (como o SWE-Bench e o SWE-Bench Verified) apresentam os seguintes problemas: • As tarefas são muito estáticas e simplistas: a maioria se baseia em um único problema do GitHub e exige que o agente gere uma correção de uma só vez, o que dificulta refletir os processos complexos de múltiplas iterações, depuração e uso de ferramentas no desenvolvimento real. • Alto risco de contaminação de dados e manipulação de pontuação: Muitas tarefas vazaram para os dados de treinamento, fazendo com que o modelo tenha um desempenho artificialmente alto no benchmark, mas um desempenho ruim na engenharia real. • Difícil de usar para treinamento de modelos: os benchmarks existentes carecem de ambientes interativos e não podem ser usados diretamente como ambientes de treinamento para aprendizado por reforço. • Avaliação incompleta: Ignora indicadores-chave como a estabilidade a longo prazo do agente em projetos do mundo real, a compreensão contextual e as capacidades de recuperação de erros. A equipe da Cline acredita que, com modelos como Claude Sonnet 4.5 e GPT-5.1 atingindo pontuações próximas a 70-80% no SWE-Bench, buscar apenas altas pontuações nesse teste não faz mais sentido. O setor precisa de um sistema de avaliação mais desafiador, realista e confiável para impulsionar o progresso genuíno em agentes codificados de próxima geração. filosofia central de design da Cline-Bench 1. Totalmente derivado de projetos reais de código aberto: • As tarefas são retiradas diretamente do histórico de desenvolvimento real de repositórios populares de código aberto (como Django, Matplotlib, SymPy, etc.). Isso inclui desafios reais enfrentados por engenheiros em seu trabalho diário, como modificar vários arquivos, lidar com dependências complexas, refatorar código, otimizar o desempenho e atualizar documentos. • A dificuldade das tarefas é muito maior do que a do SWE-Bench, e uma única tarefa pode exigir dezenas ou até centenas de etapas de interação. 2. Ambiente interativo de alta fidelidade: • Fornece snapshots completos do repositório Git, emulador de terminal e acesso ao sistema de arquivos. • O agente inteligente pode executar comandos livremente (git, pytest, pip, bash, etc.), editar arquivos várias vezes, executar testes, visualizar erros e depurar a si mesmo. • Suporta diálogos e iterações com múltiplas etapas, simulando fielmente o fluxo de trabalho de desenvolvedores humanos. 3. Pode ser usado diretamente para treinamento de aprendizado por reforço: Cada tarefa consiste em um ambiente completo de aprendizado por reforço (RL) no estilo do OpenAI Gym. Pesquisadores/empresas podem usá-lo diretamente para treinar seus próprios modelos de agentes codificados (semelhante ao AlphaCode ou aos projetos de aprendizado por reforço codificados da OpenAI). 4. Mecanismo aberto, transparente e antifraude: • Totalmente de código aberto (o código, o conjunto de dados e os scripts de avaliação estão todos disponíveis publicamente). • Utilize um conjunto de testes privado e tarefas atualizadas regularmente para evitar a poluição dos dados. • Incentivar as comunidades a contribuírem com tarefas do mundo real. Principais usos do banco de inclinação (três valores principais oficialmente identificados) 1. Avaliação confiável: Fornecer aos desenvolvedores, pesquisadores e empresas uma referência de pontuação verdadeiramente credível, evitando serem enganados por números de marketing. 2. Alinhamento e Treinamento de Modelos: Oferece um ambiente de aprendizado por reforço (RL) de alta qualidade para ajudar os usuários a treinar agentes codificados que funcionam bem em projetos de engenharia do mundo real. 3. Impulsionar o progresso da indústria: Estabelecer um benchmark continuamente iterativo e orientado pela comunidade para substituir o antigo SWE-Bench.

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread