X (Twitter)

[Recomendação de código aberto] Task Arena: Um projeto de benchmark de código aberto iniciado pela equipe @joindimension, com o objetivo de avaliar o desempenho real de agentes em tarefas do mundo real. O principal objetivo do projeto é abordar o fato de que os benchmarks tradicionais de avaliação de modelos de IA (como MMLU e HumanEval) geralmente se concentram em respostas a perguntas baseadas em conhecimento ou geração de código simples, enquanto o Task Arena se concentra mais nas "tarefas do mundo real" que os usuários mais frequentemente solicitam que seus agentes executem diariamente. • Conjunto de dados de ação: Permite que os agentes operem ferramentas e concluam processos de várias etapas, como enviar e-mails, agendar compromissos, gerenciar arquivos, criar documentos e realizar pesquisas. • Conjunto de dados de recuperação: Recuperar e sintetizar informações com precisão a partir de uma base de conhecimento específica, como responder a perguntas complexas sobre especificações de produtos, melhores práticas e alterações de versão. O repositório atual de conteúdo e escala contém principalmente dois conjuntos de dados JSON (aproximadamente 100 tarefas no total): • action.json: 51 sugestões de classes de execução, abrangendo 6 categorias principais (e-mail, calendário, documento, pesquisa, arquivo, fluxo de trabalho com várias etapas). • retrieval.json: 52 pares de perguntas e respostas do tipo recuperação, juntamente com as respostas esperadas e os critérios de avaliação. Cada tarefa oferece o seguinte: • Critérios de sucesso claros • Guia de pontuação manual (atualmente ainda requer avaliação manual para determinar se foi totalmente bem-sucedido) O repositório também fornece exemplos simples de carregamento em Python e TypeScript, bem como um script de cálculo de pontuação. Por que isso é considerado "muito importante"? No campo da avaliação de agentes, no final de 2025, tornou-se cada vez mais claro que uma pontuação alta em "conhecimento/raciocínio" por si só não significa necessariamente que um agente seja eficaz em trabalhos do mundo real. O Task Arena representa um novo tipo de benchmark "orientado à prática" (semelhante ao GAIA, WebArena e AgentBench), mas é mais leve, mais focado em cenários de escritório/produtividade e totalmente impulsionado pela comunidade. Endereço de código aberto:

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread