RT @shao__meng: [Recomendação de código aberto] Task Arena: Um projeto de benchmark de código aberto iniciado pela equipe @joindimension, com o objetivo de avaliar o desempenho real de agentes em tarefas do mundo real. O principal objetivo deste projeto é que os benchmarks tradicionais de avaliação de modelos de IA (como MMLU e HumanEval) geralmente se concentram em respostas a perguntas baseadas em conhecimento ou em computação simples...
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.