[Recomendación de código abierto] Task Arena: Un proyecto de evaluación comparativa de código abierto iniciado por el equipo de @joindimension, destinado a evaluar el rendimiento real de los agentes en tareas del mundo real. El objetivo principal del proyecto es abordar el hecho de que los benchmarks tradicionales de evaluación de modelos de IA (como MMLU y HumanEval) a menudo se centran en responder preguntas basadas en el conocimiento o en la generación de código simple, mientras que Task Arena se centra más en las "tareas del mundo real" que los usuarios hacen realizar a sus agentes con mayor frecuencia a diario. • Conjunto de datos de acciones: Permite a los agentes operar herramientas y completar procesos de varios pasos, como enviar correos electrónicos, programar citas, administrar archivos, crear documentos y realizar investigaciones. • Recuperación de datos: Recuperar y sintetizar con precisión información de una base de conocimientos dada, como responder preguntas complejas sobre especificaciones de productos, mejores prácticas y cambios de versión. El repositorio actual de contenido y escala contiene principalmente dos conjuntos de datos JSON (aproximadamente 100 tareas en total): • action.json: 51 sugerencias de clases de ejecución, que cubren 6 categorías principales (correo electrónico, calendario, documento, investigación, archivo, flujo de trabajo de varios pasos). • retrievel.json: 52 pares de preguntas y respuestas de tipo recuperación, junto con las respuestas esperadas y los criterios de evaluación. Cada tarea proporciona lo siguiente: • Criterios de éxito claros • Guía de puntuación manual (actualmente todavía requiere un juicio manual para determinar si es completamente exitosa). El repositorio también proporciona ejemplos sencillos de carga en Python y TypeScript, así como un script para el cálculo de puntuaciones. ¿Por qué se considera "muy importante"? En el ámbito de la evaluación de agentes a finales de 2025, se hizo cada vez más evidente que una puntuación alta en "conocimiento/razonamiento" por sí sola no implica necesariamente que un agente sea eficaz en el trabajo real. Task Arena representa un nuevo tipo de prueba de rendimiento "orientada a la práctica" (similar a GAIA, WebArena y AgentBench), pero es más sencilla, se centra en escenarios de oficina y productividad, y está totalmente impulsada por la comunidad. Dirección de código abierto:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![[Recomendación de código abierto] Task Arena: Un proyecto de evaluación comparativa de código abierto iniciado por el eq](https://pbs.twimg.com/media/G6QtWgIacAERbra.jpg)