RT @shao__meng: [Recomendación de código abierto] Task Arena: Un proyecto de evaluación comparativa de código abierto iniciado por el equipo de @joindimension, destinado a evaluar el rendimiento real de los agentes en tareas del mundo real. El objetivo principal de este proyecto es que los benchmarks tradicionales de evaluación de modelos de IA (como MMLU y HumanEval) a menudo se centran en la respuesta a preguntas basadas en el conocimiento o en cálculos simples...
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.