[Nuevo benchmark para agentes de codificación] cline-bench: Una nueva iniciativa de benchmark de código abierto y basada en datos reales para agentes de codificación, desarrollada por el equipo de @cline. El objetivo principal de esta iniciativa es abordar dos grandes problemas en el campo actual de la evaluación de agentes de codificación: los benchmarks existentes (como SWE-Bench) son demasiado académicos, carecen de credibilidad y son fácilmente manipulables; y existe una falta de entornos de alta calidad adecuados para el entrenamiento en aprendizaje por refuerzo. ¿Por qué es necesario el banco cline? Los benchmarks de agentes codificados convencionales actuales (como SWE-Bench y SWE-Bench Verified) presentan los siguientes problemas: • Las tareas son demasiado estáticas y simplistas: la mayoría se basan en un único problema de GitHub y requieren que el agente genere un parche de inmediato, lo que dificulta reflejar los complejos procesos de múltiples iteraciones, depuración y uso de herramientas en el desarrollo real. • Alto riesgo de contaminación de datos y manipulación de puntuaciones: Muchas tareas se han filtrado en los datos de entrenamiento, lo que provoca que el modelo tenga un rendimiento artificialmente alto en la prueba de referencia, pero un rendimiento deficiente en la ingeniería real. • Difícil de usar para el entrenamiento de modelos: Los benchmarks existentes carecen de entornos interactivos y no se pueden usar directamente como entornos de entrenamiento para RL. • Evaluación incompleta: Ignora indicadores clave como la estabilidad a largo plazo del agente en proyectos del mundo real, la comprensión del contexto y las capacidades de recuperación de errores. El equipo de Cline considera que, con modelos como Claude Sonnet 4.5 y GPT-5.1 alcanzando puntuaciones cercanas al 70-80 % en SWE-Bench, simplemente buscar altas puntuaciones en esta prueba ya no es significativo. La industria necesita un sistema de evaluación más exigente, realista y fiable para impulsar un progreso real en los agentes codificados de próxima generación. filosofía de diseño central de Cline-bench 1. Derivado íntegramente de proyectos reales de código abierto: • Las tareas se toman directamente del historial de desarrollo real de repositorios de código abierto populares (como Django, Matplotlib, SymPy, etc.). Esto incluye desafíos reales a los que se enfrentan los ingenieros en su trabajo diario, como la modificación de múltiples archivos, dependencias complejas, refactorización, optimización del rendimiento y actualizaciones de documentos. • La dificultad de las tareas es mucho mayor que la de SWE-Bench, y una sola tarea puede requerir docenas o incluso cientos de pasos de interacción. 2. Entorno interactivo de alta fidelidad: • Proporciona instantáneas completas del repositorio Git, emulador de terminal y acceso al sistema de archivos. • El agente inteligente puede ejecutar libremente comandos (git, pytest, pip, bash, etc.), editar archivos varias veces, ejecutar pruebas, ver errores y depurarse a sí mismo. • Admite diálogos e iteraciones de múltiples turnos, simulando de forma realista el flujo de trabajo de los desarrolladores humanos. 3. Puede utilizarse directamente para el entrenamiento de aprendizaje por refuerzo: Cada tarea es un entorno de aprendizaje por refuerzo completo al estilo de OpenAI Gym. Los investigadores/empresas pueden usarlo directamente para entrenar sus propios modelos de agentes codificados (de forma similar a AlphaCode o a los proyectos de aprendizaje por refuerzo de código de OpenAI). 4. Mecanismo abierto, transparente y antifraude: • Completamente de código abierto (el código, el conjunto de datos y los scripts de evaluación están disponibles públicamente). • Utilice un conjunto de pruebas privado y tareas actualizadas regularmente para evitar la contaminación de datos. • Animar a las comunidades a que aporten tareas del mundo real. Los principales usos de cline-bench (tres valores principales identificados oficialmente) 1. Evaluación fiable: Proporcionar a desarrolladores, investigadores y empresas una referencia de puntuación verdaderamente creíble, evitando ser engañados por cifras de marketing. 2. Alineación y entrenamiento del modelo: Proporciona un entorno de aprendizaje por refuerzo de alta calidad para ayudar a los usuarios a entrenar agentes codificados que funcionen bien en proyectos de ingeniería del mundo real. 3. Impulsar el progreso de la industria: Establecer un punto de referencia impulsado por la comunidad y en continua iteración para reemplazar el anticuado SWE-Bench.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![[Nuevo benchmark para agentes de codificación] cline-bench: Una nueva iniciativa de benchmark de código abierto y basada](https://pbs.twimg.com/media/G6Pb93hbQAAAdNx.jpg)