RT @shao__meng: [Nuevo benchmark para agentes de codificación] cline-bench: El equipo de @cline presenta una nueva iniciativa de benchmark de código abierto, orientada al mundo real, para agentes de codificación. El objetivo principal de esta iniciativa es abordar dos grandes problemas en el campo actual de la evaluación de agentes de codificación: los benchmarks existentes (como SWE-Bench) son demasiado académicos, carecen de credibilidad y son fácilmente influenciables…
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.