Evaluación anual del desempeño de Devin 2025 El equipo de @cognition publicó el resumen oficial de fin de año de su ingeniero de software de IA, "Devin", 18 meses después del anuncio inicial. En lugar de usar calificaciones de A, B y C, adoptaron un enfoque más pragmático, detallando su desempeño real, fortalezas, debilidades y datos en un entorno empresarial real. Fue como realizar la evaluación de desempeño más honesta a un ingeniero de software. La posición actual real de Devin Devin no es un ingeniero completo y versátil, sino más bien una mezcla muy desequilibrada de habilidades: • En cuanto a las habilidades "mentales", como la comprensión de bases de código, la elaboración de planes, la redacción de documentación y la respuesta a preguntas complejas, han alcanzado el nivel de ingenieros senior; En términos de "capacidad de ejecución", como habilidades prácticas, toma de decisiones independiente y manejo de requisitos ambiguos, actualmente equivale a un ingeniero junior. Pero posee superpoderes que los humanos jamás podrán alcanzar: paralelismo infinito, paciencia infinita, nunca se cansa y la capacidad de ejecutar cientos de tareas simultáneamente. El uso más maduro y comercialmente valioso en 2025 Devin destaca en tareas "claramente definidas, verificables automáticamente y tediosas para los humanos", que suelen durar entre 4 y 8 horas. Puede gestionar un número ilimitado de estas tareas, "liberando a las personas del trabajo repetitivo". Los estudios de casos reales de clientes y las mejoras de eficiencia incluyen: • Corrección de vulnerabilidades de seguridad detectadas por herramientas de análisis estático: En promedio, se corrige una vulnerabilidad cada 1,5 minutos (en comparación con los 30 minutos que tarda un humano), lo que representa un aumento de la eficiencia de 20 veces. Como resultado, una gran institución financiera ahorró entre un 5 % y un 10 % de la plantilla de su equipo de desarrollo. • Migración a gran escala de lenguajes/marcos de sistemas heredados: El tiempo de migración para cada repositorio es solo entre 1/10 y 1/14 del que requeriría una persona. Grandes bancos han utilizado Devin para migrar cientos de miles de scripts ETL heredados y realizar actualizaciones completas por lotes de versiones de Java. • Generación automática de pruebas unitarias: Aumente la cobertura de pruebas del 50-60% al 80-90%, cubriendo cientos de repositorios en lotes. • Desarrollo de funcionalidades pequeñas y medianas en el proyecto Brownfield: Devin ha contribuido con aproximadamente un tercio de las contribuciones de código a la aplicación web de Cognition. • Análisis de datos y control de calidad: La empresa de tecnología del sueño EightSleep ofrece funciones relacionadas con los datos 3 veces más rápido; la empresa de tecnología legal Litera acorta su ciclo de pruebas de regresión en un 93 %. Mejoras clave en los datos para 2025: • La tasa de fusión de solicitudes de extracción aumentó del 34% el año pasado al 67%; • La velocidad de resolución de problemas aumentó cuatro veces, mientras que el consumo de recursos disminuyó un 50%; • Se han fusionado con éxito cientos de miles de solicitudes de extracción. Otro superpoder subestimado: una "IA veterana" siempre en espera. El progreso de Devin en la comprensión de las bases de código supera con creces las expectativas de la mayoría de la gente: • Puede leer 5 millones de líneas de código COBOL o un enorme repositorio de 500 GB en minutos, y luego DeepWiki genera y actualiza automáticamente de forma continua la documentación técnica completa y los diagramas de arquitectura del sistema. • Un determinado banco liberó directamente a varios equipos completos de documentación para que desarrollaran nuevas funcionalidades. Los ingenieros pueden conseguir que Devin elabore una arquitectura preliminar para un proyecto complejo para que el equipo la discuta en tan solo 15 minutos. Las tres principales deficiencias actuales (la postura oficial es clara) 1. La capacidad de ejecución independiente de extremo a extremo con requisitos poco claros aún es deficiente. Es fundamental proporcionar especificaciones muy claras, sobre todo en aspectos subjetivos como la interfaz de usuario y el diseño visual. Si los requisitos son vagos o no se pueden verificar automáticamente, seguirá presentando fallos con frecuencia. 2. El desempeño de Devin se resiente cuando los requisitos cambian con frecuencia durante una tarea. A diferencia de los ingenieros humanos con menos experiencia, Devin no se desenvuelve bien trabajando, discutiendo y revisando según sea necesario. Una vez que comienza una tarea, añadir requisitos constantemente puede complicarla fácilmente. Esto exige que los usuarios aprendan a explicar los requisitos de forma clara y completa en una sola intervención. 3. Sus habilidades sociales son nulas. No sabe liderar un equipo, no sabe manejar las emociones, no puede ser mentor individual, no sabe organizar actividades de integración de equipos... pero siempre es amable, siempre paciente y siempre responde a los mensajes al instante. Áreas clave de mejora en 2026: Continuar mejorando nuestra comprensión de bases de código reales y altamente complejas; Mejora significativamente la capacidad de colaborar con humanos en tareas complejas de principio a fin; • Mejorar la experiencia de interacción persona-ordenador, facilitando a los ingenieros la tarea de dirigir a Devin. Resumen y conclusiones clave El verdadero posicionamiento de Devin en 2025 no es "reemplazar a ingenieros senior", sino más bien: Se encarga de todas las tareas de nivel básico más tediosas, repetitivas y altamente paralelas, redirigiendo el tiempo de los ingenieros humanos de "20% codificación + 80% tareas diversas" a "70-80% codificación + diseño de alto valor". Dirección del blog
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
