Bilan annuel de performance de Devin pour 2025 L'équipe @cognition a publié son bilan annuel officiel concernant son ingénieur logiciel IA, « Devin », 18 mois après l'annonce initiale. Au lieu d'utiliser un système de notes (A, B, C), elle a opté pour une approche plus pragmatique, en détaillant ses performances concrètes, ses points forts, ses points faibles et les données recueillies dans un environnement d'entreprise réel. C'était comme donner à un « ingénieur non humain » l'évaluation de performance la plus honnête qui soit. La véritable position actuelle de Devin Devin n'est pas un ingénieur polyvalent et complet, mais plutôt un mélange très déséquilibré de compétences : • En termes de compétences « mentales », telles que la compréhension des bases de code, l’élaboration de plans, la rédaction de documentation et la réponse à des questions complexes, ils ont atteint le niveau d’ingénieurs seniors ; En termes de « capacité d'exécution », notamment en ce qui concerne les compétences pratiques, la prise de décision indépendante et la gestion des exigences ambiguës, il est actuellement équivalent à un ingénieur junior. Mais elle possède des superpouvoirs que les humains ne pourront jamais atteindre : un parallélisme infini, une patience infinie, l’absence de fatigue et la capacité d’exécuter des centaines de tâches simultanément. L'utilisation la plus aboutie et la plus rentable commercialement en 2025 Devin excelle dans les tâches « clairement définies, automatiquement vérifiables et fastidieuses pour les humains », d'une durée typique de 4 à 8 heures. Il peut gérer un nombre illimité de ces tâches, libérant ainsi véritablement les individus des travaux répétitifs. Les études de cas clients et les améliorations d'efficacité concrètes comprennent : • Correction des failles de sécurité détectées par les outils d'analyse statique : en moyenne, une faille est corrigée toutes les 1,5 minutes (contre 30 minutes pour un humain), soit un gain d'efficacité d'un facteur 20. Grâce à cette solution, une grande institution financière a économisé entre 5 et 10 % des effectifs de son équipe de développement. • Migration à grande échelle des langages et frameworks de systèmes existants : le temps de migration pour chaque référentiel est seulement 10 à 14 fois inférieur à celui d’un humain. De grandes banques ont utilisé Devin pour migrer des centaines de milliers de scripts ETL existants et effectuer des mises à niveau par lots de leurs versions Java. • Générer automatiquement des tests unitaires : Augmenter la couverture des tests de 50-60 % à 80-90 %, couvrant des centaines de dépôts par lots. • Développement de fonctionnalités de petite et moyenne envergure dans le cadre du projet Brownfield : Devin a contribué à environ un tiers des modifications de code de l’application web de Cognition. • Analyse des données et assurance qualité : EightSleep, société spécialisée dans les technologies du sommeil, propose des fonctionnalités liées aux données 3 fois plus rapidement ; Litera, société spécialisée dans les technologies juridiques, raccourcit son cycle de tests de régression de 93 %. Principales améliorations des données d'ici 2025 : • Le taux de fusion des demandes d'extraction est passé de 34 % l'année dernière à 67 % ; • La vitesse de résolution des problèmes a été multipliée par 4, tandis que la consommation de ressources a diminué de 50 % ; • Des centaines de milliers de demandes de fusion ont été fusionnées avec succès. Une autre superpuissance sous-estimée : une « IA vétérane » toujours en alerte. Les progrès de Devin dans la compréhension des bases de code dépassent de loin les attentes de la plupart des gens : • Il peut lire 5 millions de lignes de code COBOL ou un référentiel massif de 500 Go en quelques minutes, puis DeepWiki génère et met à jour automatiquement et en continu la documentation technique complète et les schémas d'architecture système. • Une banque a directement libéré plusieurs équipes de documentation entières pour développer de nouvelles fonctionnalités. Les ingénieurs peuvent obtenir de Devin une architecture préliminaire pour un projet complexe, que l'équipe pourra ensuite discuter en seulement 15 minutes. Les trois principaux défauts actuels (la position officielle est sans équivoque) 1. La capacité d'exécution indépendante de bout en bout, même avec des exigences vagues, reste faible. Des spécifications très claires sont indispensables, notamment dans les domaines subjectifs comme l'interface utilisateur et la conception visuelle. Si les exigences sont vagues ou ne peuvent être vérifiées automatiquement, les échecs seront fréquents. 2. Les performances de Devin se dégradent lorsque les exigences changent fréquemment au cours d'une tâche. Contrairement aux ingénieurs juniors, Devin a du mal à « travailler, discuter et réviser selon les besoins ». Une fois la tâche commencée, l'ajout constant d'exigences peut facilement tout perturber. Il est donc essentiel que les utilisateurs apprennent à « expliquer clairement et complètement les exigences en une seule fois ». 3. Ses compétences relationnelles sont inexistantes. Il est incapable de diriger une équipe, de gérer les émotions, d'être un mentor individuel ou d'organiser des activités de cohésion d'équipe… mais il est toujours aimable, toujours patient et répond toujours instantanément aux messages. Principaux axes d’amélioration en 2026 : Continuer à approfondir notre compréhension des bases de code réelles et très complexes ; Améliore considérablement la capacité à collaborer avec des humains sur des tâches complexes de bout en bout ; • Améliorer l’expérience d’interaction homme-machine, afin de faciliter le pilotage de Devin par les ingénieurs. Résumé et principales conclusions Le véritable positionnement de Devin en 2025 n'est pas de « remplacer les ingénieurs seniors », mais plutôt : Il prend en charge toutes les tâches d'entrée de gamme les plus fastidieuses, répétitives et hautement parallèles, permettant aux ingénieurs de passer de « 20 % de codage + 80 % de tâches diverses » à « 70-80 % de codage + conception à forte valeur ajoutée ». Adresse du blog
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
