X (Twitter)

De 71,8 % à 82,0 % : premier anniversaire des agents de navigateur. Après avoir atteint la vitesse et la rentabilité, la prochaine étape pour Browser Use est une fiabilité à toute épreuve. Principales réalisations de l'année écoulée (amélioration significative sur trois dimensions : GPT-4o -> BU 1.0) 1. Précision Il est passé de 71,8 % initialement à 82,0 % actuellement (sur un test de performance standard d'un navigateur). Cela signifie que le taux de réussite des agents intelligents dans l'exécution de tâches complexes d'interaction avec les pages Web (telles que les achats, le remplissage de formulaires et l'extraction de données) s'est considérablement amélioré. 2. Vitesse Le temps d'exécution moyen d'une tâche unique a diminué de 123 secondes à 33,4 secondes, ce qui représente une augmentation de vitesse d'environ 4 fois. Ceci est rendu possible grâce à de multiples refactorisations de la bibliothèque, à des optimisations des invites et à des améliorations du traitement parallèle, qui permettent aux agents d'agir plus rapidement et plus efficacement dans des environnements de navigateur réels. 3. Coût Le coût moyen par tâche est passé de 39,2 centimes à 1,9 centime (moins de 2 centimes pour les tâches de navigation simples). En mettant en œuvre des appels de modèles plus efficaces, en réduisant les tentatives invalides et en améliorant les stratégies de capture d'écran/d'observation, les coûts sont considérablement réduits, rendant possible un déploiement à grande échelle. Le principal goulot d'étranglement actuellement : la fiabilité Malgré des avancées révolutionnaires en matière de précision, de rapidité et de coût, les auteurs soulignent franchement que la fiabilité reste le point faible. Concrètement, cela se manifeste comme suit : • L’agent peut parfois se retrouver bloqué dans une boucle, mal interpréter les instructions ou échouer dans des cas particuliers ; Les défaillances ne sont souvent pas « élégantes » (opaques et difficiles à diagnostiquer). C’est pourquoi le taux de précision actuel reste à 82 % plutôt qu’à plus de 95 % – il est encore loin d’être véritablement « prêt pour la production ». L'équipe a annoncé que 2026 serait « l'année des agents fiables », avec un objectif clair pour 2026 : faire de la fiabilité une réalité. Les principaux domaines d'activité comprennent : • Permettre aux agents intelligents de « défaillir de manière transparente » (indiquer explicitement à l’utilisateur la raison de leur défaillance) et de fournir des journaux de diagnostic en cas de défaillance ; • Améliore considérablement le calibrage de la confiance du modèle, empêchant les agents de forcer des actions en cas d'incertitude ; En définitive, l'objectif est soit de mener à bien la tâche, soit d'expliquer clairement pourquoi elle ne peut être réalisée. Vision à long terme : Rendre l’automatisation du navigateur aussi omniprésente que l’électricité, libérant ainsi les humains des opérations répétitives sur les pages Web (remplir des formulaires, comparer les prix, surveiller, collecter des données, etc.).

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil