Del 71,8 % al 82,0 %: Primer aniversario de los agentes de navegador. Tras lograr velocidad y rentabilidad, el siguiente paso de Browser Use es la verdadera fiabilidad. Logros clave del año pasado (mejora significativa en tres dimensiones: GPT-4o -> BU 1.0) 1. Precisión Ha aumentado del 71,8% inicial al 82,0% actual (en una prueba de rendimiento estándar de tareas del navegador). Esto significa que la tasa de éxito de los agentes inteligentes a la hora de completar tareas complejas de interacción con páginas web (como compras, rellenar formularios y extracción de datos) ha mejorado significativamente. 2. Velocidad El tiempo promedio de ejecución de una sola tarea disminuyó de 123 segundos a 33,4 segundos, lo que representa un aumento de velocidad de aproximadamente 4 veces. Esto se debe a múltiples refactorizaciones de la biblioteca, optimizaciones de las solicitudes y mejoras en el procesamiento paralelo, que permiten a los agentes actuar de forma más rápida y eficiente en entornos de navegador reales. 3. Cost El coste medio por tarea se redujo de 39,2 céntimos a 1,9 céntimos (menos de 2 céntimos para tareas de navegación sencillas). Al implementar llamadas a modelos más eficientes, reducir los reintentos inválidos y mejorar las estrategias de captura de pantalla/observación, los costos se reducen significativamente, lo que hace posible la implementación a gran escala. El mayor obstáculo en la actualidad: la fiabilidad. A pesar de los avances revolucionarios en precisión, velocidad y coste, los autores señalan francamente que la fiabilidad sigue siendo el punto más débil. Específicamente, esto se manifiesta de la siguiente manera: • El agente puede ocasionalmente quedarse atascado en un bucle, malinterpretar las instrucciones o fallar en casos límite; Los fallos a menudo no son "elegantes" (opacos y difíciles de diagnosticar). Por eso la tasa de precisión actual se mantiene en el 82% en lugar del 95% o más; todavía está lejos de estar realmente "lista para producción". El equipo anunció que 2026 será el "Año de los Agentes Confiables", con un objetivo claro para 2026: hacer de la confiabilidad una realidad. Las principales áreas de trabajo incluyen: • Permitir que los agentes inteligentes "fallen de forma transparente" (indicando explícitamente al usuario el motivo del fallo) y proporcionen registros de diagnóstico cuando fallen; • Mejora significativamente la calibración de la confianza del modelo, evitando que los agentes fuercen acciones cuando no están seguros; En definitiva, el objetivo es completar la tarea con éxito o explicar claramente por qué no se puede realizar. Visión a largo plazo: Lograr que la automatización de los navegadores sea tan común como la electricidad, liberando a los humanos de las operaciones repetitivas en las páginas web (rellenar formularios, comparar precios, monitorizar, recopilar datos, etc.).
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
