De 71,8% para 82,0%: primeiro aniversário do Browser Agents. Após alcançar velocidade e custo-benefício, o próximo passo do Browser Use é a verdadeira confiabilidade. Principais conquistas do último ano (melhoria significativa em três dimensões: GPT-4o -> BU 1.0) 1. Precisão Aumentou dos 71,8% iniciais para os atuais 82,0% (em um teste de benchmark padrão de navegador). Isso significa que a taxa de sucesso de agentes inteligentes na conclusão de tarefas complexas de interação com páginas da web (como compras, preenchimento de formulários e extração de dados) melhorou significativamente. 2. Velocidade O tempo médio de execução de uma única tarefa diminuiu de 123 segundos para 33,4 segundos, representando um aumento de velocidade de aproximadamente 4 vezes. Isso se deve a múltiplas refatorações da biblioteca, otimizações nos prompts e melhorias no processamento paralelo, que permitem que os agentes atuem de forma mais rápida e eficiente em ambientes reais de navegador. 3. Custo O custo médio por tarefa caiu de 39,2 centavos para 1,9 centavos (abaixo de 2 centavos para tarefas simples de navegação). Ao implementar chamadas de modelo mais eficientes, reduzir as tentativas inválidas e aprimorar as estratégias de captura de tela/observação, os custos são significativamente reduzidos, possibilitando a implantação em larga escala. O maior obstáculo no momento: Confiabilidade Apesar dos avanços inovadores em precisão, velocidade e custo, os autores apontam francamente que a confiabilidade continua sendo o elo mais fraco. Especificamente, isso se manifesta da seguinte forma: • O agente pode ocasionalmente ficar preso em um loop, interpretar mal as instruções ou falhar em casos extremos; As falhas muitas vezes não são "elegantes" (são opacas e difíceis de diagnosticar). É por isso que a taxa de precisão atual permanece em 82%, em vez de mais de 95% – ainda está longe de estar verdadeiramente “pronta para produção”. A equipe anunciou que 2026 será o "Ano dos Agentes Confiáveis", com um objetivo claro para 2026: tornar a confiabilidade uma realidade. As principais áreas de atuação incluem: • Permitir que agentes inteligentes "falhem de forma transparente" (informando explicitamente ao usuário o motivo da falha) e forneçam registros de diagnóstico quando falharem; • Melhora significativamente a calibração da confiança do modelo, impedindo que os agentes forcem ações quando houver incerteza; Em última análise, o objetivo é concluir a tarefa com sucesso ou explicar claramente por que ela não pode ser realizada. Visão de longo prazo: Tornar a automação do navegador tão onipresente quanto a eletricidade, liberando os humanos de operações repetitivas em páginas da web (preenchimento de formulários, comparação de preços, monitoramento, coleta de dados, etc.).
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
