X (Twitter)

2025 é amplamente reconhecido como o primeiro ano dos agentes inteligentes. Com 2025 quase no fim, quanto trabalho economicamente valioso esses agentes de IA realmente podem realizar para nós? Eu também tinha curiosidade sobre essa questão, e este artigo me deu algumas respostas. A Surge AI realizou um teste interessante: "contrataram" nove modelos de IA, incluindo os mais recentes GPT-5 e Claude Sonnet 4.5, e os colocaram para trabalhar como representantes de atendimento ao cliente em uma empresa simulada de peças de computador (chamada Corecraft), realizando 150 tarefas do mundo real. Faz sentido; o atendimento ao cliente é, de fato, o cenário de aplicação mais comum para agentes, além da programação. Adivinhe qual será o resultado? A classificação dos vários modelos está mais ou menos de acordo com o que eu esperava. Os mais fortes são o GPT-5 e o Claude Sonnet 4.5 (fico pensando se o Claude Opus 4.1 será melhor). Em termos de capacidade do modelo, foi um pouco melhor do que eu esperava. Os modelos mais fortes, GPT-5 e Claude Sonnet 4.5, falharam em mais de 40% das tarefas do agente, o que significa que a taxa de sucesso foi superior a 50%. O valor deste artigo reside não apenas no fato de terem realizado testes e analisado os dados, mas também no fato de terem proposto uma estrutura relativamente científica denominada "Hierarquia das Capacidades Agenciais". (Consulte a Figura 1, que também indica a localização aproximada desses modelos dentro da pirâmide.) Nível 1: Fundamentos (Utilização de Ferramentas + Planejamento) Esta é a base da pirâmide. Você precisa ser capaz de usar o sistema da empresa e entender as tarefas, certo? Por exemplo, a tarefa é "encontrar pedidos da placa-mãe SkyForge X670E Pro". Um modelo mais fraco (como o GPT-4o) simplesmente colocaria o nome do produto "SkyForge X670E Pro" na caixa de pesquisa para "product_id" (ID do produto). É como um estagiário digitar o nome de um cliente no campo do número do pedido. É claro que nada será encontrado. Nível Dois: Adaptabilidade (Os planos não conseguem acompanhar as mudanças) Certo, agora você já sabe como usar as ferramentas. Mas e se o sistema apresentar algum problema? Por exemplo, a tarefa poderia ser procurar placas gráficas da marca "Vortex Labs". Uma busca por um modelo de gama média (como a Gemini 2.5) não retorna nenhum resultado. Eles simplesmente diriam ao cliente: "Desculpe, não vendemos este produto." Mas o Claude 4.5 é um pouco mais esperto. Ele pensa: "Hum, não há espaço no sistema?" Então ele tenta procurar por "VortexLabs" (sem espaço), e eis que encontra! Isso é adaptabilidade. Se o Plano A falhar, você precisa do Plano B. Nível 3: Firmeza (Não invente isso) O termo "senso de realidade" é bastante apropriado; significa "Você se lembra do contexto?" ou "Você está tendo alucinações?". A IA é particularmente propensa a alucinações em tarefas com várias etapas. Isso exige que você "viva o momento presente", não invente coisas e se lembre de quem você é e onde você está. Por exemplo, a mensagem do sistema diz "Hoje é 2025". Alguns modelos (como o Kimi K2) irão então procurar encomendas a partir de 2024. Mais absurdo ainda é o caso de Claude, que, ao procurar clientes, "inventou" um endereço de e-mail completamente inexistente para usar na busca. Isso se chama "controle". Você ousaria usar esse tipo de agente de IA? Nível 4: Raciocínio de Senso Comum (Verdadeira "Inteligência") Este é o topo da pirâmide, e também onde o GPT-5 falhou desta vez. A questão não é mais "se a pessoa sabe ou não usar ferramentas", mas sim "se a pessoa é inteligente o suficiente". O artigo cita vários exemplos clássicos de falhas do GPT-5: 1. Um cliente diz: "Quero um reembolso; o pacote chegou há poucas horas." Um atendente humano imediatamente entende: trata-se de uma "devolução". O GPT-5 possui todas as informações, mas não associa "pacote chegou" com "reembolso" e não consegue determinar se é uma "devolução" ou um "cancelamento". 2. A tarefa era "encontrar clientes 'gamers' em agosto". Uma abordagem inteligente seria pesquisar na categoria "GPU" e incluir "games" na descrição da busca. A abordagem do GPT-5 foi pesquisar dia a dia, de 1º a 31 de agosto. Foram necessárias 31 buscas para finalmente encontrar os resultados por meio de uma busca exaustiva. Isso mostra que ele consegue executar a tarefa, mas... não é muito "inteligente". 3. O cliente disse: "O nome da minha conta deve ser Sarah Kim." O GPT-5 interpretou isso como um comando para "alterar o nome da conta". Mas, na verdade, o cliente queria dizer: "Meu nome é Sarah Kim, verifique rapidamente meus descontos de membro usando este nome!" O GPT-5 não conseguiu entender esse significado oculto. Então, vamos voltar à pergunta original. 2025 é o "Ano Um dos Agentes", mas isso não significa que já temos um agente de uso geral que possa fazer o trabalho. Em vez disso, finalmente temos uma IA "boa o suficiente" para passar pelas três primeiras camadas, boa o suficiente para que possamos começar a testar o quão estúpida ela realmente é na quarta camada (senso comum). Assim como na Figura 2, ainda há um longo caminho a percorrer para atingir o nível de "senso comum"! Recomendamos a leitura do artigo original:

Thread de 宝玉 (@dotey)

Informações do autor

Conteúdo da thread