X (Twitter)

[Blog de Engenharia Antrópica] Uma estrutura eficiente para a construção de agentes inteligentes de longa duração A mais recente publicação do blog de engenharia da Anthropic explora como projetar "frameworks" eficazes para agentes de longa duração, visando lidar com os desafios da execução contínua de tarefas complexas em múltiplas sessões. Baseado na experiência prática com o SDK do Agente Claude, o artigo enfatiza o uso de ambientes estruturados e fluxos de trabalho progressivos para permitir que os agentes avancem nos projetos passo a passo, como engenheiros de software humanos, em vez de tentar realizar tudo de uma só vez. O principal desafio dos agentes de longa duração é que eles visam lidar com tarefas complexas que se estendem por horas ou dias, como a construção de um projeto de software completo e complexo. No entanto, devido à capacidade limitada da janela de contexto, cada sessão é como começar do zero: o agente não possui memória prévia e está propenso a cair na armadilha do "tudo de uma vez" — tentando lidar com todo o projeto em uma única sessão, o que leva à exaustão do contexto, código confuso ou documentação incompleta. Outros problemas comuns incluem: • Declaração prematura de conclusão: Agentes subsequentes, ao verem apenas progresso parcial, marcam incorretamente a tarefa como concluída. • Dificuldade em recuperar de um estado: Os agentes passam muito tempo tentando adivinhar o que fazer em trabalhos inacabados ou enfrentando dificuldades em um ambiente com bugs. • Ausência de testes: A funcionalidade parece estar completa, mas não passou pela verificação de ponta a ponta, ocultando possíveis problemas. Esses modos de falha são resumidos por meio de experimentos (como a construção de um projeto de clone da web com mais de 200 recursos) e soluções específicas são fornecidas, baseadas nas melhores práticas de engenharia de software, como o controle de versão Git e testes automatizados. A solução proposta, uma estrutura de agente duplo e uma solução de ambiente estruturado, introduz uma "estrutura" — um sistema composto por prompts, scripts e arquivos — para garantir um estado persistente e uma transição limpa entre sessões. Especificamente, envolve duas funções: 1. Agente Inicializador: Utilizado apenas na primeira sessão, responsável por configurar o ambiente inicial. Gera arquivos de chave, incluindo: • feature_list.json: Uma lista de funcionalidades em formato JSON, listando todas as tarefas (como "Criar Novo Chat"), cada uma incluindo uma descrição, etapas e um estado inicial "concluído" (falso). O formato JSON garante imutabilidade, impedindo edições posteriores. • claude-progress.txt: Um arquivo de registro que armazena ações e progresso. • init.sh: Script de inicialização usado para executar o servidor de desenvolvimento e testar funções básicas, reduzindo a sobrecarga de configuração subsequente. Após a inicialização, faça o primeiro commit no Git para criar uma base limpa. 2. Agente de Codificação: Dedicado às sessões subsequentes, com foco no progresso incremental. Cada sessão lida com apenas uma função: • Rotina de inicialização da sessão: Verificar o diretório (senha), revisar os logs do Git e os arquivos de progresso, executar o init.sh para iniciar o ambiente e verificar os testes principais. • Fluxo de trabalho: Selecione uma funcionalidade incompleta da lista JSON, codifique-a, confirme uma alteração descritiva no Git, atualize o status "aprovado" (somente após o teste ser aprovado) e registre a alteração. • Dê ênfase ao "estado limpo": Ao final, o código deve estar livre de erros, totalmente documentado e pronto para ser integrado diretamente à ramificação principal. Práticas-chave e integração de ferramentas: Listas de recursos e Git: Listas JSON evitam a "conclusão prematura", e o Git oferece suporte a reversão e rastreamento de histórico. Experimentos mostram que o JSON reduz modificações não autorizadas em comparação com o Markdown. • Testes de ponta a ponta: Integre ferramentas de automação de navegador (como o servidor Puppeteer MCP) para simular ações humanas (como clicar em modais ou verificar capturas de tela). Isso detecta erros de interação que passam despercebidos durante as revisões de código, mas o artigo também aponta limitações, como o tratamento de elementos nativos do navegador. • Estratégia de dicas: As dicas de inicialização e de codificação diferem — as primeiras focam na construção, enquanto as últimas enfatizam a funcionalidade individual e a validação. Use uma linguagem fortemente restritiva (como "nunca edite os testes") para evitar falhas. • Tabela de Modos de Falha: O apêndice do artigo resume problemas (como "Configuração de ofuscação") e soluções (como scripts padronizados) para facilitar a aplicação prática. Conclusões e Perspectivas A experiência da Anthropic demonstra que essa estrutura melhora significativamente a confiabilidade de agentes de longa duração: passando de falhas caóticas do tipo "um único acerto e fuga" para iterações contínuas e planejadas. Uma lição fundamental é aproveitar as práticas de engenharia humana (como controle de versão e desenvolvimento orientado a testes) combinadas com o potencial de automação da IA. Comece com projetos simples, examine os modos de falha e expanda para sistemas multiagentes (como agentes de teste dedicados). Direções futuras podem se generalizar para outros campos, como pesquisa científica ou modelagem financeira, explorando arquiteturas colaborativas mais complexas. Endereço do blog:

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread