X (Twitter)

Existem dois caminhos completamente diferentes para que os agentes de IA se tornem mais fortes. Uma delas é a habilidade, que significa equipar-se com habilidades e absorver novas capacidades diretamente no cérebro. Outra abordagem é o Subagente, que funciona como enviar um subordinado para realizar o trabalho enquanto você apenas visualiza os relatórios. Ambas as abordagens podem parecer tornar o agente mais poderoso, mas são aplicáveis a cenários diferentes. Se você usar a abordagem errada, seu agente poderá ficar mais lento e caótico quanto mais você a utilizar. As habilidades são como plugins para o agente principal. Por exemplo, se o seu agente só pudesse conversar e agora você quisesse que ele criasse apresentações em PowerPoint, o Skills faz isso incorporando a descrição da funcionalidade de criação de PPT, como usar a ferramenta e notas importantes no contexto do agente principal. O agente principal aprende essa habilidade por meio do contexto e, então, pode criar PPTs por conta própria. O segundo tipo é chamado de Subagente, que é semelhante à terceirização. De forma semelhante, ao criar uma apresentação em PowerPoint, a abordagem SubAgent funciona da seguinte maneira: o agente principal atribui a tarefa a um subagente dedicado para criar a apresentação, que então conclui a tarefa de forma independente e envia os resultados. O agente principal não participa da execução propriamente dita; ele é responsável apenas pela atribuição da tarefa e pelos testes de aceitação. Uma é capacidade interna, a outra é capacidade terceirizada. Ambas parecem capazes de lidar com a tarefa, então qual é a diferença? A diferença reside na gestão do contexto, onde o contexto é a memória da IA. Você pode pensar no contexto da IA como uma bancada de trabalho. O tamanho da mesa é fixo; quanto mais coisas você coloca nela, mais difícil fica encontrar o documento que precisa. Esse é o problema da capacidade de contexto. No modo Habilidades, todas as descrições de habilidades são dispostas na mesma tabela. A vantagem é o compartilhamento de informações; o agente principal pode ver todos os resultados intermediários e o processo de raciocínio é coerente. A desvantagem é que a tabela rapidamente fica confusa, as instruções se tornam cada vez mais longas, as habilidades podem entrar em conflito e a IA começa a se confundir. No modo Subagente, o Subagente trabalha em uma mesa separada. Ao concluir, ele entrega os resultados, deixando para trás todos os rascunhos e arquivos intermediários gerados durante o processo. A área de trabalho do Agente principal permanece limpa. A desvantagem é que a transferência de informações deve ser cuidadosamente planejada; caso contrário, informações críticas podem ser perdidas durante a transferência. Este é o problema da poluição contextual. Essa poluição não é uma metáfora exagerada, mas um gargalo real na engenharia. Quando você deve usar cada método? Os critérios de avaliação são, na verdade, bastante simples: qual a complexidade da subtarefa e se você precisa das informações geradas durante o processo de conclusão da tarefa. Essas habilidades são adequadas para cenários em que a tarefa em si não é muito complexa ou em que é necessário que o agente principal tenha controle total. Por exemplo, o Agente pode funcionar como uma rota de entrada, carregando diferentes "modos de cenário" com base nas solicitações do usuário, como entrar em um modo de resumo do YouTube ou um modo de criação de relatórios. É aqui que o recurso de carregamento sob demanda do Skills se destaca: ele carrega inicialmente apenas o nome e a descrição da habilidade, carregando a descrição completa somente quando a habilidade é realmente necessária. Diferentemente do MCP, que inclui toda a documentação detalhada de cada ferramenta no contexto. O SubAgent é adequado para cenários em que as subtarefas são complexas, demoradas e os processos intermediários são verbosos. O exemplo mais típico são as ferramentas de depuração do navegador. A funcionalidade MCP (Multi-Context Point) do Chrome DevTools é poderosa, mas sua documentação é muito extensa, e incluí-la no agente principal consumiria muito contexto. Ao encapsulá-la como um Subagente, basta dizer "verifique os logs, tire screenshots e analise-os", e o processo será executado e os resultados da análise serão retornados. Todas as screenshots, detalhes da árvore DOM e detalhes das requisições de rede permanecem com o Subagente, sem poluir o contexto do agente principal. Jogabilidade avançada Curiosamente, os modos Skills e SubAgent podem ser combinados. Aprendi essa técnica com @yan5xu (https://t.co/uSkwSUvNiJ). A primeira abordagem é chamada de "expandir primeiro e depois comprimir". Por exemplo, imagine que você tenha uma sessão de brainstorming de duas horas, e o quadro branco esteja cheio de rascunhos, argumentos e soluções descartadas. Mas, no final, apenas três conclusões são registradas na ata da reunião. Esses processos intermediários são importantes para chegar às conclusões, mas são apenas ruído para quem as implementa posteriormente. O agente também pode operar dessa forma. O agente principal detecta a necessidade de uma determinada habilidade, carrega-a, realiza uma série de operações e obtém o resultado. Em seguida, todo o processo, desde o "carregamento da habilidade" até a "obtenção do resultado", é condensado, retendo-se apenas a conclusão final. Para o raciocínio subsequente, é como realizar uma reunião, mas mantendo apenas a ata. A segunda abordagem consiste em usar um sistema de arquivos como uma "estação de transferência". Imagine que você está gerenciando uma equipe terceirizada. Você não condensaria todos os detalhes dos requisitos em uma única mensagem no WeChat; em vez disso, diria: "O documento de requisitos está neste link, dê uma olhada". Da mesma forma, a equipe terceirizada não simplesmente copiaria e colaria o código-fonte na sua entrega; em vez disso, diria: "O código está neste repositório e a documentação de implantação está aqui". Os agentes também podem colaborar dessa forma. Quando o agente principal delega uma tarefa, ele não inclui informações de contexto extensas no comando; em vez disso, armazena a tarefa como um documento e envia apenas um endereço. O subagente responde da mesma maneira: fornecendo um breve resumo do status — "Concluído/Travado/Requer sua decisão" — além do endereço detalhado do documento. O agente principal decide se clica para ver os detalhes, dependendo da situação. Isso mantém o contexto conciso para ambas as partes. O terceiro tipo são as técnicas práticas de Claude Code. Quando o contexto estiver quase esgotado, peça a Claude que resuma o trabalho concluído em um documento. Em seguida, use a função de retroceder para voltar ao estado anterior ao início da tarefa, informando: "Concluí esta tarefa e a registrei neste arquivo." A que isso equivale? É como correr uma maratona e perceber que está exausto perto da linha de chegada. Então você mapeia o percurso já feito, salva o mapa e depois se "teletransporta" de volta ao ponto de partida, cheio de energia, dizendo: "Eu sei como chegar lá, o mapa está aqui". O contexto se dissipa, mas os resultados são preservados. Esse método permite que você recupere a situação antes que o contexto se esgote. afinal A competição entre os agentes está mudando de "quantas ferramentas podem ser invocadas" para "como gerenciar essas ferramentas de forma elegante". Muitas pessoas buscam as estruturas de agentes mais recentes e as extensões de recursos mais sofisticadas, mas ignoram a questão fundamental: a memória de trabalho da IA é limitada, e a forma como você a organiza determina a complexidade das tarefas que ela pode executar. Habilidades e Subagentes não são escolhas mutuamente exclusivas, mas sim duas ferramentas que só revelam seu valor quando usadas no contexto certo. Em última análise, o projeto de arquitetura de agentes e o projeto de arquitetura de software têm muitas semelhanças. A lógica deve ser escrita em uma função gigante ou dividida em microsserviços modulares? É mais fácil compartilhar variáveis globais ou manter a limpeza por meio de isolamento rigoroso? Esses velhos problemas retornaram sob uma nova forma.

Thread de 宝玉 (@dotey)

Informações do autor

Conteúdo da thread