A leitura do artigo perspicaz de Manus, "Context Engineering for AI Agents: Lessons from Building Manus", continuou sendo muito gratificante e inspiradora. @ManusAI Como podemos resolver os problemas de agentes de IA que estão se tornando mais lentos, menos inteligentes e mais caros, otimizando drasticamente a estrutura de informações contextuais de entrada para o modelo, sem alterar o próprio modelo? Essencialmente, trata-se de construir um "sistema operacional centrado em um LLM", e esses aspectos foram descritos abaixo. Otimização de desempenho: Proteja o "KV-Cache" como se fosse um banco de dados. Problema: Os agentes são lentos e caros, essencialmente porque realizam muitos cálculos repetitivos para cada solicitação. Informação técnica: Durante a inferência de modelos complexos, um cache KV temporário é gerado. Se a primeira parte das suas solicitações de entrada permanecer inalterada, esse cache pode ser reutilizado, tornando a inferência mais de 10 vezes mais rápida. A solução de Manus: estratégia de "congelamento de prefixos". Nunca insira informações que mudam dinamicamente (como um registro de data e hora preciso ao segundo) no início do prompt do sistema. Alterar até mesmo um único caractere no início invalidará todo o cache KV, forçando o sistema a recomeçar o cálculo do zero. Isso é semelhante a colocar "constantes estáticas" no início e "variáveis dinâmicas" no final ao escrever código para maximizar a taxa de acertos de cache. Gestão do Estado: Combatendo a "Amnésia" dos Grandes Modelos Problema: À medida que a cadeia de tarefas se alonga, o modelo fica propenso a "se perder no meio do caminho", esquecendo seu objetivo inicial ou um determinado estado intermediário. Análise técnica: A arquitetura Transformer dá maior atenção ao início e ao fim de textos longos, mas pouca atenção ao meio. Simplesmente acumular o histórico de tarefas no meio faz com que o modelo "ignore" certas partes. A solução para Manus é a "Recitação Explícita do Estado". Não se trata apenas de registrar informações; isso força o modelo a regenerar a lista de tarefas atual e o estado atual ao final de cada saída. Isso aproveita o mecanismo de atenção do Transformer: ele move à força as informações de estado mais importantes para o ponto mais recente na linha de visão do modelo, o que equivale a realizar uma "calibração de atenção" antes de cada inferência. Tratamento de erros: Trate as "mensagens de erro" como dados de treinamento. Problema: O software tradicional geralmente detecta e tenta novamente quando encontra um erro, mas para agentes, se o registro de erros for excluído, o modelo não saberá que acabou de cometer um erro e poderá repeti-lo. Visão técnica: Modelos de grande porte possuem capacidades de aprendizado contextual. Eles podem não apenas aprender "como fazer as coisas corretamente", mas também aprender "com os erros". A solução de Manus: preservar o contexto da "amostra negativa". • Quando a ferramenta de execução do agente falha, toda a pilha de erros é preservada. O modelo vê "caminho A -> falha" e sua distribuição de probabilidade interna reduz automaticamente o peso do caminho A na próxima inferência. Este é um tipo de aprendizado por reforço em tempo de execução. Você não precisa treinar o modelo; basta deixar os "cadáveres de falha" no ambiente, e o modelo aprenderá a encontrar caminhos alternativos por conta própria. Exemplo de projeto: Impedir que o modelo entre no "modo de preenchimento automático" Problema: Se você der ao seu modelo um formato de poucas fotos que seja perfeito demais e uniforme demais, o modelo ficará sem graça. Análise técnica: Modelos de grande porte têm uma forte tendência a "copiar padrões" em sua essência. Quando percebem que a entrada de dados está toda em um formato repetitivo, tendem a copiar o formato mecanicamente e param de pensar na lógica do conteúdo. A solução de Manus: Introduzir "entropia estrutural" (ruído). • Evite que os registros históricos de interação pareçam idênticos. Ao construir o Contexto, mantenha intencionalmente alguns registros heterogêneos e imperfeitos. Essa sutil "sensação de caos" quebra a inércia mecânica do modelo, forçando-o a realmente "compreender" o conteúdo atual a cada vez para gerar uma resposta, em vez de simplesmente completar o texto. Leia o texto original
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
