X (Twitter)

Aprenda "Engenharia de Contexto" com as melhores equipes de IA. Criamos um agente de IA com capacidades de "percepção, filtragem, refinamento e persistência" através de quatro métodos: "purificação de informação, sincronização de estado, poda dinâmica e aceleração de desempenho". I. Purificação da Informação: Garantir que o modelo receba apenas sinais de fundo de alta relevância. Em engenharia de contexto, a relação sinal-ruído (SNR) determina o limite superior das capacidades de inferência do agente. Quando o modelo se depara com bases de código extensas ou documentos longos, a simples correspondência de vetores RAG deixa de ser suficiente. 1. Completamento semântico Pesquisas da Anthropic e da Chroma apontam que a recuperação tradicional de fragmentos leva à formação de silos de informação. O cerne da engenharia de contexto reside no "pré-processamento", que envolve a inserção de um contexto global em cada fragmento de informação antes de armazená-lo usando um modelo. Por exemplo, ao indexar um trecho de código, a engenharia de contexto força a inclusão das informações da arquitetura do projeto, garantindo que o conteúdo recuperado seja "autoexplicativo". 2. A engenharia de contexto com reordenação dinâmica não confia na classificação original dos resultados da busca. Ela enfatiza que a informação deve passar por um processo de "purificação" antes de entrar no contexto do modelo. Um modelo leve realiza uma avaliação secundária dos N resultados principais recuperados, eliminando elementos irrelevantes para a lógica de instrução atual, evitando assim que o modelo se perca em textos longos. II. Sincronização de Estado: Mapeamento do Ambiente de Execução Externo para a Cognição do Modelo em Tempo Real. Um agente maduro não deve existir apenas dentro de uma caixa de diálogo. O segundo pilar da engenharia de contexto é o mapeamento do "ambiente físico" para a cognição do modelo em tempo real. 1. Imagem do sistema em tempo real As práticas de Cline e Manus demonstram que a engenharia de contexto exige a integração da árvore de arquivos, da saída do terminal e até mesmo do estado atual da interface do usuário ao contexto em tempo real. Isso significa que o contexto deixa de ser um texto estático e passa a ser um "painel de controle" dinamicamente atualizado. Após a conclusão de uma operação pelo modelo, o feedback ambiental (sucesso, erro ou saída) deve ser imediatamente apresentado ao final do contexto em um formato padronizado. 2. Reflexão de Objetivos e Ancoragem de Tarefas: Em tarefas de longo percurso, os modelos são propensos a "desvios". Uma excelente engenharia de contexto ancora repetidamente o objetivo principal atual em pontos-chave do contexto (como o final de um diálogo ou avisos do sistema). Essa técnica, chamada de "reflexão de objetivos", garante que o modelo sempre se lembre da intenção inicial do usuário ao lidar com subtarefas complexas. 3. Poda Dinâmica: Manter um espaço de contexto lógico a longo prazo, eliminando memórias redundantes, é dispendioso e sofre de "corrupção de contexto". À medida que o número de rodadas de diálogo aumenta, informações iniciais de exploração inúteis podem interferir em decisões subsequentes. 1. Compressão automatizada e destilação de estado Ampcode e Cline defendem uma estratégia de "redução de entropia". Quando o contexto se aproxima de um limite predefinido, o sistema aciona automaticamente um mecanismo de "destilação": resumindo logicamente os detalhes triviais da história e retendo apenas os fatos principais e as conclusões finais. Esse método pode transformar contextos originalmente extensos em pontos concisos e fáceis de memorizar por meio de "resumos deslizantes". 2. Criação de Contexto e Isolamento de Tarefas: Para problemas complexos, a engenharia de contexto adota uma estratégia de "criação de contexto". Quando uma tarefa principal gera uma subtarefa independente, o sistema clona um ambiente de contexto limpo para a subtarefa, contendo apenas as variáveis globais necessárias. Isso garante o isolamento entre as tarefas e impede que diferentes fluxos lógicos colidam na mesma janela de contexto. IV. Aceleração de desempenho: equilibrando velocidade de resposta e custo usando mecanismos de cache. Por fim, há a questão do desempenho de execução. A engenharia de contexto aborda não apenas a precisão, mas também a velocidade e o custo. 1. **Cache de palavras-chave:** Este é o avanço de engenharia mais significativo impulsionado recentemente por empresas como a Anthropic. Na engenharia de contexto, uma grande quantidade de informações preexistentes (como prompts do sistema, código base do projeto e documentação de bibliotecas comumente usadas) é repetida em diferentes rodadas. Ao armazenar em cache esse "conteúdo de prefixo", o modelo não precisa recalcular os pesos de atenção das partes repetidas ao processar novas entradas. Isso não apenas reduz significativamente a latência da geração da primeira palavra, mas também diminui diretamente os custos de inferência. 2. Reutilização de Threads Minimalistas e Cache de Chave-Valor Manus e sua equipe enfatizaram o contexto "orientado a acréscimos". Ao projetar cuidadosamente a estrutura do contexto, cada nova interação é um acréscimo linear à anterior, em vez de uma reescrita. Essa abordagem de engenharia maximiza a reutilização de caches de chave-valor do lado do servidor, permitindo que o agente mantenha tempos de resposta na ordem de milissegundos, mesmo ao lidar com bases de código de grande escala. Em resumo, o objetivo final da engenharia de contexto é construir um sistema de memória dinâmica para agentes de IA que possua as capacidades de "percepção, filtragem, refinamento e persistência". A purificação resolve o problema de "o que observar". • Resolveu simultaneamente o problema de "ver demais". • A abordagem de governança resolveu o problema de "ser capaz de prever com precisão". • A eficiência resolve o problema de "quão rápido assistir".

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread