Construindo uma estrutura multiagente eficiente, sensível ao contexto e de nível de produção. Esta publicação oficial do blog do Google explora como solucionar gargalos de desempenho causados pela sobrecarga de informações no desenvolvimento de agentes de IA complexos por meio de uma "engenharia de contexto" sistemática, propondo um conceito de design arquitetônico completamente novo usando o Google ADK como exemplo. Desafio principal: Gargalo de contexto. À medida que as tarefas processadas por agentes inteligentes se tornam cada vez mais complexas (como fluxos de trabalho de longo prazo, pesquisas aprofundadas e manutenção de código), a quantidade de informações que eles precisam rastrear cresce exponencialmente. Simplesmente expandir a "janela de contexto" do modelo não é uma solução de longo prazo, enfrentando três grandes pressões: • Custo e latência: Quanto maior o contexto, maior o custo da inferência e mais lento o tempo de resposta. • Atenuação do sinal: Uma grande quantidade de registros irrelevantes ou informações desatualizadas pode fazer com que o modelo "se perca" e não consiga capturar instruções importantes (Perdido no meio do processo). • Limitações físicas: Em cenários reais, a quantidade de dados (como resultados de pesquisa RAG ou registros de diálogo completos) eventualmente ultrapassará qualquer limite de janela fixo. Conceito central: O contexto é a "visão de compilação". O artigo propõe uma mudança fundamental de pensamento: em vez de encarar o contexto como um buffer de strings em constante expansão, ele deve ser visto como uma "visão compilada" do estado subjacente. • Dados de origem: Registros completos de sessão, memória de longo prazo e arquivos. • Compilador: Uma série de etapas de processamento responsáveis por filtrar, classificar e transformar dados. • Visão: O “contexto de trabalho” que é finalmente enviado ao LLM. Projeto arquitetônico chave A. Estrutura em camadas O ADK divide os dados contextuais em quatro níveis para separar o "armazenamento" da "apresentação": • Contexto de trabalho: Um prompt criado dinamicamente e usado apenas para a chamada atual. É temporário e otimizado. • Sessão: Um registro estruturado e persistente de interações (contendo mensagens do usuário, chamadas de ferramentas, mensagens de erro, etc.). É um "fato" objetivo. • Memória: Conhecimento de longo prazo (como preferências do usuário) que existe entre sessões. • Artefatos: Objetos de dados grandes (como PDFs, CSVs, logs longos). Eles são apenas referenciados (por nome/versão) e não colados diretamente no prompt. B. Processos de Tubulação (Fluxos e Processadores) Ao definir uma "cadeia de processamento" ordenada, os desenvolvedores podem controlar a geração de contexto como blocos de construção. Por exemplo, podem realizar verificações de permissão primeiro, depois inserir instruções do sistema e, finalmente, inserir o histórico compactado. Isso torna o processo de construção de contexto observável e testável. C. Gestão Inteligente de Relevância Para manter o contexto "conciso", o sistema e o agente trabalham juntos para determinar quais informações são necessárias neste momento: • Carregar artefatos sob demanda: Por padrão, o agente vê apenas referências a nomes de arquivos. Ele invoca ferramentas para carregar artefatos temporariamente somente quando tem certeza de que precisa visualizar o conteúdo. Esse processo é descartado após o uso, evitando a poluição permanente do contexto. • Recuperação de memória ativa/passiva: Busca ativa por memórias relevantes de longo prazo usando ferramentas ou as injeta automaticamente por meio de um pré-processador. • Compressão e Filtragem: Execute automaticamente tarefas em segundo plano no nível da sessão para "comprimir" registros antigos e detalhados em resumos ou filtrar diretamente ruídos irrelevantes de acordo com regras. D. Contexto Multiagente Em sistemas multiagentes, o ADK emprega um controle de escopo rigoroso para evitar a explosão de contexto e ilusões: • Transferência sob demanda: Quando o agente principal chama o agente filho, por padrão, nem todos os registros de histórico são passados, apenas as instruções necessárias e a quantidade mínima de contexto são transmitidas. • Narrativa contextualizada: Ao trocar de agente, o sistema converte as "mensagens do assistente" do agente anterior em "contexto narrativo" (por exemplo, "[Informações de contexto]: O agente A acabou de dizer..."). Isso impede que o novo agente acredite erroneamente que realizou as ações anteriores, evitando assim confusão cognitiva. O argumento central deste artigo é que o desenvolvimento de agentes de IA de nível de produção não pode depender unicamente do "empilhamento de tokens", mas deve estabelecer um sistema eficiente de gerenciamento do ciclo de vida do contexto. Ao visualizar o contexto como um sistema dinamicamente compilado, em camadas e carregado sob demanda, os desenvolvedores podem criar aplicativos de agentes inteligentes que sejam tanto inteligentes (com informações suficientes) quanto eficientes (baixa latência, baixo custo). Leia o texto original
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
