X (Twitter)

RAG -> RAG Agêntico -> Memória do Agente Gosto particularmente do blog da @helloiamleonie. Esta postagem explora a evolução gradual dos mecanismos de recuperação e armazenamento de informações em sistemas de IA. Baseada em um modelo mental simplificado, ela explica a transição da recuperação estática para o gerenciamento dinâmico de memória, ajudando os leitores a entender como os Modelos de Aprendizagem de Longo Prazo (LLMs) processam informações além de seu contexto, utilizando ferramentas externas. O cerne dessa evolução reside na transição de operações "somente leitura" para capacidades de "leitura e gravação", possibilitando, assim, agentes de IA mais personalizados e adaptáveis. RAG: O Ponto de Partida para Recuperação Única de Informações Somente para Leitura. Primeiramente, revisamos o RAG, uma tecnologia fundamental proposta em 2020 e que vem ganhando popularidade em 2023. O RAG aborda o problema da "ilusão" do LLM (Leitura de Longo Prazo) ao injetar conhecimento em um banco de dados vetorial externo. Seu processo consiste em duas etapas: uma etapa offline, onde os documentos são incorporados e armazenados; e uma etapa online, onde o contexto relevante é recuperado com base na consulta e combinado com dicas para gerar uma resposta. Por exemplo, o pseudocódigo demonstra sua simplicidade: • Ao armazenar documentos, gere um arquivo incorporado e armazene-o no banco de dados. • Ao responder a uma consulta, recupere os k principais resultados de uma só vez e insira-os nos prompts para gerar a saída. Os algoritmos RAG são excelentes na redução de ilusões, mas suas limitações são significativas: são uma solução pontual, incapazes de avaliar a necessidade ou relevância das recuperações; sua fonte de conhecimento é singular e carecem de um mecanismo de aprendizado, o que impossibilita a iteração a partir das interações. Isso os torna adequados para cenários simples de perguntas e respostas, mas não para cenários complexos de diálogo contínuo. RAG Agenic: Leitura Dinâmica Somente com Invocação de Ferramentas. Para superar a rigidez dos RAGs, este artigo introduz o RAG Agenic, que trata a recuperação de dados como uma "ferramenta" que o agente pode invocar. O agente não recupera dados passivamente, mas determina ativamente se deve invocar ferramentas (como buscas em bancos de dados ou consultas na web) e avalia a relevância dos resultados. Isso introduz um mecanismo de loop: o LLM gera uma resposta, executa a ferramenta se necessário e retorna o resultado, até que a ferramenta não seja mais necessária. No pseudocódigo, o agente recupera informações dinamicamente por meio de chamadas de ferramentas (como SearchTool), e o histórico de mensagens é acumulado gradualmente. Isso melhora a flexibilidade — o agente pode escolher as ferramentas apropriadas e evitar inserir informações irrelevantes. No entanto, ele permanece em um nível "somente leitura": as informações são armazenadas apenas offline, não podem ser modificadas ou personalizadas em tempo real e não podem "aprender" com as interações do usuário. Memória do Agente: O principal avanço nas operações de leitura e escrita reside na Memória do Agente, que estende o RAG Agenic para um sistema de leitura e escrita. Ao adicionar uma "ferramenta de escrita" (como a Ferramenta de Escrita), o agente pode não apenas recuperar, mas também armazenar, atualizar ou excluir informações. Isso cria um ciclo fechado de aprendizado a partir das interações: por exemplo, registrando preferências do usuário (como o hábito de usar emojis) ou eventos (como aniversários) e recuperando-os em conversas subsequentes. O pseudocódigo ilustra esse loop: se uma operação de escrita for realizada na resposta, a informação é armazenada no banco de dados e uma confirmação é enviada. Isso resolve diretamente os problemas das duas abordagens anteriores — o armazenamento dinâmico permite adaptação em tempo real e a recuperação personalizada aprimora a experiência do usuário. O artigo fornece um exemplo: o agente pode armazenar resumos de diálogos ou o histórico original, executando uma função de "lembrar" em vez de apenas "recuperar". Limitações e considerações práticas de modelos simplificados Leonie reconhece que este modelo é simplificado e não abrange memória multissource (como memória procedural: uso de expressões faciais; memória episódica: planos de viagem do usuário; memória semântica: conhecimento factual) ou estratégias avançadas de gerenciamento (como fusão de memória e esquecimento no MemGPT). Embora poderoso, ele introduz novos riscos, como corrupção de memória (interferência de informações desatualizadas) ou sobrecarga de gerenciamento. A implementação prática requer a combinação de detecção de eventos, geração de resumos e outras tecnologias para garantir a escalabilidade. Endereço do artigo

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread