X (Twitter)

Explicando os agentes RAG para iniciantes em dois minutos. O que são Agentes RAG? Os Agentes RAG são agentes inteligentes que recuperam contexto relevante de fontes de conhecimento especificadas pelo usuário (como documentos e bancos de dados), usam-no como âncoras para orientar o raciocínio e, em seguida, geram respostas ou executam ações (como invocar ferramentas). Uma vantagem fundamental é o fornecimento de fontes de citação e registros de verificação, evitando o problema da "ilusão" e garantindo resultados confiáveis e verificáveis. Etapas principais: Da recuperação à validação. Recuperar: Expandir palavras-chave da consulta, pesquisar em índices ou bancos de dados e classificar os resultados. • Ancoragem (Base): Selecione os fragmentos mais relevantes (como texto ou tabelas) a partir dos resultados. • Raciocínio: Sintetizar respostas ou planos de ação com base nesses contextos, utilizando apenas informações confiáveis. • Ação (Act): Gera uma resposta, invoca ferramentas (como consultas SQL, pesquisas na web, envio de e-mails) ou gera conteúdo. • Auditoria: Verificar a exatidão, a veracidade e a conformidade das citações; registrar logs de acompanhamento para facilitar a reprodução e a depuração. Visão geral da arquitetura · Módulo RAG: O núcleo é o Query Embedding, que transforma as consultas do usuário em vetores por meio de um modelo de incorporação e os compara com o conteúdo candidato de um banco de dados de vetores. O LLM processa o contexto aqui e gera uma resposta inicial. • Módulo de Agente de IA: Um agente baseado em LLM que se conecta à entrada do usuário, integra a saída RAG e se estende a ferramentas externas. • Expansão externa: Isso inclui pesquisa na web, chamadas de API (como serviços externos) e até mesmo "controle total". A arquitetura geral é em camadas: camada de índice (armazenamento vetorial ou busca híbrida), unidade de recuperação (reescrita e filtragem de consultas), reordenador (melhorando a precisão), unidade de leitura/inferência (geração de LLM), mecanismo de citação (com links para as fontes) e controlador (coordenando novas tentativas e chamadas de ferramentas). Além disso, a observabilidade é enfatizada: rastreando consultas, latência e custo. Padrões de recuperação eficazes melhoram a recordação e a precisão; técnicas práticas de recomendação de tópicos: Busca híbrida: Combinação de busca por palavra-chave (BM25) e busca vetorial para equilibrar abrangência e precisão. • Reescrita de consultas: Expanda abreviações, sinônimos ou filtros de tempo para evitar omissões. • Recuperação em múltiplos saltos: Primeiro, uma subconsulta é gerada e, em seguida, uma segunda recuperação é realizada para lidar com problemas complexos. • Reclassificar: Reavalie os 50 a 200 melhores resultados e selecione os 5 a 10 melhores. • Recuperação estruturada: bancos de dados SQL/gráficos são usados para fatos, e documentos são usados para conteúdo narrativo. Ao processar fontes de conhecimento, a chave é a estratégia de "fragmentação": • Segmentação adaptativa de blocos: 200 a 800 tokens de comprimento, com sobreposição de 10 a 20% para facilitar a incorporação. • Consciência de tabela: Prefira extrair linhas/agregados usando SQL em vez de texto simples. • Preservar os cabeçalhos das seções: Manter o título/ID para facilitar a citação e a reorganização. • Pontualidade: Adicione registros de data e hora para priorizar as informações mais recentes e resolver conflitos.

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread