X (Twitter)

RAG -> RAG agente -> Memoria del agente Me gusta especialmente el blog de @helloiamleonie. Esta entrada explora la evolución gradual de los mecanismos de recuperación y almacenamiento de información en los sistemas de IA. Basándose en un modelo mental simplificado, explica el paso de la recuperación estática a la gestión dinámica de la memoria, lo que ayuda a comprender cómo los modelos de aprendizaje automático (LLM) procesan información más allá de su contexto habitual mediante herramientas externas. La clave de esta evolución reside en el paso de las operaciones de solo lectura a las capacidades de lectura y escritura, lo que permite crear agentes de IA más personalizados y adaptativos. RAG: El punto de partida para la recuperación de lectura única. Primero, analizamos RAG, una tecnología fundamental propuesta en 2020 y que ganó popularidad en 2023. RAG aborda el problema de la "ilusión" de la gestión del lenguaje de aprendizaje (LLM) mediante la inyección de conocimiento en una base de datos vectorial externa. Su proceso consta de dos pasos: una etapa fuera de línea donde los documentos se insertan y almacenan; y una etapa en línea donde se recupera el contexto relevante según la consulta y se combina con sugerencias para generar una respuesta. Por ejemplo, el pseudocódigo demuestra su simplicidad: • Al almacenar documentos, genere un archivo incrustado y guárdelo en la base de datos. • Al responder a una consulta, recupere los k mejores resultados a la vez e insértelos en las solicitudes para generar la salida. Los RAG son excelentes para reducir las ilusiones, pero sus limitaciones son significativas: son una solución puntual, incapaces de evaluar la necesidad o relevancia de las recuperaciones; su fuente de conocimiento es única y carecen de un mecanismo de aprendizaje, lo que imposibilita la iteración a partir de las interacciones. Esto los hace adecuados para escenarios simples de preguntas y respuestas, pero no para escenarios de diálogo continuo y complejo. RAG Agente: Solo Lectura Dinámico con Invocación de Herramientas. Para superar la rigidez de los RAG tradicionales, este artículo presenta RAG Agente, que trata la recuperación de datos como una "herramienta" que el agente puede invocar. El agente ya no recupera datos de forma pasiva, sino que determina activamente si debe invocar herramientas (como búsquedas en bases de datos o consultas web) y evalúa la relevancia de los resultados. Esto introduce un mecanismo de bucle: el LLM genera una respuesta, ejecuta la herramienta si es necesario y devuelve el resultado, hasta que la herramienta ya no se requiere. En el pseudocódigo, el agente recupera información dinámicamente mediante llamadas a herramientas (como SearchTool), y el historial de mensajes se acumula gradualmente. Esto mejora la flexibilidad: el agente puede elegir las herramientas adecuadas y evitar inyectar información irrelevante. Sin embargo, sigue siendo de solo lectura: la información solo se almacena sin conexión, no se puede modificar ni personalizar en tiempo real, y no puede aprender de las interacciones del usuario. Memoria del agente: El avance fundamental en las operaciones de lectura y escritura reside en la Memoria del agente, que extiende Agentic RAG a un sistema de lectura y escritura. Al añadir una "herramienta de escritura" (como WriteTool), el agente no solo puede recuperar, sino también almacenar, actualizar o eliminar información. Esto permite un ciclo cerrado de aprendizaje a partir de las interacciones: por ejemplo, registrar las preferencias del usuario (como el hábito de usar emojis) o eventos (como cumpleaños) y recuperarlos en conversaciones posteriores. El pseudocódigo ilustra este ciclo: si se realiza una operación de escritura en la respuesta, la información se almacena en la base de datos y se envía una confirmación. Esto resuelve directamente los problemas de los dos enfoques anteriores: el almacenamiento dinámico permite la adaptación en tiempo real y la recuperación personalizada mejora la experiencia del usuario. El artículo proporciona un ejemplo: el agente puede almacenar resúmenes de diálogo o el historial original, logrando así una función de "recordar" en lugar de solo "recuperar". Limitaciones y consideraciones prácticas de los modelos simplificados Leonie reconoce que este modelo es simplificado y no abarca la memoria multiorigen (como la memoria procedimental: uso de expresiones faciales; la memoria episódica: planes de viaje del usuario; la memoria semántica: conocimiento factual) ni estrategias de gestión avanzadas (como la fusión y el olvido de memoria en MemGPT). Si bien es potente, introduce nuevos riesgos, como la corrupción de memoria (interferencia de información obsoleta) o la sobrecarga de gestión. Su implementación práctica requiere combinar la detección de eventos, la generación de resúmenes y otras tecnologías para garantizar la escalabilidad. Dirección del artículo

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo