X (Twitter)

[Artículo recomendado] Comprender los mecanismos de memoria en los agentes de IA La última publicación de Leonie Monigatti, «Comprendiendo la memoria en agentes de IA», describe sistemáticamente los conceptos clave, las clasificaciones, los métodos de gestión y los desafíos de los sistemas de memoria actuales para agentes de IA. Dado que los modelos de aprendizaje automático (LLM) son inherentemente «sin estado», no pueden recordar de forma natural las interacciones históricas entre sesiones. Por lo tanto, los desarrolladores deben dotar a los agentes de capacidades de «memoria» mediante mecanismos externos, lo que les permite aprender las preferencias del usuario, acumular experiencia y mejorar continuamente. ¿Qué es la memoria de un agente inteligente? • Definición básica: La memoria del agente se refiere a su capacidad para recordar, recuperar y olvidar información importante a lo largo de múltiples interacciones con el usuario. Esto no se limita a guardar los registros de chat, sino que también implica permitir que el agente aprenda y se adapte. ¿Por qué es necesaria la memoria? LLM solo recuerda el conocimiento adquirido durante el entrenamiento (conocimiento de parámetros), y cada conversación comienza desde cero por defecto. Si no se introduce manualmente información histórica, el agente la "olvidará" y no podrá proporcionar servicios personalizados y coherentes. Distinciones clave: • “Memoria” se refiere al sistema completo de capacidades para almacenar y recuperar información. • La ubicación de almacenamiento se llama "módulo de memoria", que almacena "información", no "recuerdos". • Memoria del agente: se refiere a la capacidad de proporcionar memoria a un agente inteligente. • Memoria agentiva: El propio sistema de memoria también puede gestionarse de forma autónoma (por ejemplo, un agente puede acceder a su propia memoria a través de herramientas). Dos perspectivas principales de clasificación de la memoria 1. Clasificación basada en la arquitectura cognitiva (imitando la memoria humana, a partir del artículo de CoALA y la arquitectura SOAR) • Memoria de trabajo: Almacena el contenido de la ventana de contexto actual, que es equivalente a una conversación humana en curso, como las instrucciones del usuario y las respuestas del agente en la sesión actual. • Memoria semántica: Almacena conocimiento factual, similar al conocimiento inmutable que los humanos aprenden en la escuela, como información fija como "el usuario tiene un perro llamado Henry" o "el cumpleaños del usuario es el 15 de agosto". • Memoria procedimental: Almacena habilidades, reglas e instintos, de forma similar a como los humanos aprenden a montar en bicicleta sin necesidad de pensar en ello. Algunos ejemplos son las reglas de comportamiento predefinidas en las indicaciones del sistema, como «Debes pensar antes de responder a una pregunta» o «Sigue un formato específico al usar una herramienta». • Memoria procedimental: Almacena habilidades, reglas e instintos, de forma similar a las acciones que los humanos ya no necesitan pensar después de aprender a montar en bicicleta. Algunos ejemplos son las reglas de comportamiento fijas codificadas en las indicaciones del sistema, como «Debes pensar antes de responder a una pregunta» o «Debes seguir un formato específico al usar una herramienta». 2. Clasificación basada en patrones de diseño (marco de trabajo Letta, que se centra más en la implementación de ingeniería). Letta creía que el antropomorfismo excesivo era perjudicial para la implementación de la ingeniería y, por lo tanto, adoptó un enfoque más pragmático para la clasificación: • Búfer de mensajes: El mensaje más reciente en la sesión actual (a corto plazo, dentro del contexto). • Memoria principal: Datos clave que el agente mantiene activamente (también dentro del contexto, como el cumpleaños del usuario o el nombre de su pareja). • Memoria de recuperación: El historial original completo de la conversación (generalmente almacenado externamente). • Memoria de archivo: El conocimiento extraído explícitamente se almacena en un almacenamiento externo, como bases de datos vectoriales (a largo plazo). La correspondencia entre las dos categorías: • La memoria de trabajo de CoALA ≈ el búfer de mensajes + la memoria principal de Letta • La memoria a largo plazo de CoALA (semántica/trama/procedimiento) se corresponde en gran medida con la memoria archivada de Letta • Letta tiene una distinción adicional para el "historial de diálogo original" (memoria de recuperación), que CoALA no enumera por separado. Gestión de memoria: ¿Cómo almacenar, recuperar, actualizar y olvidar? 1. Gestión de ventanas definida por el contexto (memoria a corto plazo) • Problema: Cuanto más larga sea la conversación, más tokens se generarán → menor velocidad, mayor coste y mayor facilidad para que se mezcle información irrelevante. • Técnicas comunes: Eliminar manualmente los mensajes antiguos y resumir periódicamente el historial (conservando solo el resumen). 2. Gestión de almacenamiento externo (memoria a largo plazo) Operaciones básicas (AÑADIR / ACTUALIZAR / ELIMINAR / NOOP): • Agregar información nueva • Actualizar información obsoleta (p. ej., si un usuario se ha mudado) • Eliminar información inútil/errónea (para evitar la sobrecarga de memoria) No requiere operación. 3. Contexto ↔ Mecanismo de flujo de almacenamiento externo: Memoria explícita (ruta activa): El agente determina en tiempo real qué información es importante y la escribe en la memoria a largo plazo utilizando sus propias herramientas (de forma similar a como los humanos recuerdan algo conscientemente). Este mecanismo es difícil de implementar y tiene baja fiabilidad. Memoria implícita (procesamiento en segundo plano): Se actualiza periódicamente según reglas fijas, ofreciendo un mayor control. Escenarios comunes: • Procesamiento por lotes tras finalizar la sesión. • Procesamiento a intervalos/rondas fijas. • Procesamiento inmediato tras cada ronda de diálogo (requisito de alta precisión en tiempo real). Métodos de implementación y desafíos: Ubicación de almacenamiento: Utilice una lista para la conversación actual, un archivo de texto para las instrucciones y una base de datos vectorial o de grafos para el conocimiento a largo plazo. • Principales desafíos: • Latencia: Cada operación de lectura/escritura ralentiza la velocidad de respuesta. • Mecanismo de olvido: La parte más difícil: ¿cómo identificar y eliminar automáticamente la información obsoleta? Si no se hace correctamente, se producirá una expansión ilimitada de la memoria y una disminución de la calidad. • Marco existente: • Memoria enfocada: mem0, Letta, Cognee, Zep • Marcos de agentes inteligentes de propósito general (con soporte de memoria): LangChain/LangGraph, LlamaIndex, CrewAI, Google ADK Conclusiones clave e implicaciones 1. Los LLM nacen sin memoria y deben tener un sistema de memoria externo para convertirse en agentes verdaderamente "inteligentes". 2. Actualmente existen dos enfoques para el diseño de memoria: el antropomorfismo (estilo CoALA) y la ingeniería (estilo Letta), que podrían fusionarse en el futuro. 3. Los desafíos técnicos más críticos radican en el "flujo inteligente de información entre la memoria a corto plazo y la memoria a largo plazo" y el "olvido automático confiable". 4. Este campo se encuentra en un periodo de rápido desarrollo y ha atraído una gran cantidad de capital y proyectos de código abierto. Se espera que surjan soluciones más maduras en 2026. Dirección del blog:

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo