El nuevo artículo "O-Mem" del equipo Oppo AI Agent se centra en la memoria de los agentes de IA en interacciones a largo plazo. O-Mem es un marco de memoria innovador diseñado para hacer que los agentes de IA se parezcan más a "asistentes adaptativos" al simular los mecanismos de memoria humana: puede crear perfiles de usuario dinámicamente, soportar interacciones a largo plazo y recuperar información relevante de manera eficiente, en lugar de simplemente acumular registros históricos. El argumento central de este artículo es que los sistemas de memoria de agentes de IA existentes presentan limitaciones: tienden a pasar por alto información del usuario semánticamente irrelevante, pero crucial, e introducen ruido de recuperación. O-Mem aborda estos problemas mediante la creación de perfiles de usuario proactivos, considerando cada interacción como una oportunidad para actualizar el modelo de usuario, logrando así una gestión de memoria más precisa y económica. Metodología central: Marco O-Mem O-Mem se inspira en la estructura de la memoria humana, formada por tres módulos complementarios que forman un sistema de memoria omnidireccional: Memoria de Persona: Almacena atributos y datos a largo plazo sobre los usuarios, como preferencias, hábitos o antecedentes (p. ej., "Al usuario le gusta el café, pero es sensible a la cafeína"). Utiliza LLM para extraer atributos de las interacciones y los mantiene dinámicamente mediante decisiones de "añadir/ignorar/actualizar". Los atributos se gestionan mediante la agrupación de vecinos más cercanos mejorada por LLM para garantizar la simplicidad. Memoria de trabajo: Asigna registros interactivos por tema para mantener la continuidad de la conversación. Por ejemplo, recupera fragmentos históricos relacionados con un tema específico de la consulta actual. Memoria episódica: Favorece el recuerdo asociativo al vincular eventos pasados con palabras clave o claves (como "cumpleaños"). Utiliza la puntuación inversa de frecuencia de documentos para seleccionar las claves más singulares, evitando la interferencia de palabras comunes. El proceso de construcción y recuperación de memoria es altamente eficiente: para nuevas interacciones, el LLM extrae temas, atributos y eventos, y actualiza la asignación del diccionario. Durante la recuperación, tres módulos trabajan en paralelo: la memoria de trabajo extrae el contenido relacionado con el tema, la memoria de trama selecciona las pistas para la recuperación y la memoria de personajes relaciona los atributos. Los resultados finales de la recuperación se fusionan y se introducen en el LLM para generar una respuesta. Este diseño evita el análisis completo del historial, lo que reduce el ruido y la sobrecarga computacional. Resultados experimentales y evaluación: El equipo probó O-Mem en tres puntos de referencia, demostrando sus ventajas en rendimiento y eficiencia: • Punto de referencia LoCoMo (consistencia de diálogo largo): O-Mem logró una puntuación F1 del 51,67%, una mejora del 3% sobre LangMem (48,72%), destacándose particularmente en tareas de razonamiento temporal y de múltiples saltos. • Punto de referencia PERSONAMEM (diálogo personalizado usuario-LLM): 62,99 % de precisión, 3,5 % de mejora sobre A-Mem (59,42 %), líder en seguimiento de preferencias y capacidades de generalización. • Benchmark de investigación en profundidad personalizado (consulta de usuario real): Alineación del usuario 44,49%, 8% más alto que Mem0 (36,43%). En términos de eficiencia, O-Mem supera significativamente el modelo base: el consumo de tokens se reduce en un 94 % (1500 frente a 80000 de LangMem), la latencia se reduce en un 80 % (2,4 s frente a 10,8 s) y el uso de memoria es de tan solo 3 MB/usuario (frente a 30 MB). Los experimentos de ablación muestran que cada módulo aporta valor de forma independiente; por ejemplo, el módulo de memoria personal puede reducir la duración de la recuperación en un 77 % y, al mismo tiempo, mejorar el rendimiento. La optimización del rendimiento-eficiencia de Pareto es comparable a la compensación que supone recuperar directamente el historial original (RAG), pero a un menor coste. Discusión en línea del artículo:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
