Le nouvel article de l'équipe Oppo AI Agent, intitulé « O-Mem », porte sur la mémoire des agents d'IA lors d'interactions à long terme. O-Mem est un cadre de mémoire innovant conçu pour rendre les agents d'IA plus semblables à des « assistants adaptatifs » en simulant les mécanismes de mémoire humaine : il peut construire dynamiquement des profils d'utilisateurs, prendre en charge les interactions à long terme et récupérer efficacement les informations pertinentes, plutôt que de simplement accumuler des enregistrements historiques. L'argument principal de cet article est que les systèmes de mémoire existants pour agents d'IA présentent des limitations : ils ont tendance à négliger des informations utilisateur cruciales mais sémantiquement non pertinentes et à introduire du bruit lors de la récupération. O-Mem remédie à ces problèmes grâce à un « profilage proactif de l'utilisateur », considérant chaque interaction comme une opportunité de mettre à jour le modèle utilisateur, permettant ainsi une gestion de la mémoire plus précise et plus économique. Méthodologie de base : Cadre O-Mem O-Mem s'inspire de la structure de la mémoire humaine, se composant de trois modules complémentaires pour former un système de mémoire omnidirectionnel : • Mémoire des profils : stocke les attributs et informations à long terme concernant les utilisateurs, tels que leurs préférences, leurs habitudes ou leur profil (par exemple : « L’utilisateur aime le café mais est sensible à la caféine »). Elle utilise un modèle de langage naturel (LLM) pour extraire les attributs des interactions et les gérer dynamiquement par des décisions d’« ajout/ignorance/mise à jour ». Le traitement des attributs est simplifié grâce à un clustering par plus proches voisins optimisé par LLM. • Mémoire de travail : Elle associe les enregistrements interactifs par sujet afin de faciliter la continuité de la conversation. Par exemple, elle permet de récupérer des extraits historiques liés à un sujet précis à partir de la requête actuelle. • Mémoire épisodique : Elle favorise le rappel associatif en reliant les événements passés à des mots-clés ou des indices (comme « anniversaire »). Elle utilise la méthode de score de fréquence inverse des documents pour sélectionner les indices les plus spécifiques, en évitant les interférences des mots courants. Le processus de construction et de récupération de la mémoire est extrêmement efficace : pour chaque nouvelle interaction, le LLM extrait les thèmes, les attributs et les événements, puis met à jour le dictionnaire de correspondance. Lors de la récupération, trois modules fonctionnent en parallèle : la mémoire de travail extrait le contenu thématique, la mémoire de l’intrigue sélectionne les indices pertinents et la mémoire des caractères associe les attributs. Les résultats finaux de la récupération sont ensuite fusionnés et intégrés au LLM pour générer une réponse. Cette conception évite l’analyse complète de l’historique, réduisant ainsi le bruit et la charge de calcul. Résultats expérimentaux et évaluation : L’équipe a testé O-Mem sur trois bancs d’essai, démontrant ses avantages en termes de performances et d’efficacité : • Benchmark LoCoMo (cohérence du dialogue long) : O-Mem a atteint un score F1 de 51,67 %, soit une amélioration de 3 % par rapport à LangMem (48,72 %), excellant particulièrement dans les tâches de raisonnement temporel et multi-sauts. • Benchmark PERSONAMEM (dialogue personnalisé utilisateur-LLM) : précision de 62,99 %, amélioration de 3,5 % par rapport à A-Mem (59,42 %), leader en matière de suivi des préférences et de capacités de généralisation. • Analyse comparative de recherche approfondie personnalisée (requête réelle de l'utilisateur) : Alignement de l'utilisateur 44,49 %, soit 8 % de plus que Mem0 (36,43 %). En termes d'efficacité, O-Mem surpasse nettement la solution de référence : la consommation de jetons est réduite de 94 % (1,5 K contre 80 K pour LangMem), la latence de 80 % (2,4 s contre 10,8 s) et la consommation de mémoire de seulement 3 Mo/utilisateur (contre 30 Mo). Des expériences d'ablation montrent que chaque module apporte une valeur ajoutée indépendamment ; par exemple, le module de mémoire des personnes permet de réduire la longueur des recherches de 77 % tout en améliorant les performances. L'optimalité de Pareto en termes de performances et d'efficacité est comparable au compromis obtenu en récupérant directement l'historique original (RAG), mais à moindre coût. Discussion en ligne de l'article :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
