X (Twitter)

[Article recommandé] Comprendre les mécanismes de mémoire des agents d'IA La dernière publication de Leonie Monigatti, « Comprendre la mémoire des agents IA », présente de manière systématique les concepts fondamentaux, les classifications, les méthodes de gestion et les défis des systèmes de mémoire actuels des agents IA. Les modèles de mémoire logique (LLM) étant intrinsèquement « sans état », ils ne peuvent pas mémoriser naturellement l'historique des interactions entre les sessions. Par conséquent, les développeurs doivent doter les agents de capacités de « mémoire » via des mécanismes externes, leur permettant ainsi d'apprendre les préférences des utilisateurs, d'accumuler de l'expérience et de s'améliorer en continu. Qu'est-ce que la mémoire d'un agent intelligent ? • Définition principale : La mémoire d’un agent désigne sa capacité à se souvenir, à se rappeler et à oublier des informations importantes issues de multiples interactions avec un utilisateur. Il ne s’agit pas seulement de sauvegarder l’historique des conversations, mais aussi de permettre à l’agent d’« apprendre » et de « s’adapter ». Pourquoi la mémoire est-elle nécessaire ? LLM ne retient que les connaissances acquises lors de l’entraînement (les paramètres), et chaque conversation redémarre par défaut à zéro. Si l’historique n’est pas renseigné manuellement, l’agent « oubliera » et sera incapable de fournir des services personnalisés et cohérents. Principales distinctions : • Le terme « mémoire » désigne l’ensemble du système de capacités permettant de stocker et de récupérer des informations. • L'emplacement de stockage est appelé « module de mémoire », qui stocke des « informations », et non des « souvenirs ». • Mémoire de l'agent : désigne la capacité à fournir une mémoire à un agent intelligent. • Mémoire agentique : Le système de mémoire lui-même peut également se gérer de manière autonome (par exemple, un agent peut accéder à sa propre mémoire via des outils). Deux principales perspectives de classification de la mémoire 1. Classification basée sur l'architecture cognitive (imitant la mémoire humaine, d'après l'article CoALA et l'architecture SOAR) • Mémoire de travail : Stocke le contenu de la fenêtre de contexte actuelle, ce qui équivaut à une conversation humaine en cours, comme les instructions de l'utilisateur et les réponses de l'agent dans la session actuelle. • Mémoire sémantique : Stocke les connaissances factuelles, semblables aux connaissances immuables que les humains apprennent à l'école, telles que des informations fixes comme « l'utilisateur a un chien nommé Henry » ou « l'anniversaire de l'utilisateur est le 15 août ». • Mémoire procédurale : Elle stocke les compétences, les règles et les réflexes, à l’instar des actions apprises par l’humain pour faire du vélo sans y penser. On peut citer comme exemples les règles comportementales intégrées aux messages système, telles que « Vous devez réfléchir avant de répondre à une question » ou « Suivez un format précis lors de l’utilisation d’un outil ». • Mémoire procédurale : Elle stocke les compétences, les règles et les réflexes, à l’instar des actions que l’être humain n’a plus besoin de faire une fois qu’il a appris à faire du vélo. On peut citer comme exemples les règles comportementales fixes intégrées aux invites système, telles que « Vous devez réfléchir avant de répondre à une question » ou « Vous devez suivre un format précis lorsque vous utilisez un outil ». 2. Classification basée sur les modèles de conception (cadre Letta, qui se concentre davantage sur la mise en œuvre technique) Letta estimait qu'un anthropomorphisme excessif était préjudiciable à la mise en œuvre en ingénierie et adopta donc une approche plus pragmatique de la classification : • Tampon de messages : Le message le plus récent de la session en cours (à court terme, dans le contexte). • Mémoire centrale : Informations clés activement conservées par l'agent (y compris dans le contexte, telles que la date de naissance de l'utilisateur ou le nom du partenaire). • Mémoire de rappel : L'historique complet et original de la conversation (généralement stocké en externe). • Mémoire archivistique : Les connaissances extraites explicitement sont stockées dans un stockage externe tel que des bases de données vectorielles (à long terme). La correspondance entre les deux catégories : • La mémoire de travail de CoALA ≈ Tampon de messages + mémoire centrale de Letta • La mémoire à long terme de CoALA (sémantique/intrigue/procédure) correspond en grande partie à la mémoire archivée de Letta • Letta fait une distinction supplémentaire pour « l'historique des dialogues originaux » (mémoire de rappel), que CoALA ne liste pas séparément. Gestion de la mémoire : comment stocker, récupérer, mettre à jour et oublier ? 1. Gestion des fenêtres contextuelle (mémoire à court terme) • Problème : Plus la conversation est longue, plus on génère de jetons → vitesse plus lente, coût plus élevé et risque accru d'introduction d'informations non pertinentes. • Techniques courantes : Supprimer manuellement les anciens messages et résumer régulièrement l’historique (en ne conservant que le résumé). 2. Gestion du stockage externe (mémoire à long terme) Opérations de base (AJOUTER / METTRE À JOUR / SUPPRIMER / NOOP) : • Ajouter de nouvelles informations • Mettre à jour les informations obsolètes (par exemple, si un utilisateur a déménagé) • Supprimer les informations inutiles/erronées (pour éviter la saturation de la mémoire) Aucune opération requise. 3. Contexte ↔ Mécanisme de flux de stockage externe : Mémoire explicite (chemin direct) : L’agent détermine en temps réel les informations importantes et les enregistre dans la mémoire à long terme à l’aide de ses propres outils (de manière similaire à la mémorisation consciente chez l’humain). Ce mécanisme est difficile à mettre en œuvre et peu fiable. Mémoire implicite (traitement en arrière-plan) : mise à jour périodique selon des règles fixes, offrant un meilleur contrôle. Scénarios courants : • Traitement par lots après la fin de la session. • Traitement à intervalles/tours fixes. • Traitement immédiat après chaque tour de dialogue (exigence de temps réel élevé). Méthodes de mise en œuvre et défis : Emplacement de stockage : Utiliser une liste pour la conversation en cours, un fichier texte pour les instructions et une base de données vectorielle ou une base de données graphique pour les connaissances à long terme. • Principaux défis : • Latence : Chaque opération de lecture/écriture ralentit la vitesse de réponse. • Mécanisme d'oubli : La partie la plus difficile consiste à identifier et à supprimer automatiquement les informations obsolètes. Faute d'une gestion efficace, cela entraînera une expansion illimitée de la mémoire et une baisse de la qualité. • Cadre existant : • Mémoire ciblée : mem0, Letta, Cognee, Zep • Cadres d'agents intelligents à usage général (avec prise en charge de la mémoire) : LangChain/LangGraph, LlamaIndex, CrewAI, Google ADK Principales conclusions et implications 1. Les LLM naissent sans mémoire et doivent disposer d'un système de mémoire externe pour devenir des agents véritablement « intelligents ». 2. Il existe actuellement deux approches de la conception de la mémoire : l’anthropomorphisme (style CoALA) et l’ingénierie (style Letta), qui pourraient fusionner à l’avenir. 3. Les défis techniques les plus critiques résident dans le « flux intelligent d’informations entre la mémoire à court terme et la mémoire à long terme » et « l’oubli automatique fiable ». 4. Ce domaine connaît un développement rapide et a attiré de nombreux capitaux et projets open source. Des solutions plus abouties devraient voir le jour en 2026. Adresse du blog :

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil