RAG -> Agentique RAG -> Mémoire de l'agent J'apprécie particulièrement le blog de @helloiamleonie. Cet article explore l'évolution progressive des mécanismes de recherche et de stockage d'informations dans les systèmes d'IA. S'appuyant sur un modèle mental simplifié, il explique le passage d'une recherche statique à une gestion dynamique de la mémoire, permettant ainsi aux lecteurs de comprendre comment les modèles de mémoire à long terme (LLM) traitent les informations au-delà de leur contexte grâce à des outils externes. Au cœur de cette évolution se trouve le passage d'opérations en « lecture seule » à des capacités de « lecture-écriture », rendant ainsi possible la création d'agents d'IA plus personnalisés et adaptatifs. RAG : Le point de départ de la recherche en lecture seule. Nous présentons d’abord RAG, une technologie fondamentale proposée en 2020 et qui a gagné en popularité en 2023. RAG résout le problème d’« illusion » des modèles de recherche documentaire en injectant des connaissances dans une base de données vectorielle externe. Son processus se compose de deux étapes : une étape hors ligne où les documents sont intégrés et stockés ; et une étape en ligne où le contexte pertinent est extrait à partir de la requête et combiné à des indices pour générer une réponse. Par exemple, le pseudocode démontre sa simplicité : • Lors du stockage de documents, générez un fichier intégré et stockez-le dans la base de données. • Lors du traitement d'une requête, récupérer les k meilleurs résultats simultanément et les injecter dans les invites pour générer la sortie. Les RAG excellent dans la réduction des illusions, mais leurs limitations sont importantes : il s’agit d’une solution ponctuelle, incapable d’évaluer la nécessité ou la pertinence des recherches ; leur source de connaissances est unique et ils sont dépourvus de mécanisme d’apprentissage, ce qui empêche toute itération à partir des interactions. De ce fait, ils conviennent aux scénarios simples de questions-réponses, mais pas aux scénarios de dialogue complexes et continus. Agentic RAG : Lecture seule dynamique avec invocation d’outils. Afin de pallier la rigidité des RAG, cet article présente Agentic RAG, qui considère la récupération comme un « outil » que l’agent peut invoquer. L’agent ne récupère plus passivement les données, mais détermine activement s’il convient d’invoquer des outils (tels que des recherches dans des bases de données ou des requêtes web) et évalue la pertinence des résultats. Ceci introduit un mécanisme de boucle : le LLM génère une réponse, exécute l’outil si nécessaire et renvoie le résultat, jusqu’à ce que l’outil ne soit plus requis. Dans le pseudocode, l'agent récupère dynamiquement les informations via des appels d'outils (comme SearchTool), et l'historique des messages s'accumule progressivement. Cela améliore la flexibilité : l'agent peut choisir les outils appropriés et éviter d'injecter des informations non pertinentes. Cependant, il reste en mode « lecture seule » : les informations sont stockées hors ligne, ne peuvent être ni modifiées ni personnalisées en temps réel, et ne peuvent pas « apprendre » des interactions de l'utilisateur. Mémoire de l'agent : L'avancée majeure dans les opérations de lecture-écriture réside dans la mémoire de l'agent, qui étend Agentic RAG en un système de lecture-écriture. Grâce à l'ajout d'un outil d'écriture (tel que WriteTool), l'agent peut non seulement récupérer des informations, mais aussi les stocker, les mettre à jour ou les supprimer. Ceci permet un apprentissage continu à partir des interactions : par exemple, l'enregistrement des préférences de l'utilisateur (comme son utilisation habituelle d'émojis) ou d'événements (comme son anniversaire) et leur réutilisation lors de conversations ultérieures. Le pseudocode illustre cette boucle : si une opération d’écriture est effectuée dans la réponse, l’information est stockée dans la base de données et une confirmation est envoyée. Ceci résout directement les problèmes des deux approches précédentes : le stockage dynamique permet une adaptation en temps réel et la récupération personnalisée améliore l’expérience utilisateur. L’article fournit un exemple : l’agent peut stocker des résumés de dialogue ou l’historique original, ce qui lui permet de « se souvenir » plutôt que de simplement « rappeler ». Limites et considérations pratiques des modèles simplifiés Léonie reconnaît que ce modèle est simplifié et ne prend pas en compte la mémoire multi-sources (comme la mémoire procédurale : utilisation des expressions faciales ; la mémoire épisodique : plans de voyage des utilisateurs ; la mémoire sémantique : connaissances factuelles) ni les stratégies de gestion avancées (comme la fusion et l’oubli de la mémoire dans MemGPT). Bien que performant, il introduit de nouveaux risques, tels que la corruption de la mémoire (interférence d’informations obsolètes) ou une complexité accrue de gestion. Sa mise en œuvre pratique nécessite de combiner la détection d’événements, la génération de résumés et d’autres technologies afin de garantir son évolutivité. Adresse de l'article
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
