RAG est mort ? RAG est toujours là ! — La récupération précise à l'ère des agents intelligents L'article « RAG est mort. Vive RAG ! » de l'équipe @LightOnIO explore l'évolution de RAG dans le contexte du développement rapide des LLM. Les auteurs affirment que RAG n'a pas été remplacé par les fenêtres de contexte longues, mais a plutôt évolué vers un mécanisme d'« attention conditionnelle » plus intelligent et efficace, notamment à l'ère des systèmes d'IA pilotés par agents. Argument principal : Les contextes longs ne sonnent pas le glas des RAG. L’article commence par s’attaquer à une idée reçue : beaucoup pensent que la fenêtre de contexte étendue des LLM rend les RAG superflus, car le modèle peut « avaler » une quantité massive d’informations en une seule fois. Or, les auteurs réfutent cette idée à l’aide de données et d’analogies : si les contextes longs sont puissants, ils engendrent également des coûts élevés, des inefficacités et une dégradation des performances. Par exemple, l’intégration d’une base de connaissances de 1 000 pages (environ 600 000 jetons) dans la séquence d’information entraîne une « dilution de l’attention », où des informations clés sont noyées sous un flot d’informations, un phénomène similaire à celui des informations « perdues au milieu ». Des tests de référence comme HELMET montrent que la précision du rappel du modèle peut chuter de 20 à 30 % dans les séquences longues. Plus concrètement, il s'agit d'une question de rentabilité : pour des charges de travail typiques (par exemple, 100 requêtes par jour), RAG n'a besoin de récupérer que 5 fragments ciblés, ce qui le rend 8 à 82 fois moins cher et avec une latence plus faible que les contextes longs. Les auteurs mettent à disposition un calculateur en ligne pour simuler différents scénarios, démontrant que même en tenant compte de la mise en cache, le temps de génération des contextes longs reste le facteur prépondérant du coût. Une analogie parlante : les contextes longs reviennent à inviter tout le monde à discuter d'un problème simple lors d'une réunion (les coûts explosent), tandis que RAG s'apparente à la consultation précise d'un expert (efficace et précis). Recherche multimodale et conditionnelle : la voie d’évolution de RAG La renaissance de RAG réside dans son adaptation à l'ère des agents intelligents, passant d'une « extraction aveugle » à une « prise de décision conditionnelle ». Cet article propose une analyse détaillée de cette architecture en forme de pile : • Quand effectuer la récupération (SI) : L’agent achemine les outils en fonction du type de requête, de son urgence et des exigences de sécurité. Par exemple, une simple opération arithmétique comme « 2+2 » ne nécessite pas de récupération, tandis que les requêtes de rapports financiers doivent être activées. • Ce qu'il faut récupérer (QUOI) : En identifiant les entités et en réécrivant les requêtes, ajoutez un filtrage des métadonnées (comme la plage horaire, le département) pour éviter le bruit non pertinent. • Où et comment récupérer les données : sélection dynamique de la stratégie – recherche lexicale (par exemple, grep) pour le code, mélange sémantique pour la prose et modèles d’intégration visuelle et réorganisation (par exemple, MonoQwen) pour le contenu multimodal (par exemple, les graphiques). Cette approche surmonte les limitations des outils traditionnels : si grep est rapide, il peine avec les images ou les relations spatiales (par exemple, « Quels composants se trouvent au-dessus du majuscule ? »). Le traitement multimodal est un autre atout majeur. L'article souligne que plus de 70 % des données d'entreprise ne sont pas du texte brut (comme des graphiques et du code). Bien que les contextes longs permettent d'« interpréter » les images (chaque image nécessitant entre 1 000 et 1 500 jetons), le coût explose et la compréhension reste superficielle. RAG assure une récupération efficace et en temps réel grâce à la précompilation hors ligne des métadonnées (telles que des ensembles multimodaux prédéfinis), réduisant ainsi les interprétations erronées et améliorant l'applicabilité en entreprise. Évaluation et perspectives d'avenir : du pipeline à l'écosystème intelligent. L'auteur souligne que le succès du système RAG repose sur une évaluation fine : il ne s'agit pas seulement d'examiner les résultats globaux (comme la précision), mais de les analyser étape par étape : le score F1 du routage, l'amélioration du rappel lors de la compréhension des requêtes, la précision de la recherche, la comparaison avant et après le réordonnancement, et la fidélité de la génération. Cette approche permet d'isoler les erreurs, d'optimiser le système et d'éviter le problème de la « boîte noire ». Rétrospectivement, l'article décrit le cycle de popularité des algorithmes de reconnaissance et d'écriture (RAG) : un pic en 2023 (l'essor des bases de données vectorielles) et une rhétorique annonçant leur déclin en 2024-2025 (MCP, grep de Claude Code). Il s'agit toutefois de simples évolutions. L'article prédit que d'ici 2025, les RAG seront profondément intégrés aux agents intelligents, passant de pipelines statiques à des modules de prise de décision dynamiques, complétant ainsi les contextes longs : requêtes généralisées utilisant le contexte complet et requêtes précises utilisant une recherche ciblée. En conclusion, cet article recommande une approche intelligente pour la recherche d'informations « pré-anticipée » : métadonnées précalculées, stratégies hybrides et outils multimodaux. Il ne s'agit pas d'une simple évolution technologique, mais d'une étape incontournable de la transformation de l'IA vers des agents intelligents. Une recherche efficace et fiable permettra aux entreprises de passer des chatbots aux systèmes décisionnels complexes.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
