Je vois sans cesse des méthodes intéressantes dans lesquelles les agents LLM « condensent » ou résument le contexte à travers les étapes. Nous avons travaillé sur ce projet à l'automne 2020, et avons en quelque sorte inventé le même terme utilisé aujourd'hui : la « récupération condensée ». Il s'agit d'un exemple très précoce de modèles de langage auto-apprenants pour les chaînes de raisonnement.
Cela précède une chaîne de pensée autorégressive, donc le raisonnement consiste ici en une longue chaîne de requêtes de recherche et d'extraits tirés d'un corpus de 5 millions de documents. Les scores obtenus sur HoVer restent extrêmement difficiles àarxiv.org/abs/2101.00436ore, que ce soit par incitation ou par RL sur les LLM modernes !
La création de Baleen a été extrêmement laborieuse. Je crois que la recette finale à elle seule impliquait l'entraînement d'une douzaine de modèles à la suite. C’est ce qui a motivé le développement de DSPy : vous permettre de construire ces systèmes/agents LLM modulaires et de leur permettre de s’auto-entraîner sans avoir à tout faire soi-même.
