Cela précède une chaîne de pensée autorégressive, donc le raisonnement consiste ici en une longue chaîne de requêtes de recherche et d'extraits tirés d'un corpus de 5 millions de documents. Les scores obtenus sur HoVer restent extrêmement difficiles àarxiv.org/abs/2101.00436ore, que ce soit par incitation ou par RL sur les LLM modernes !
La création de Baleen a été extrêmement laborieuse. Je crois que la recette finale à elle seule impliquait l'entraînement d'une douzaine de modèles à la suite. C’est ce qui a motivé le développement de DSPy : vous permettre de construire ces systèmes/agents LLM modulaires et de leur permettre de s’auto-entraîner sans avoir à tout faire soi-même.