Quelqu'un l'a-t-il déjà fait ? Oui, très directement — mais pas principalement présenté comme du « TTC mathématique », plutôt comme une stratégie à long terme pour les agents. ReSum (2025) est essentiellement une méthode de « résumé contextuel périodique → suppression de l'historique → poursuite », explicitement motivée par les limites du contexte. Les auteurs proposent également une méthode d'apprentissage par renforcement (ReSum-GRPO) pour entraîner les agents à raisonner à partir de résumés (ils segmentent les trajectoires aux points de résumé et « diffusent » l'avantage de trajectoire aux segments). ar5iv
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.