Alguém já fez isso? Sim, muito diretamente — só que não formulado principalmente como "matemática TTC", mas sim como um agente de longo prazo. O ReSum (2025) é essencialmente um processo de “resumo periódico de contexto → descarte do histórico → continuação”, explicitamente motivado por limites de contexto. Os autores também propõem um método de aprendizado por reforço (ReSum-GRPO) para treinar agentes a raciocinar a partir de resumos (eles segmentam trajetórias em pontos de resumo e “transmitem” a vantagem da trajetória para os segmentos). ar5iv
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.