有人做过吗? 是的,非常直接——只是主要不是以“数学 TTC”的形式呈现,而是更多地以代理人的长期视角呈现。 ReSum (2025) 本质上就是“周期性上下文摘要 → 丢弃历史记录 → 继续”,其明确动机源于上下文限制。他们还提出了一种强化学习方法 (ReSum-GRPO) 来训练智能体从摘要中进行推理(他们将轨迹在摘要点处分割,并将轨迹优势“广播”到各个片段)。ar5iv
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。