有人做過嗎? 是的,非常直接——只是主要不是以“數學 TTC”的形式呈現,而是更多地以代理人的長期視角呈現。 ReSum (2025) 本質上就是“週期性上下文摘要 → 丟棄歷史記錄 → 繼續”,其明確動機源自於上下文限制。他們也提出了一種強化學習方法 (ReSum-GRPO) 來訓練智能體從摘要中進行推理(他們將軌跡在摘要點處分割,並將軌跡優勢「廣播」到各個片段)。 ar5iv
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。