누군가 해본 적 있나요? 네, 아주 직접적으로 그렇습니다. 다만 주로 "수학 TTC"라는 틀로 표현하기보다는, 장기적인 관점을 가진 에이전트라는 관점에서 접근했습니다. ReSum(2025)은 본질적으로 "주기적 컨텍스트 요약 → 이력 폐기 → 계속"이며, 컨텍스트 제한에 의해 명시적으로 동기 부여됩니다. 또한 요약으로부터 추론하도록 에이전트를 훈련하는 강화 학습 방법(ReSum-GRPO)을 제안합니다(요약 지점에서 궤적을 분할하고 궤적 이점을 분할된 부분에 "전파"합니다). ar5iv
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.