혹시 바보 같은 질문일 수도 있지만, 연구실에서도 네이티브 요약/압축 데이터에 대한 모델 강화 학습을 진행하나요? 예를 들어, 답을 도출하기 전에 많은 사고 토큰을 사용하여 한 번의 추론 과정만 거치는 대신, 다음 추론 과정에서 이전 추론 과정에서 생성된 요약 정보를 활용할 수 있도록 여러 번의 추론 과정을 거치는 방식은 어떨까요? 그러니까 "생각하고 또 생각하고 → 답을 구하는" 대신에 "생각하고 또 생각하고 → 요약하고 → 생각하고 또 생각하고 → 요약하고 → 생각하고 또 생각하고 → 답을 구하는" 식으로 진행하고, 그 다음에 그에 대해 강화 학습을 하는 건가요? 제 말은, 그게 바로 인간이 문제를 해결하는 방식이라는 겁니다. 우리는 모든 추론 과정을 머릿속에 담아두지 않고, 통찰력이나 깨달음의 순간을 통해 불필요한 정보를 걸러내고 문제를 해결하기 전에 점진적으로 더 나은 정신적 모델(즉, 요약)을 구축해 나가는 거죠.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.