X (Twitter)

如果這個問題很蠢，請見諒，但是實驗室是否也在對原生摘要/壓縮形式進行強化學習模式？例如，我們不再像以前那樣只進行一次推理，在得出答案之前使用大量的思考標記，而是進行多次推理，讓下一次推理可以訪問前一次推理生成的摘要？所以，與其說是“思考思考思考→回答”，不如說是“思考思考思考→總結→思考思考思考→總結→思考思考思考→回答”，然後我們就以此為基礎進行RL（實時學習）？我的意思是，人類確實就是這樣解決問題的。我們不會把所有的推理過程都記在腦子裡，我們會有一些頓悟/靈感，讓我們能夠過濾掉幹擾訊息，並在真正解決問題之前逐步建立出更完善的問題心智模型（即問題概括）。

來自 Taelin（@VictorTaelin）的推文串

作者資訊

推文串內容