如果這個問題很蠢,請見諒,但是實驗室是否也在對原生摘要/壓縮形式進行強化學習模式? 例如,我們不再像以前那樣只進行一次推理,在得出答案之前使用大量的思考標記,而是進行多次推理,讓下一次推理可以訪問前一次推理生成的摘要? 所以,與其說是“思考思考思考→回答”,不如說是“思考思考思考→總結→思考思考思考→總結→思考思考思考→回答”,然後我們就以此為基礎進行RL(實時學習)? 我的意思是,人類確實就是這樣解決問題的。我們不會把所有的推理過程都記在腦子裡,我們會有一些頓悟/靈感,讓我們能夠過濾掉幹擾訊息,並在真正解決問題之前逐步建立出更完善的問題心智模型(即問題概括)。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。