這是一個值得思考的好問題,它引出了其他一些有趣的研究問題: 1. 情境學習是否有上限? 2. RL 是突破這一瓶頸的途徑嗎? 3. 權重中已經包含多少我們不知道如何可靠地提取的知識? 文字優化在某種程度上確實有效。例如,以下流程: 代理工具 —> 評估 —> 挖掘痕跡 —> 改進工具 關於樣本效率、計算成本、基於文字和基於強化學習的最佳化比較,有很多有趣的實驗可以做。 還有一點是,在 RL 之後,我們會在多大程度上再次調整你的框架,從而回到基於文字的最佳化?
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
