為什麼強化學習如此重要?代理 RFT 等等… 以下的故事有力地證明了,你的模型需要在強化學習後的訓練過程中看到它們在生產環境中將要使用的工具。 Opus 4.5 與 Claude Code 搭配在 CORE-Bench 測試中表現出色,而使用其他硬體的效能則不值得一提。 唯一的區別在於更換了安全帶(和工具)。 Cursor團隊在討論Compose訓練時也提出了同樣的觀點。該模型在使用工具方面變得更出色,尤其是在嵌入式搜尋方面。 強化學習將成為主流的訓練後技術。 @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai 。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。