X (Twitter)

為什麼強化學習如此重要？代理 RFT 等等… 以下的故事有力地證明了，你的模型需要在強化學習後的訓練過程中看到它們在生產環境中將要使用的工具。 Opus 4.5 與 Claude Code 搭配在 CORE-Bench 測試中表現出色，而使用其他硬體的效能則不值得一提。唯一的區別在於更換了安全帶（和工具）。 Cursor團隊在討論Compose訓練時也提出了同樣的觀點。該模型在使用工具方面變得更出色，尤其是在嵌入式搜尋方面。強化學習將成為主流的訓練後技術。 @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai 。

來自 GDP at NeurIPS 2025（@bookwormengr）的推文串

作者資訊

推文串內容