X (Twitter)

为什么强化学习如此重要？代理 RFT 等等…… 下面的故事有力地证明了，你的模型需要在强化学习后的训练过程中看到它们在生产环境中将要使用的工具。 Opus 4.5 与 Claude Code 搭配在 CORE-Bench 测试中表现出色，而使用其他硬件的性能则不值得一提。唯一的区别在于更换了安全带（和工具）。 Cursor团队在讨论Compose训练时也提出了同样的观点。该模型在使用工具方面变得更出色，尤其是在嵌入式搜索方面。强化学习将成为主流的训练后技术。 @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai 。

来自 GDP at NeurIPS 2025（@bookwormengr）的推文线程

作者信息

线程正文