X (Twitter)

Cursor 的 1/4 自主研发的编码模型编辑器处于技术前沿，速度更快，价格更低，是其他产品的 4 倍。这有助于 Cursor 减少对 OpenAI 和 Anthropic 的依赖。既然可以构建自己的模型，为什么还要改进他们的模型呢？

2/4 他们对教育部模型（大多以中国模型为基础模型）进行了大规模强化学习。强化学习模型自动学习了并行调用工具，并在修改代码之前进行更多读取和搜索。这种行为是自然而然形成的。

3/4 他们是如何开发 RL 环境来收集 RL 轨迹的？他们重新利用了后台代理基础设施。 “在强化学习过程中，我们希望我们的模型能够调用 Cursor Agent 框架中的任何工具。这些工具允许编辑代码、使用语义搜索、搜索字符串以及运行终端命令。” 以我们目前的规模，要教会模型有效地调用这些工具，需要在云端运行数十万个并发的沙盒编码环境。为了支持这一工作负载，我们调整了为后台代理构建的现有基础设施，重写了我们的虚拟机调度程序，以支持训练运行的突发性和规模。这使得强化学习环境与生产环境能够无缝融合。

4/4 Cursor 的 Composer 模型训练的物理基础设施。他们声称已经在数千个GPU上进行了训练（并且仍在继续训练）。他们以低精度训练模型，并使用异步强化学习（下一条推文将解释它是什么）。引述：“我们利用 PyTorch 和 Ray 构建了定制的训练基础设施，以大规模支持异步强化学习。我们通过将 MXFP8 MoE 内核与专家并行和混合分片数据并行相结合，以低精度对模型进行原生训练，从而使我们能够以最小的通信成本将训练扩展到数千个 NVIDIA GPU。此外，使用 MXFP8 进行训练可以让我们实现更快的推理速度，而无需进行训练后量化。

5/5 Customer Composer 模型训练中使用的异步强化学习是什么？它采用多级异步执行，以避免等待缓慢的操作，例如长时间的发布生成。如您所知，对于给定的问题，在强化学习（例如GRPO）中，我们会生成多条轨迹。然而，有些轨迹可能需要太长时间才能完成。所以，一旦他们收集到足够的轨迹数据，他们就会进行训练。部分样本/推广工作稍后会使用更新后的模型恢复。这会导致部分令牌由旧模型/策略生成，而部分令牌由新模型/策略生成。不过，这可以接受。如果您想了解更多关于异步强化学习的内容，请阅读 APRIL——一个用于异步强化学习的项目。

来自 GDP（@bookwormengr）的推文线程

作者信息

线程正文