X (Twitter)

5/5 Customer Composer 模型训练中使用的异步强化学习是什么？它采用多级异步执行，以避免等待缓慢的操作，例如长时间的发布生成。如您所知，对于给定的问题，在强化学习（例如GRPO）中，我们会生成多条轨迹。然而，有些轨迹可能需要太长时间才能完成。所以，一旦他们收集到足够的轨迹数据，他们就会进行训练。部分样本/推广工作稍后会使用更新后的模型恢复。这会导致部分令牌由旧模型/策略生成，而部分令牌由新模型/策略生成。不过，这可以接受。如果您想了解更多关于异步强化学习的内容，请阅读 APRIL——一个用于异步强化学习的项目。

来自 GDP（@bookwormengr）的推文线程

作者信息

线程正文