这是一个引人入胜的研究博客,出自与“RL 调整小子网”论文相同的作者之手。 我觉得这篇文章很有用,因为它讨论了SGD-RLVR组合的参数更新率只有0.01%,而AdamW的参数更新率高达90%。这意味着至少对于RLVR来说,我们可以放弃AdamW,转而选择SGD。 我脑子里有很多问题,接下来我会尝试通过自己的实验来解答这些问题。 > 在训练后阶段,“SGD 安全子空间”和“adamW 需要的完整空间”之间的边界究竟在哪里? > 我们能否系统地将 RLVR/SGD 的小型活动子网络转换为可重用的模块化适配器堆栈,用于多域训练? 当您强制后训练在这些微小的结构化子空间(由 RLVR/SGD 找到或设计为 LoRA)中运行时,模型的全局属性与全空间 adamW RLHF/RLVR 相比有何变化? 我需要考虑一些小规模的、干净的实验方案,之后会在这个帖子里更新。 除了 RLVR 之外,它可能没有太多应用前景,但这仍然是一个尚未充分探索的问题。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。