slop本质上是指最大化奖励与困惑度比率的内容。从机制上讲,这是一种通过将输出分布压缩到一个包含少数帕累托最优模式的范围内来获取奖励的手段,本质上是构建一个专门针对此训练设置的退化语法。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月22日 22:35
slop本质上是指最大化奖励与困惑度比率的内容。从机制上讲,这是一种通过将输出分布压缩到一个包含少数帕累托最优模式的范围内来获取奖励的手段,本质上是构建一个专门针对此训练设置的退化语法。