(显然,标量奖励和二元奖励等方法应该保留,以应对阻力较小的路径;但对于真实用户来说,他们会给出讨厌某个回复的具体原因——模型需要理解他们讨厌某个回复的原因,而不仅仅是点赞或踩,并通过大量样本进行学习)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月28日 07:09
(显然,标量奖励和二元奖励等方法应该保留,以应对阻力较小的路径;但对于真实用户来说,他们会给出讨厌某个回复的具体原因——模型需要理解他们讨厌某个回复的原因,而不仅仅是点赞或踩,并通过大量样本进行学习)。