最终,我们需要找到一种方法来“教 LLM”,用英语解释他们做错了什么,并将这些错误转化为梯度,并将这一教训灌输到模型中。 无论是二进制奖励、标量奖励,还是其他任何奖励方式,其效率都远未达到最佳状态。如果它能够看到你的批评(甚至是LLM评委的批评),并真正内化完整的反馈,而不是仅仅依靠海量数据收敛后分数差异来推断反馈,那么它的学习速度将会快得多。
(显然,标量奖励和二元奖励等方法应该保留,以应对阻力较小的路径;但对于真实用户来说,他们会给出讨厌某个回复的具体原因——模型需要理解他们讨厌某个回复的原因,而不仅仅是点赞或踩,并通过大量样本进行学习)。