实际上,有一个非常重要的细节:作为评判者的LLM实际上是另一个Baguettotron,它被重新训练成一个奖励模型。这意味着我们拥有一个功能齐全的强化学习系统,参数量仅为5亿。“它如此强烈地偏爱实验性/怪诞的诗歌,以至于超过 20% 就显得过于辛辣了” => 我可能在这个模型中融入了太多自己的元素。