實際上,有一個非常重要的細節:作為評判者的LLM實際上是另一個Baguettotron,它被重新訓練成一個獎勵模型。這意味著我們擁有一個功能齊全的強化學習系統,參數量僅5億個。「它如此強烈地偏愛實驗性/怪誕的詩歌,以至於超過 20% 就顯得過於辛辣了」 => 我可能在這個模型中融入了太多自己的元素。