最終,我們需要找到一種方法來“教 LLM”,用英語解釋他們做錯了什麼,並將這些錯誤轉化為梯度,並將這一教訓灌輸到模型中。 無論是二元獎勵、標量獎勵,或是其他任何獎勵方式,其效率都遠未達到最佳狀態。如果它能夠看到你的批評(甚至是LLM評審的批評),並真正內化完整的回饋,而不是僅僅依靠海量數據收斂後分數差異來推斷回饋,那麼它的學習速度將會快得多。
(顯然,標量獎勵和二元獎勵等方法應該保留,以應對阻力較小的路徑;但對於真實用戶來說,他們會給出討厭某個回复的具體原因——模型需要理解他們討厭某個回复的原因,而不僅僅是點讚或踩,並通過大量樣本進行學習)。