我們仍需找到這個縮放規律,但我目前的感覺是:記憶力與樣本中的事實密度、合成上取樣、參數數量以及模型架構學習效率之間存在直接關係。好的合成管道不僅可以解決第 2 點,還可以解決第 4 點,因為您可以運行受控實驗並直接檢查準確的召回率,而不是浪費時間使用奇怪的代理(請讓 hellaswag 消亡吧)。