我们仍需找到这个缩放规律,但我目前的感觉是:记忆力与样本中的事实密度、合成上采样、参数数量以及模型架构学习效率之间存在直接关系。好的合成管道不仅可以解决第 2 点,还可以解决第 4 点,因为您可以运行受控实验并直接检查准确的召回率,而不是浪费时间使用奇怪的代理(请让 hellaswag 消亡吧)。