深入研究 RL lora rank 大小,这更加深了我关于推理 计算努力缩放规律有待发现的整体感觉。现在我终于可以控制合成环境了,在预训练方面也看到了类似的权衡。比如,堆叠层对某些任务/领域(例如数学)的益处甚至比其他任务/领域更大。