深入研究 RL lora rank 大小,這更加深了我關於推理 計算努力縮放規律有待發現的整體感覺。現在我終於可以控制合成環境了,在預訓練方面也看到了類似的權衡。例如,堆疊層對某些任務/領域(例如數學)的益處甚至比其他任務/領域更大。