進一步證明通用合成環境方法是有效的:即使只有 2000 億個代幣,也能得到一個高度通用的模型(對於 SFT 來說,可能比 Qwen 還要好)。而使其更具可微調性的關鍵在於:對訓練資料的存取!這使得我們可以採用多種策略來利用預先存在的知識/邏輯閘。