进一步证明通用合成环境方法是有效的:即使只有 2000 亿个代币,也能得到一个高度通用的模型(对于 SFT 来说,可能比 Qwen 还要好)。而使其更具可微调性的关键在于:对训练数据的访问!这使得我们可以采用多种策略来利用预先存在的知识/逻辑门。