而且,这是一项重要的开放科学成果发布:他们没有充分强调这一点,但SFT部分的内容远不止于训练后阶段。这是一份完整的训练中期文档,其中包含大量关于MoE训练、异步基础强化学习和深度研究的真知灼见。这份报告值得仔细阅读(一边吃火鸡一边读?),其中包含了所有中间实验,甚至可以用较小的模型重现这些实验结果。 https://t.co/p9nmK65bdF