我很喜欢关于训练中期(耶!*合成管道*)和长上下文的部分,但我感觉这可以作为转移重点的理由:减少 6T 基础预训练,增加 100-200 亿推理/扩展上下文能力。值得深入研究一下附录:虽然这里侧重于代码,但我们同意需要转向更通用的“能力”评估。“你能做到X吗?”这个问题远比Django脚手架有趣得多。