重磅消息:我们发布了用于预训练的全合成通用数据集 SYNTH,以及两个完全基于该数据集训练的全新 SOTA 推理模型。尽管 Baguettotron 数据集仅包含 2000 亿个词元,但它目前在其规模范围内仍处于领先地位。
SYNTH 与传统的预训练方法截然不同:如果我们训练的是推理能力,并专注于吸收真正重要的知识和技能,结果会怎样?其核心是对维基百科 5 万篇“关键”文章进行上采样。https://t.co/qrBybjF78m
SYNTH 是一系列合成游乐场的集合:数据不是通过简单的提示生成的,而是通过将较小的、经过微调的模型集成到具有种子、约束和形式验证/检查的工作流程中生成的。
由于 SYNTH 的设计目标是训练推理能力,因此我们在训练初期就能获得实际的推理信号。对于 Baguettotron 问题,我们发现 MMLU 在处理不到 100 亿个 token 后就开始出现非随机性,并迅速达到接近 SOTA 的性能水平。
合成游乐场促成了一系列受控实验,最终促使我们倾向于采用极深设计。我们为 Baguettotron 选择了一种 80 层架构,并在逻辑推理记忆方面实现了全面提升:https://t.co/rdn902oTGN
我们与 Baguettotron 合作发布了迄今为止最小的实用语言模型 Monad。Monad 是一个 5600 万维网的 Transformer 模型,使用 SYNTH 数据集中的英语部分进行训练,并在 MMLU 测试中表现出非随机性。Monad 的设计是一项工程挑战,需要一个定制的微型分词器。https://t.co/hC8SLV1SLc
这两个模型都基于类似 Qwen 的指令风格进行原生训练,并带有思维轨迹。我们设计了一种全新的推理风格,针对小型模型进行了优化,采用了精简的措辞、草稿符号和模拟熵(灵感来自 Entropix 项目)。
通过此次发布,我们旨在支持新兴的预训练研究生态系统(NanoGPT、NanoChat)、可解释性(您甚至可以用显微镜观察 Monad)以及围绕前沿模型的工具协调。
我们认为,合成数据既是构建专用小型模型的资源,也是LLM应用中数据层增强/丰富数据的通用方法。除了研究之外,这也将成为我们新一阶段产品开发的重要因素。
在完整报告发布之前,我们将发布一篇详细的博客文章,其中包含一些科学成果/合成路线的幕后故事。https://t.co/rixJOesC08





