既然禁令已经解除,很高兴与大家分享在 @EPFL 首次展示 Baguettotron 的幻灯片,以及博客文章之外的一些其他想法。 正如许多人所注意到的,我们从语言物理学模型中汲取了灵感,该模型创造了“合成游乐场”这一表达,并提倡使用合成数据来设计系统的“受控实验”,实际上使语言学硕士研究更接近物理学,而不是目前非常注重经验的数据方法。 本次会议包含一些非常早期的受控评估,这些评估结果支持深度层架构。我们认为,深度扩展最能受益于密集推理轨迹,这可能有助于在推理时实现跨层的更优化组合过程。 讨论的一个关键点是 SYNTH 对信号的推理早熟性,这促使我回溯性地对 Baguettotron 的 150 个检查点进行了基准测试。我必须说,我对总体结果感到惊讶,这表明该模型在 MMLU 中仅使用了数十亿个 token 就表现出了非随机性(而且 @mkurman88 现在表明这种情况可能出现得更早)。 我真心希望在接下来的几个月里,这个数据集能够推动 LLM 训练方面更多有趣的发现,因为我们现在能够运行完整的训练,而不仅仅是使用极少的标记和参数进行消融。
完整演示文稿:https://t.co/3jPDpExmey