#8 - 通过 FP16 克服训练-推理不匹配问题 链接 - https://t.co/rFKo8w36nc 延续第 6 章和第 7 章的主题,请将此章视为arxiv.org/abs/2510.26788过重要性采样技巧或大量的工程设计来更好地对齐卷积核,从而解决训练-推理不匹配的问题。这些方法在一定程度上有所帮助,但是: >需要额外的计算成本(额外的前向传递) >但这并不能真正解决你优化了一个版本却部署了另一个版本的问题。 仍然可能不稳定 所以这篇论文的论点是:真正的罪魁祸首是BF16。使用FP16。 我在推特上用这个主题做了好几个表情包,玩得不亦乐乎。
#9 - 二阶优化在LLM中的应用潜力:基于全高斯-牛顿法的研究 链接 - https://t.co/wlkpXHz4sf 该论文表明,如果使用实际的高斯-牛顿曲率而不是大家使用的简化近似值,则可以显著加快 LLM 的训练arxiv.org/abs/2510.09378步骤减少了约 5.4 倍;与 μ 子相比,减少了约 16 倍。 他们既没有对这一说法做出理论上的保证,也没有进行大规模测试(只有 1.5 亿个参数)。

