#9 - 二阶优化在LLM中的应用潜力:基于全高斯-牛顿法的研究 链接 - https://t.co/wlkpXHz4sf 该论文表明,如果使用实际的高斯-牛顿曲率而不是大家使用的简化近似值,则可以显著加快 LLM 的训练arxiv.org/abs/2510.09378步骤减少了约 5.4 倍;与 μ 子相比,减少了约 16 倍。 他们既没有对这一说法做出理论上的保证,也没有进行大规模测试(只有 1.5 亿个参数)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
