每次我从头开始在 WebText 上训练 Transformer 模型时,损失曲线都是这样的。第一个下降是合理的,但第二个下降是为什么呢? 双子座在胡说八道。 架构与gpt2相同,只是使用了swiglu、rope和非绑定嵌入。 训练: 缪子 + 亚当 线性热身(最多 500 步) 我最好的想法是归纳头部形成梗,但我的理解是这种情况发生得相当晚,比如在几千个训练步骤之后,或者像十亿个令牌之类的,而我每个批次有 10 万个令牌。 任何接受过变压器培训的人都知道这是为什么吗?
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
