看来确实有过一次大赦。🙏 埃利泽的观点不无道理,预训练确实会导致时间观念出现分裂。但这对其他模型的影响远没有对双子座模型那么严重。隐式和显式时间戳足以形成一种准时间顺序感。 为什么?
我也觉得我们在课程设置方面做得不够,但我明白这只是新手的初步尝试。我们已经做了很多实验,随机大批量训练是一个非常可靠的基准。文档更多的是记录想法,而非经验。 双子座的问题……很特别。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月30日 07:43
看来确实有过一次大赦。🙏 埃利泽的观点不无道理,预训练确实会导致时间观念出现分裂。但这对其他模型的影响远没有对双子座模型那么严重。隐式和显式时间戳足以形成一种准时间顺序感。 为什么?
我也觉得我们在课程设置方面做得不够,但我明白这只是新手的初步尝试。我们已经做了很多实验,随机大批量训练是一个非常可靠的基准。文档更多的是记录想法,而非经验。 双子座的问题……很特别。