Seed 执行一个潜在的循环 Transformer。 这是一个相当成熟的方法,对于简单的标记,模型可以在两次循环后终止。这种方法虽然不能节省计算资源,但能让你用有限的数据预算获得更好的结果。我希望我们能看到一个相当可观的扩展性指标(MoE),来展示这种方法的可扩展性。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年10月30日 15:10
Seed 执行一个潜在的循环 Transformer。 这是一个相当成熟的方法,对于简单的标记,模型可以在两次循环后终止。这种方法虽然不能节省计算资源,但能让你用有限的数据预算获得更好的结果。我希望我们能看到一个相当可观的扩展性指标(MoE),来展示这种方法的可扩展性。