强化学习完全是另一个世界。排名前 9 的 LLM 总共占用 2.4T 个 token,约合 10TB。PufferLib 在一台 6x4090 的 tinybox 服务器上训练超过 1000TB 的观测数据。计算能力的扩展性投入巨大,而数据扩展性方面的工作却寥寥无几!
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月25日 19:10
强化学习完全是另一个世界。排名前 9 的 LLM 总共占用 2.4T 个 token,约合 10TB。PufferLib 在一台 6x4090 的 tinybox 服务器上训练超过 1000TB 的观测数据。计算能力的扩展性投入巨大,而数据扩展性方面的工作却寥寥无几!