今天,我编写了三个内核,融合了循环单元中的各种门控和扫描,以及一个融合的 PPO 损失内核。结果是,在开始优化之前,训练速度就达到了每秒 200 万步以上。今天开发时间超过 12 小时。明天,我打算举重一整天,好好放松一下。支持 pufferlib。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月9日 03:00
今天,我编写了三个内核,融合了循环单元中的各种门控和扫描,以及一个融合的 PPO 损失内核。结果是,在开始优化之前,训练速度就达到了每秒 200 万步以上。今天开发时间超过 12 小时。明天,我打算举重一整天,好好放松一下。支持 pufferlib。