今天,我編寫了三個內核,融合了循環單元中的各種門控和掃描,以及一個融合的 PPO 損失內核。結果是,在開始優化之前,訓練速度就達到了每秒 200 萬步以上。今天開發時間超過 12 小時。明天,我打算舉重一整天,好好放鬆一下。支援 pufferlib。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月9日 凌晨3:00
今天,我編寫了三個內核,融合了循環單元中的各種門控和掃描,以及一個融合的 PPO 損失內核。結果是,在開始優化之前,訓練速度就達到了每秒 200 萬步以上。今天開發時間超過 12 小時。明天,我打算舉重一整天,好好放鬆一下。支援 pufferlib。