#9 - 二階優化在LLM的應用潛力:基於全高斯-牛頓法的研究 連結 - https://t.co/wlkpXHz4sf 該論文表明,如果使用實際的高斯-牛頓曲率而不是大家使用的簡化近似值,則可以顯著加快 LLM 的訓練速arxiv.org/abs/2510.09378驟減少了約 5.4 倍;與 μ 子相比,減少了約 16 倍。 他們既沒有對這一說法做出理論上的保證,也沒有進行大規模測試(只有 1.5 億個參數)。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
