正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月13日 下午6:29
RT @liuzhuang1234:更強的無歸一化 Transformer – 新論文。 我們引入了 Derf(動態 erf),這是一個簡單的逐點層,它…