2017 年有一篇論文介紹了我非常喜歡但從未見過有人使用過的技巧。 考慮兩個線性層 f 和 g,你用相同的參數初始化它們,然後你使用 h(x)=f(relu(x))+g(-relu(-x)) 初始化時,h 是線性的! 1/2
論文內容: httparxiv.org/abs/1702.08591/2
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月7日 下午2:18
2017 年有一篇論文介紹了我非常喜歡但從未見過有人使用過的技巧。 考慮兩個線性層 f 和 g,你用相同的參數初始化它們,然後你使用 h(x)=f(relu(x))+g(-relu(-x)) 初始化時,h 是線性的! 1/2
論文內容: httparxiv.org/abs/1702.08591/2