2017 年有一篇論文介紹了我非常喜歡但從未見過有人使用過的技巧。 考慮兩個線性層 f 和 g,你用相同的參數初始化它們,然後你使用 h(x)=f(relu(x))+g(-relu(-x)) 初始化時,h 是線性的! 1/2