2017 年有一篇论文介绍了一种我非常喜欢但从未见过有人使用过的技巧。 考虑两个线性层 f 和 g,你用相同的参数初始化它们,然后你使用 h(x)=f(relu(x))+g(-relu(-x)) 初始化时,h 是线性的! 1/2