2017 年有一篇论文介绍了一种我非常喜欢但从未见过有人使用过的技巧。 考虑两个线性层 f 和 g,你用相同的参数初始化它们,然后你使用 h(x)=f(relu(x))+g(-relu(-x)) 初始化时,h 是线性的! 1/2
论文内容: httparxiv.org/abs/1702.08591/2
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月7日 14:18
2017 年有一篇论文介绍了一种我非常喜欢但从未见过有人使用过的技巧。 考虑两个线性层 f 和 g,你用相同的参数初始化它们,然后你使用 h(x)=f(relu(x))+g(-relu(-x)) 初始化时,h 是线性的! 1/2
论文内容: httparxiv.org/abs/1702.08591/2