Existe um artigo de 2017 que apresentou um truque que eu adoro, mas nunca vi ser usado. Considere duas camadas lineares f e g que você inicializa com os mesmos parâmetros e, em seguida, usa h(x)=f(relu(x))+g(-relu(-x)) Então, na inicialização, h é linear! 1/2
O artigo: arxiv.org/abs/1702.08591 2/2