Hay un artículo de 2017 que introdujo un truco que me encanta pero que nunca he visto usar. Considere dos capas lineales f y g que inicializa con los mismos parámetros, y luego utilice h(x)=f(relu(x))+g(-relu(-x)) Entonces, en la inicialización, ¡h es lineal! 1/2
El artículo:arxiv.org/abs/1702.085916fv 2/2