Il existe un article de 2017 qui a introduit une astuce que j'adore mais que je n'ai jamais vue utilisée. Considérons deux couches linéaires f et g que vous initialisez avec les mêmes paramètres, puis vous utilisez h(x)=f(relu(x))+g(-relu(-x)) Alors à l'initialisation, h est linéaire ! 1/2
Le document arxiv.org/abs/1702.08591w6fv 2/2