Il existe un article de 2017 qui a introduit une astuce que j'adore mais que je n'ai jamais vue utilisée. Considérons deux couches linéaires f et g que vous initialisez avec les mêmes paramètres, puis vous utilisez h(x)=f(relu(x))+g(-relu(-x)) Alors à l'initialisation, h est linéaire ! 1/2
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.