Existe um artigo de 2017 que apresentou um truque que eu adoro, mas nunca vi ser usado. Considere duas camadas lineares f e g que você inicializa com os mesmos parâmetros e, em seguida, usa h(x)=f(relu(x))+g(-relu(-x)) Então, na inicialização, h é linear! 1/2
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.