Hay un artículo de 2017 que introdujo un truco que me encanta pero que nunca he visto usar. Considere dos capas lineales f y g que inicializa con los mismos parámetros, y luego utilice h(x)=f(relu(x))+g(-relu(-x)) Entonces, en la inicialización, ¡h es lineal! 1/2
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.