En la imagen superior, la franja verde representa el almacenamiento necesario para almacenar la raíz cuadrada de grad^2 para Adam. Adam fusionado calcula las actualizaciones para aplicarlas capa por capa, lo que genera franjas. En la parte superior, aplica esas actualizaciones de una sola vez. El pico representa el búfer temporal necesario para la división antes de aplicar la actualización.
Hay mucho más que decir sobre estas hermosas visualizaciones. Por favor, avísenme si encuentran algún error o cualquier otra información interesante que debamos saber. Más en mi blog: Cómo obteshital.com/blog/gpu-memor…rfil de memoria de la GPU https://t.co/3uPt0S6RIp