Sur l'image ci-dessus, la bande verte représente l'espace de stockage nécessaire pour contenir la racine carrée du gradient au carré pour Adam. L'algorithme Adam fusionné calcule les mises à jour à appliquer couche par couche, ce qui explique les bandes. Au sommet, ces mises à jour sont appliquées en une seule fois. Le pic correspond à la mémoire tampon temporaire nécessaire à la division avant l'application de la mise à jour.
Il y a encore beaucoup à dire sur ces magnifiques visualisations. N'hésitez pas à me signaler toute erreur ou autre information intéressante. Plus d'infos sur mon blog : Comment obtenir et inteshital.com/blog/gpu-memor… la mémoire GPU https://t.co/3uPt0S6RIp