Na imagem acima, a faixa verde representa o armazenamento necessário para guardar a raiz quadrada do gradiente ao quadrado para o algoritmo Adam. O Fused Adam calcula as atualizações para aplicar camada por camada, resultando nas faixas. No topo, ele aplica essas atualizações de uma só vez. O pico é um buffer temporário necessário para a divisão antes da aplicação da atualização.
Há muito mais a dizer sobre essas belas visualizações. Por favor, me avise se encontrar algum erro ou outras coisas interessantes que devamos saber. Mais informações no meu blog: Como obter e ishital.com/blog/gpu-memor…memória da GPU https://t.co/3uPt0S6RIp