위 그림에서 녹색 줄무늬는 Adam의 grad^2의 제곱근을 저장하는 데 필요한 저장 공간입니다. 융합된 Adam은 레이어별로 업데이트를 계산하여 줄무늬를 생성합니다. 맨 위에서는 업데이트를 한꺼번에 적용합니다. 스파이크는 업데이트를 적용하기 전에 나누기에 필요한 임시 버퍼입니다.
이 아름다운 시각화에 대해 더 이야기할 내용이 많습니다. 오류나 다른 유용한 정보가 있으면 알려주세요. 자세한 내용은 내 블로그에서 확인하세요: GPU 메모리 프로파일링을 가져오고 해석하는 방법 https://t.co/3uPt0S6RIp