上の図では、緑のストライプはAdamのgrad^2の平方根を保持するために必要なストレージです。Fused Adamはレイヤーごとに更新を計算し、ストライプを生成します。上部では、これらの更新を一括適用しています。スパイクは更新を適用する前の除算に必要な一時バッファです。
これらの美しいビジュアライゼーションについては、まだまだ語りたいことがたくさんあります。もし誤りや、他に知っておくべき興味深い点などがあれば、ぜひ教えてください。 詳細は私のブログをご覧ください: GPUメモリプロファイリングの取得と解釈方法 https://t.co/3uPt0S6RIp