損失激增,添加 RMSNorm,重新啟動。RMSNorm是我最好的朋友。不過要注意的是,(1)VAE 的交叉熵更好並不能說明什麼,實際上,(2)一般來說,更好的交叉熵可能不會轉化為更好的評估。 但至少它沒有爆炸,而且編碼器似乎也完成了它的編碼工作。