令人印象深刻的新型 Kimi 2 模型使用了一種巧妙的技巧,稱為“量化感知訓練”,或 QAT。 它在哲學上與dropout類似。在dropout中,你不希望模型依賴其他神經元的協同適應,因為這會使模型變得脆弱。所以在訓練過程中,你會故意屏蔽一些神經元,以避免這種依賴。 在這裡,你不希望模型依賴訓練完成後最終量化時會失去的精確度進行推理,因此你在訓練期間故意失去精確度以避免這種依賴。 因此,該模型被迫永遠不能依賴儲存在權重低位中的關鍵資訊。 但是,為了在優化過程中保持梯度良好流動,你需要這種精度,所以他們透過在梯度計算中保持全精度權重來偽造它,同時在前向傳播中模擬 INT4 效果。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。