令人印象深刻的新型 Kimi 2 模型使用了一种巧妙的技巧,称为“量化感知训练”,或 QAT。 它在哲学上与dropout类似。在dropout中,你不希望模型依赖于其他神经元的协同适应,因为这会使模型变得脆弱。所以在训练过程中,你会故意屏蔽一些神经元,以避免这种依赖性。 在这里,你不希望模型依赖于训练完成后最终量化时会丢失的精度进行推理,因此你在训练期间故意丢失精度以避免这种依赖。 因此,该模型被迫永远不能依赖于存储在权重低位中的关键信息。 但是,为了在优化过程中保持梯度良好流动,你需要这种精度,所以他们通过在梯度计算中保持全精度权重来伪造它,同时在前向传播中模拟 INT4 效果。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。