Un ingenioso truco utilizado por el impresionante nuevo modelo Kimi 2 llamado “entrenamiento con reconocimiento de cuantización” o QAT. Es filosóficamente similar al dropout. En el dropout, se busca evitar que el modelo dependa de la coadaptación de otras neuronas, ya que esto lo vuelve frágil. Por lo tanto, se desactivan intencionalmente algunas durante el entrenamiento para evitar dicha dependencia. En este caso, no se desea que el modelo dependa de una precisión para la inferencia que se perderá en la cuantización final una vez completado el entrenamiento, por lo que se pierde intencionadamente la precisión durante el entrenamiento para evitar esa dependencia. De este modo, el modelo se ve obligado a no depender nunca de que la información de importancia crítica se almacene en los bits de menor orden de los pesos. Pero se necesita esa precisión para que los gradientes fluyan bien durante la optimización, por lo que la simulan manteniendo pesos de precisión completa solo para el cálculo del gradiente mientras simulan los efectos INT4 en el paso hacia adelante.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.