Une astuce ingénieuse utilisée par le nouveau modèle Kimi 2, appelé « entraînement prenant en compte la quantification », ou QAT. D'un point de vue philosophique, c'est similaire au dropout. Dans le dropout, on cherche à éviter que le modèle ne dépende de la co-adaptation d'autres neurones, car cela le rend fragile. On désactive donc intentionnellement certains d'entre eux pendant l'entraînement pour éviter cette dépendance. Ici, vous ne voulez pas que le modèle dépende d'une précision pour l'inférence qui sera perdue lors de la quantification finale une fois l'entraînement terminé ; vous perdez donc intentionnellement la précision pendant l'entraînement pour éviter cette dépendance. Le modèle est donc contraint de ne jamais dépendre du stockage d'informations cruciales dans les bits de poids de faible ordre. Mais cette précision est nécessaire pour assurer une bonne circulation des gradients pendant l'optimisation, c'est pourquoi ils la simulent en conservant des poids de pleine précision uniquement pour le calcul des gradients, tout en simulant les effets INT4 lors de la passe avant.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.