Um truque inteligente usado pelo impressionante novo modelo Kimi 2, chamado de "treinamento com reconhecimento de quantização", ou QAT. Filosoficamente, é semelhante ao dropout. No dropout, você não quer que o modelo dependa da coadaptação de outros neurônios, pois isso torna o sistema frágil. Então, você intencionalmente desativa alguns deles durante o treinamento para evitar essa dependência. Nesse caso, você não quer que o modelo dependa da precisão para inferência, precisão essa que será perdida na quantização final após a conclusão do treinamento. Portanto, você perde intencionalmente a precisão durante o treinamento para evitar essa dependência. Dessa forma, o modelo é forçado a nunca depender de informações criticamente importantes armazenadas nos bits de baixa ordem dos pesos. Mas essa precisão é necessária para que os gradientes fluam bem durante a otimização, então eles simulam isso mantendo pesos de precisão total apenas para o cálculo do gradiente, enquanto simulam os efeitos INT4 na passagem direta.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.