É mais do que aparenta: KIMI-2-Thinking QAT. Também tem a ver com o suporte a mais chips de IA/chips de IA chineses. Recomendo a leitura do excelente e breve artigo abaixo sobre por que Kimi (Moonshot AI) escolheu o QAT (treinamento com reconhecimento de quantização). Aqui está o que eu li. Resumindo: Além de reduzir a latência para inferência e a necessidade de memória em cenários com uso intensivo de memória (como o MoE com a escala de esparsidade do Kimi-2) e acelerar o treinamento de RL em 10-20%, ele também possibilita ecossistemas de hardware alternativos como Cambricon e Ascend da Huawei devido ao formato INT4. Citações do blog: ================= 1) Por que INT4 e não MXFP4? Kimi escolheu INT4 em vez de MXFP4/NVFP4, que seriam mais "sofisticados", para oferecer melhor suporte a GPUs que não sejam da linha Blackwell, com forte suporte já existente no kernel (por exemplo, Marlin). 2) Os pesos do Kimi-2-Thinking são de 4 bits e as ativações são de 16 bits (denotadas como W4A16) Eles afirmam ainda que o W4A8 e até mesmo o W4A4 estão no horizonte. À medida que novos chips com operadores nativos de FP4 forem lançados, o caminho da quantização de Kimi continuará evoluindo... Suporte a INT4 em chips fabricados na China: ================= As GPUs Cambricon suportam explicitamente a quantização INT4, inclusive para cargas de trabalho de inferência de IA, como pode ser observado em diversos modelos, como o MLU270, o MLU370-X8 e chips mais recentes, bem como em versões recentes de código aberto com integração INT4 para modelos grandes como o GLM-4.6. As NPUs Huawei Ascend também suportam quantização INT4 para inferência, conforme confirmado pela documentação e versões do kernel relacionadas ao GEMM e às implementações de modelos quantizados.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.