C'est plus complexe qu'il n'y paraît : KIMI-2-Thinking QAT. Cela a également à voir avec la prise en charge d'un plus grand nombre de puces d'IA chinoises. Lisez absolument ce court article de blog passionnant qui explique pourquoi Kimi (Moonshot AI) a choisi l'entraînement prenant en compte la quantification (QAT). Voici mon avis. En résumé : non seulement cela réduit la latence d'inférence et les besoins en mémoire dans les scénarios à mémoire limitée (ce qui est le cas de MoE avec l'échelle de parcimonie de Kimi-2) et accélère l'entraînement RL de 10 à 20 %, mais cela permet également des écosystèmes matériels alternatifs comme Cambricon et Ascend de Huawei grâce au format INT4. Citations du blog : ================= 1) Pourquoi INT4 et non MXFP4 ? Kimi a choisi INT4 plutôt que les MXFP4/NVFP4 « plus sophistiqués » pour mieux prendre en charge les GPU non-Blackwell, avec une prise en charge noyau existante solide (par exemple, Marlin). 2) Les poids de Kimi-2-Thinking sont de 4 bits et les activations sont de 16 bits (notées W4A16). Ils ajoutent que les puces W4A8 et même W4A4 sont en préparation. À mesure que de nouvelles puces intégrant des opérateurs natifs FP4 seront déployées, la quantification de Kimi continuera d'évoluer. Prise en charge d'INT4 dans les puces fabriquées en Chine : ================= Les GPU Cambricon prennent explicitement en charge la quantification INT4, y compris pour les charges de travail d'inférence IA, comme on le constate sur plusieurs modèles tels que le MLU270, le MLU370-X8 et les puces plus récentes, ainsi que dans les versions open-source récentes avec intégration INT4 pour les grands modèles comme GLM-4.6. Les NPU Huawei Ascend prennent également en charge la quantification INT4 pour l'inférence, comme le confirment la documentation et les versions du noyau relatives à GEMM et aux déploiements de modèles quantifiés.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.