Kimi AMA sur K2 Thinking : 1. Le coût de formation de 4,6 millions de dollars n'est pas un chiffre officiel. 2. Entraîné sur H800 (H100 nerfés) 3. Les hybrides KDA (Kimi Delta Attention) avec NoPE MLA sont plus performants que les MLA complets avec RoPE. 4. Muon s'adapte bien aux paramètres 1T. « Il existe des dizaines d'optimiseurs et d'architectures qui ne résistent pas à la grille. » 5. Kimi K2 aura une vision 6. K2 Thinking est nativement INT4 pour être plus convivial pour les GPU non-Blackwell tout en tirant parti des noyaux d'inférence Marlin int4 existants.
- « Quand K3 ? » — « avant même que le centre de données à mille milliards de reddit.com/r/LocalLLaMA/c…construit » 😂 Lien AMA : https://t.co/6yZSsjQXvM
