Hier soir, l'équipe d'entraînement de Kimi K2 a organisé une séance de questions-réponses sur le canal Reddit LocalLLaMA. J'ai consulté les avis sur K2-Thinking provenant d'utilisateurs étrangers et ils sont assez différents des avis des utilisateurs nationaux dans ma section commentaires. Les utilisateurs étrangers sont relativement moins sensibles au prix. Ils ont également mentionné certains problèmes liés à la facturation au nombre d'appels plutôt qu'au jeton. Globalement, cela reste lié à leur priorité accordée à la technologie et à la qualité, ainsi qu'aux caractéristiques du canal LocalLLaMA. Ils ont également répondu à de nombreuses questions lors de la séance de questions-réponses d'hier soir, et j'ai compilé certaines des plus instructives : ---------------------------- Le moteur KDA sera-t-il utilisé dans le prochain modèle phare, la Kimi ? Quels sont ses avantages ? Les hybrides KDA avec NoPE MLA surpassent les MLA + RoPE traditionnels. Il est plus rapide, plus économique et plus efficace, tant lors de la phase de pré-entraînement que lors de la phase d'apprentissage par renforcement. Il permet une préformation et un déploiement plus rapides, et peut servir un plus grand nombre d'utilisateurs. Il pourrait être utilisé pour la formation des K3. K2 aura-t-il une version en langage visuel (VL) ? Oui, c'est en cours. K2 est clairement moins agréable à utiliser (il ne flatte pas l'utilisateur) que d'autres modèles. Est-ce un choix délibéré ? Est-ce un résultat du post-entraînement ? La personnalité non conformiste de K2 est conçue grâce à une sélection rigoureuse des données. Le pré-entraînement et le post-entraînement contribuent tous deux à ce style. Le pré-entraînement intègre les connaissances a priori pertinentes, tandis que le post-entraînement y apporte sa propre spécificité. Le mode de facturation actuel de Kimi for Coding repose sur le nombre de requêtes API, ce qui manque cruellement de transparence. Une simple requête peut en déclencher plusieurs. Serait-il possible de le modifier et de se baser soit sur un jeton, soit sur une requête ? Nous facturons actuellement en fonction du nombre de requêtes, car cette facturation est transparente pour les utilisateurs et correspond mieux à leur structure de coûts. Nous sommes toutefois conscients des éventuels problèmes rencontrés par les utilisateurs et nous envisagerons des améliorations. Pensez-vous que fp4 représente une amélioration significative par rapport à int4 ? Ou int4 est-il déjà un encodage suffisamment performant ? Le choix du format int4 vise à assurer une meilleure compatibilité avec les GPU non-Blackwell, tout en tirant parti du noyau d'inférence Marlin int4 existant. Le modèle K2 Thinking est plus performant que GPT-5 Thinking, mais sa vitesse de traitement est bien plus lente. Devrions-nous délibérément le faire « réfléchir plus longtemps » ? Tout en reconnaissant que la pensée K2 est plus détaillée et prend plus de temps lors de la phase d'inférence, des optimisations sont en cours. Le fait de se concentrer sur les proxys en texte clair est-il un sacrifice à court terme pour atteindre le statut de pointe (SOTA), ou un pari à long terme ? L’obtention de données et l’entraînement adéquats pour le modèle de langage visuel (VL) prennent du temps, nous avons donc choisi de publier d’abord le modèle de texte. Les frais de formation K2 Thinking de 4,6 millions de dollars sont-ils réels ? Ces chiffres ne sont pas officiels. Il est difficile de quantifier les coûts de formation car une grande partie est liée à la recherche et à l'expérimentation. Quel a été le plus grand défi rencontré lors de la création de K2 Thinking ? Merci ! L'un des défis consiste à prendre en charge le modèle entrelacé « réfléchir-outil-réfléchir-outil ». Ce comportement est relativement nouveau dans les LLM et sa mise en œuvre correcte exige un travail considérable. Après plusieurs mois d'évaluation, K2 Thinking a pu identifier des problèmes qui avaient échappé à Sonnet 4.5 et Opus 4.1. Franchement, on a l'impression qu'il ne manque qu'une amélioration système à K2 Thinking pour atteindre le même niveau de performance. Est-ce uniquement grâce à votre nouvelle architecture ? Ou la qualité de vos données d'entraînement s'est-elle également améliorée ? Je suis convaincu que disposer de méthodes d'évaluation et de données appropriées est essentiel à la performance. L'architecture et les optimiseurs améliorent l'efficacité de l'échantillonnage. Quel matériel utilisez-vous pour votre environnement d'entraînement ? J'aimerais savoir comment votre infrastructure se compare à celles utilisées par les grandes entreprises américaines. Nous avons utilisé des GPU H800 avec Infiniband ; ils n'étaient pas aussi performants que les GPU haut de gamme américains et leur nombre était moins important, mais nous avons tiré le meilleur parti de chaque carte.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
