X (Twitter)

Kimi-K2-Thinking : @Kimi_Moonshot a récemment publié un modèle open source pour le raisonnement profond et les fonctionnalités d'agents intelligents. Il ne s'agit pas seulement d'un moteur d'inférence à haute efficacité, mais aussi d'un agent intelligent intégré, permettant l'invocation dynamique d'outils pour des tâches complexes et un traitement de bout en bout, depuis les simples questions-réponses jusqu'aux flux de travail autonomes de plusieurs centaines d'étapes. Ce modèle marque l'évolution des grands modèles de langage vers une plus grande autonomie et une plus grande praticité, excellant notamment dans des domaines tels que la programmation, la recherche et la rédaction. Conception de base : Mécanisme de « réflexion » efficace dans le cadre de l'architecture du ministère de l'Éducation Kimi-K2-Thinking adopte l'architecture MoE avec un nombre total de paramètres de 1 T, mais seulement 32 milliards de paramètres d'activation. Cela se traduit par une utilisation plus efficace des ressources de calcul : seuls quelques experts sont activés par jeton, évitant ainsi la surcharge liée à la redondance d'un modèle à paramètres complets. Ses paramètres spécifiques incluent : 61 couches (dont 1 couche dense), une dimension cachée de 7 168 pour la couche d'attention et de 2 048 par expert dans MoE, 384 experts (8 sélectionnés par jeton, dont 1 expert partagé), 64 têtes d'attention, la fonction d'activation SwiGLU, le mécanisme d'attention MLA, un vocabulaire de 160 000 mots et la prise en charge d'une longueur de contexte de 256 000 caractères. Cette conception permet au modèle de maintenir une faible latence lors du traitement de longues séquences, tout en générant des chemins d'inférence progressifs grâce au mécanisme CoT. Contrairement à la sortie linéaire des modèles traditionnels, elle alterne entre réflexion et appel d'outils, formant une boucle fermée : le modèle « réfléchit » d'abord à la décomposition du problème, puis fait appel à des outils externes pour obtenir des données, et enfin intègre la sortie. Ce processus, comparable à celui d'un agent intelligent, est particulièrement adapté aux tâches nécessitant une vérification itérative, telles que la résolution de problèmes mathématiques ou le débogage de code. Innovations clés : Les principaux atouts du modèle d’entraînement par quantification et de stabilité à long terme résident dans deux optimisations techniques majeures : premièrement, la quantification native INT4, qui compresse les poids à une précision entière de 4 bits grâce à un entraînement prenant en compte la quantification (QAT), permettant ainsi de doubler la vitesse d’inférence tout en réduisant l’utilisation de la mémoire GPU de plus de 50 %. Il ne s’agit pas d’une quantification a posteriori, mais d’une quantification intégrée dès le début de l’entraînement, garantissant une perte de précision minimale (comparable à FP16 sur la plupart des benchmarks). Deuxièmement, la stabilité à long terme de l’agent. Les modèles traditionnels ont tendance à « perdre le fil » après 30 à 50 appels d’outil, mais Kimi-K2-Thinking peut fonctionner de manière stable pendant 200 à 300 étapes, en conservant un comportement orienté vers l’objectif. Ceci est rendu possible grâce à une stratégie d’entraînement dédiée, incluant un ajustement fin par apprentissage par renforcement (RLHF) et des données simulées pour l’utilisation de l’outil, permettant au modèle de maintenir sa cohérence au fil des interactions. Ces innovations permettent aux modèles de passer d'une « réponse passive » à une « exploration active », les rendant ainsi adaptés à des scénarios du monde réel tels que la recherche Web, la génération de code ou l'analyse multimodale. Performances : Leadership en matière d'analyse comparative. Kimi-K2-Thinking a démontré d'excellentes performances lors de multiples évaluations, surpassant notamment ses concurrents dans les tâches complexes nécessitant l'utilisation d'outils. Par exemple, sur le benchmark d'inférence Humanity's Last Exam (HLE), il a obtenu un score de 23,9 % sans outils, 44,9 % avec outils et 51,0 % dans les scénarios avec une utilisation intensive d'outils. Sur la tâche mathématique AIME25, il a atteint 94,5 % sans outils, 99,1 % avec outils et 100,0 % avec une utilisation intensive d'outils. Son score de culture générale MMLU-Pro a atteint 84,6 %. Sur le benchmark de recherche d'agents BrowseComp, il a obtenu 60,2 % ; sur la tâche de programmation SWE-bench Verified, 71,3 % ; sur LiveCodeBenchV6, 83,1 % ; et sur le benchmark d'agents Seal-0, 56,3 %. Il convient de souligner son score de 62,3 % sur des tâches chinoises telles que BrowseComp-ZH. Ces résultats témoignent de la fiabilité du modèle dans des environnements complexes et à plusieurs étapes. Les applications pratiques et le modèle de support de l'écosystème sont hébergés en open source sur Hugging Face et prennent en charge les API compatibles OpenAI/Anthropic pour une intégration aisée. En pratique, les conversations et les requêtes utilitaires peuvent être implémentées avec un simple code Python. Par exemple, pour une conversation classique, vous posez une question et le modèle vous fournit la réponse ainsi que le raisonnement (reasoning_content). Pour les requêtes utilitaires, vous définissez une fonction (comme une requête météo) et le modèle décide automatiquement quand l'appeler, en effectuant plusieurs itérations pour obtenir les résultats. La licence est une licence MIT modifiée, autorisant une utilisation commerciale, mais soumise aux conditions de l'open source. Moonshot AI fournit également des guides de déploiement (pour des frameworks tels que vLLM/SGLang) et une documentation d'utilisation des outils, permettant aux développeurs de démarrer rapidement. Globalement, ce modèle facilite l'accès au développement d'agents intelligents, propulsant l'IA du laboratoire à l'environnement de production.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil