X (Twitter)

Kimi a rendu K2-Thinking open-source, surprenant tout le monde avec une grande surprise ! HLE (44,9) et IMO (76,8) sont les meilleurs au monde ! Je l'ai testé dès que possible et je profite de cette occasion pour vous présenter leur suite logicielle complète (modèles, interface de ligne de commande, abonnement). Vous trouverez ci-dessous des instructions d'utilisation détaillées et des tests 👇

Trop paresseux pmp.weixin.qq.com/s/54qHLvw2VK3r…x ? 🚧 Vous pouvez lire l’article complet : https://t.co/rFJAwyOrNa

Permettez-moi tout d'abord de vous présenter les détails de la mise à niveau du modèle : Mise à niveau basée sur des agents : nativement « penser et utiliser des outils en même temps », capable d'un raisonnement et d'une invocation autonomes et continus sur plusieurs tours, jusqu'à environ 300 tours. État de l'art en matière d'inférence (SOTA) : HLE (44,9) et IMO (76,8) ont obtenu les scores les plus élevés à ce jour, avec des améliorations significatives dans la récupération complexe et la planification à long terme. Programmation améliorée : le codage agentique est plus stable et les performances de référence des projets front-end (HTML/React/à base de composants) et multilingues sont améliorées. Amélioration des capacités générales de base : l’écriture créative devient plus rythmée et approfondie ; l’analyse dans les contextes académiques et de recherche devient plus rigoureuse et la structure plus claire ; la logique et le style restent stables dans les tâches longues. Amélioration de l'efficacité : INT4 natif (poids QAT+MoE uniquement) maintient les performances lors d'un décodage long, avec une amélioration de la vitesse de génération d'environ 2×.

De plus, durant cette période, Kimi ne s'est pas seulement concentrée sur les modèles dans le domaine de la programmation, mais a également pris en compte l'écosystème environnant et la manière de rendre l'utilisation de la programmation K2 plus pratique et abordable pour tous. Ils ont lancé leur propre outil CLI de programmation IA, Kimi CLI, facile à installer et utilisant le code de base Lazio Claude. Ils ont également ajouté un module API appelé KFC, qui coûte 199 yuans et offre 7168 appels par semaine, ce qui est largement suffisant.

Tout d'abord, voyons comment utiliser facilement et rapidement le modèle K2-Thinking amélioré grâce à la suite logicielle Kimi. Nous devons acheter un abonnement au programme Kimi Apollo, ce qui peut se faire directement sur le site officiel. De plus, si vous avez déjà donné un pourboire à Kimi, la somme versée sera créditée sur votre compte après la première activation du service, ce qui est très généreux. Il y a un problème de conception. Pour obtenir la clé API Kimi For Coding, il faut cliquer sur le texte mis en évidence dans l'image ci-dessous et le copier. Espérons que cela pourra être corrigé ultérieurement, peut-être en ajoutant cette option aux paramètres.

Ensuite, nous pouvons installer Kimi CLI. Si vous n'avez pas installé UV, vous devez d'abord l'installer dans le terminal. Vous pouvez ensuite installer Kimi CLI en utilisant ce code. uv tool install --python 3.13 kimi-cli Après l'installation, ouvrez le répertoire de votre projet dans le terminal et tapez « kimi » pour lancer l'interface de ligne de commande Kimi. Lors du premier lancement, vous serez invité à choisir une méthode de connexion. Sélectionnez la première option et saisissez la clé API que vous venez d'obtenir de KFC. Une fois connecté, appuyez sur la touche Tab pour activer la pensée. Le modèle K2-Thinking sera alors utilisé. La même opération s'applique pour activer la pensée dans Claude Code.

Bien sûr, cela peut toujours être utilisé dans le code Cluade. Si vous rencontrez des difficultés pour configurer les variables d'environnement, vous pouvez utiliser mon projet « ai-claude-start ». Lors de sa création, veuillez renseigner les informations suivantes.

Vient ensuite le test du modèle. Je proposerai d'abord une exigence de base pour une application web de gestion des tâches, puis j'ajouterai, modifierai et demanderai continuellement des fonctionnalités supplémentaires, et j'observerai le résultat après dix cycles de modifications. Comme vous pouvez le constater, il s'agit du processus d'ajout progressif de fonctionnalités, depuis l'application Todo initiale rudimentaire jusqu'à l'obtention d'un produit quasiment complet. Au fur et à mesure que les exigences évoluaient, elles se complexifiaient, avec notamment l'intégration de la fonctionnalité glisser-déposer et une refonte majeure pour l'adaptation mobile. L'ajout de nouvelles fonctionnalités a également entraîné des modifications de l'interface utilisateur, mais K2-Thinking a géré l'ensemble de ces problématiques simultanément. La troisième fois, un problème d'interface utilisateur causé par l'ajout de nouvelles fonctionnalités a été corrigé à la quatrième tentative, ce qui est plutôt génial.

J'ai également effectué ce test avec d'autres modèles. Claude 4.5 a fonctionné, mais pas Codex. Voici à quoi ressemblait l'interface de ligne de commande de Codex après sa septième série de modifications. Le constat est alarmant : le produit est pratiquement inutilisable, et il l'a complètement gâché.

L'étape suivante consistait à tester les compétences de recherche en ligne de commande de Kimi : rechercher le style de conception de la page d'accueil du produit Linear, puis écrire une page Web qui reproduit le style de conception de la page Web de ce produit. Il a en fait utilisé des outils de recherche pour trouver des articles sur la conception linéaire, puis a résumé les caractéristiques de conception de la conception linéaire, en développant les consignes et exigences initiales. La partie la plus difficile résidait dans le bouton magnétique et l'effet lumineux du survol de la souris sur la carte, qui étaient également des éléments de conception essentiels du précédent modèle Linear, et il a réussi à les résoudre tous. J'ai également essayé d'utiliser cette astuce dans Claude Code pour faire fonctionner Claude 4.5, mais Claude 4.5 n'a toujours pas réussi à faire fonctionner l'animation du bouton magnétique et l'effet de dégradé au survol de la souris.

Le prochain test portera sur la logique métier complexe. Demandez-lui de créer un outil de diagramme de flux qui masque de nombreux conflits et pièges liés à la logique interactive, tels que les conflits entre le glisser-déposer et le clic, et les connexions liées aux composants. Concernant les problèmes de conflit qui pouvaient facilement survenir lors du glissement et de la connexion de lignes, ce petit malin a tout simplement créé un bouton de changement de mode, ce qui a résolu le problème. Lors du raccordement des fils, la fonction fonctionne normalement et le chemin est logique, sans détour. Parallèlement, les nœuds de décision logique ajoutent automatiquement les étiquettes « oui » et « non ». Il semble qu'après avoir acquis une capacité de raisonnement, le système gère parfaitement ce type de logique complexe avec des pièges.

L'étape suivante consistait à tester sa capacité à traiter des API, à récupérer des données et à les visualiser, ce qui l'a amené à créer un tableau de bord blockchain avec des exigences élevées en matière de visualisation. Les résultats montrent que l'exécution a été tout à fait satisfaisante. L'API appropriée a été appelée pour récupérer les données, et les annotations de visualisation et le tri nécessaires ont été implémentés. Le graphique linéaire détaillé qui apparaît après avoir cliqué sur les données détaillées a également été ajouté, ainsi que des animations d'expansion/réduction et des données détaillées au survol de la souris.

Enfin, voici un extrait de code qui présente quelques problèmes. Voyons si nous pouvons les identifier et les résoudre. J'ai fait appel à une autre IA pour créer une page web contenant une liste de cinq questions, affichant une liste énorme en une seule fois, afin de résoudre le problème de latence et d'améliorer la vitesse de recherche. Le plus drôle, c'est qu'il n'a pas seulement corrigé le problème, mais qu'il a également ajouté un composant de surveillance des performances, permettant de voir en temps réel les détails des données corrigées lors de l'exécution et du test de la page Web, ce qui permet de constater l'effet à partir des données plutôt que de sa propre perception.

Bien que The Dark Side of the Moon soit l'un des six petits dragons en Chine, sa valeur ne représente que 0,5 % d'OpenAI et 2 % d'Anthropic à l'échelle mondiale. Cette petite entreprise nationale a produit deux scores de pointe (SOTA) sur des ensembles de tests extrêmement difficiles, et ce ne sont pas des scores SOTA nationaux ou open-source, mais des scores SOTA mondiaux ! Avant la publication du message, j'ai vu un commentaire sous leur tweet qui reflète l'avis de nombreux utilisateurs étrangers. J'ai vu des contenus similaires à plusieurs reprises ces derniers temps.

Fil de 歸藏(guizang.ai) (@op7418)

Informations sur l'auteur

Contenu du fil