X (Twitter)

[Recommandation Open Source] K2-Vendor-Verifier : un outil de vérification de fiabilité transparent et automatisé pour les modèles de la série Kimi K2. L'équipe @Kimi_Moonshot a fourni une solution transparente et pratique aux problèmes de déploiement des modèles de la série Kimi K2 (en particulier sa variante « thinking » kimi-k2-thinking-turbo) chez les fournisseurs tiers. Réponse de la volatilité de référence à la vérification transparente L'équipe de Moonshot AI a commencé par remercier la communauté pour ses tests et le partage de ses benchmarks, avant de s'attaquer rapidement à un problème majeur : les performances de Kimi K2 étaient incohérentes selon les fournisseurs, notamment les API tierces. Certaines API ont enregistré une baisse de précision de plus de 20 points de pourcentage lors de tâches nécessitant une inférence intensive (comme le benchmark LiveBench), ce qui a directement impacté négativement le score global. L'équipe s'est engagée à relancer la validation et à publier davantage de données via le projet Vendor Verifier afin de garantir la comparabilité et la fiabilité des résultats. Recommandations de l'équipe concernant les meilleures pratiques : • Privilégiez les points de terminaison officiels : utilisez kimi-k2-thinking-turbo pour éviter les variantes tierces. • Optimisation des paramètres : activer la sortie en flux continu (stream=True), régler la température à 1,0, ajuster le nombre maximal de jetons en fonction de la tâche (128k pour l'inférence, 256k pour l'encodage et ≥64k pour les autres) et ajouter un mécanisme de nouvelle tentative. • Guide d'analyse comparative : Comprend un tutoriel d'installation complet pour aider les développeurs à standardiser leurs tests. Les réactions ont été positives : certains ont salué la transparence comme une « excellente stratégie marketing », tandis que d’autres ont suggéré la création de classements en temps réel ou de graphiques de dispersion des performances en termes de coûts. L'équipe a également rendu open-source K2-Vendor-Verifier K2-Vendor-Verifier est un framework d'évaluation open source conçu spécifiquement pour Kimi K2, et axé sur la précision des appels d'outils. Ceci est crucial dans les applications d'agents, car les modèles K2 sont souvent utilisés pour des tâches cycliques (telles que la planification, l'exécution et le retour d'information), et toute déviation dans les appels d'outils peut entraîner une défaillance de la liaison. https://t.co/2JIped5mvC Fonctionnalités essentielles des projets open source : • Échelle de test : 4000 échantillons de requêtes (samples.jsonl) ont été exécutés, couvrant une variété de scénarios, et comparés à la référence de l'API officielle Moonshot AI. • Indicateurs clés : • tool_call_f1 : Moyenne harmonique de la précision du déclenchement de l'appel d'outil (combinant précision et rappel), mesurant si le modèle détermine correctement quand appeler l'outil. • schema_accuracy : Le taux de correspondance entre la charge utile JSON et le schéma attendu, garantissant la fiabilité de la structure de sortie. • Rapports de sortie : Générer des journaux détaillés (results.json) et des tableaux récapitulatifs (summary.json), et publier régulièrement des classements publics (tels que le score officiel de MoonshotAI de 100 %, DeepInfra de 98,5 %, etc., mis à jour en novembre 2025).

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil