Le diable est dans le modèle de chat ========================= Les pommes de terre et les patates douces ne sont pas la même chose, contrairement à ce que Phoebe Buffay voudrait vous faire croire. Ce blog est une lecture incontournable si l'IA générale vous préoccupe, ou si vous travaillez simplement à la mise en œuvre de modèles d'IA open source. Si vous êtes un intellectuel reconnu dans le domaine de la sécurité de l'IA et que vous ne comprenez pas ce blog, vous n'êtes pas qualifié pour commenter le sujet. Lisez un livre, comme on dit. Maintenant que j'ai fini de râler, je tiens à vous dire que ce blog vous expliquera tout ce qui peut mal tourner et qui pourrait rendre votre modèle de frontière « SUPPULENT ». L'inférence LLM est très fragile. Le moteur d'inférence doit présenter les données d'entrée dans un format strict (modèle de chat) au LLM. Le moindre écart a des résultats médiocres. Au moins, cela vous rassurera quant à l'intelligence artificielle générale : la technologie ne deviendra pas Skynet. Merci à @vllm_project et Lilian Weng. Elles expliquent ici comment elles ont exploité les retours de l'équipe Kimi pour améliorer le taux de réussite des appels d'outils pour le modèle Kimi k2 exécuté sur vLLM, jusqu'à près de 100 %. Ils ont agi très rapidement après avoir reçu les commentaires. Bravo ! Votre engagement communautaire est grandement apprécié 🧡💕 Leçon clé (citation) Le diable se cache dans le modèle de chat : le modèle de chat est l’élément crucial d’interaction entre un modèle et son framework. Lors de l’intégration d’un nouveau modèle, il est impératif de valider minutieusement chaque élément de sa logique de modèle en fonction des comportements et des hypothèses spécifiques du framework. Levez la couche d'abstraction : les API de haut niveau comme /chat/completions sont pratiques, mais peuvent masquer les causes profondes des problèmes. Lors du débogage, n'hésitez pas à utiliser des points de terminaison de plus bas niveau comme /completions. La construction manuelle de l'entrée est une technique efficace pour isoler le problème. Conseil de pro : Les identifiants de jetons sont la référence absolue : pour les problèmes les plus subtils, l’inspection de la séquence finale d’identifiants de jetons envoyée au modèle est le seul moyen d’en être certain. Bien que je n’aie pas eu besoin d’y recourir pour les problèmes mentionnés ci-dessus, c’est un outil essentiel. Des techniques comme l’utilisation de l’API compatible OpenAI pour récupérer les identifiants de jetons peuvent s’avérer cruciales. Pour ceux que cela intéresse, nous avons également abordé ce point dans notre article sur Agent Lightning. Comprendre la philosophie de conception du framework : la gestion stricte des arguments nommés (**kwargs) par vLLM n’est pas un bug, mais un choix de sécurité délibéré. Comprendre ces décisions de conception permet d’identifier rapidement la cause première du problème plutôt que de se retrouver bloqué face à un comportement inattendu. Le défi de l'écosystème ouvert : les fonctionnalités avancées, comme l'outil « Enforcer », sont la marque des services propriétaires et performants. Intégrer ces fonctionnalités de manière robuste et élégante dans des projets open source comme vLLM représente un enjeu crucial pour la communauté.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.