[Recommandation Open Source] Smart Turn v3.1 : Une mise à jour majeure de la détection des changements de direction dans les dialogues vocaux. En intégrant de véritables données vocales humaines au lieu de se fier uniquement à la synthèse vocale, cette version améliore considérablement la précision du modèle pour déterminer si l'utilisateur a terminé de parler, rendant ainsi les réponses de l'IA plus naturelles. @trydaily 🚀 Points clés : Précision considérablement améliorée · Dites adieu aux données purement synthétiques : la plus grande avancée de la v3.1 réside dans l'introduction de véritables échantillons de parole humaine (en particulier en anglais et en espagnol) fournis par des partenaires (Liva AI, Midcentury, MundoAI). • Comparaison des données : Par rapport à la v3.0, la précision de la nouvelle version en environnement anglais est passée de 88,3 % à environ 95 %, et en espagnol, elle s'est également améliorée pour atteindre plus de 90 %. Pour remédier à un problème majeur : les entraînements précédents s’appuyaient sur des données de synthèse vocale, dépourvues des pauses naturelles et des subtilités de la parole humaine. Les nouvelles données permettent au modèle de distinguer plus précisément les « vraies pauses » des « fausses pauses ». 🛠️ Détails techniques et flexibilité Cette mise à jour propose deux versions de modèle pour s'adapter aux différentes exigences matérielles : • Version CPU (8 Mo, quantification Int8) : Petite taille, vitesse rapide, convient à la plupart des serveurs de périphérie ou généraux, avec une vitesse d'inférence extrêmement rapide (jusqu'à 12 ms). • Version GPU (32 Mo, non quantifiée) : Légèrement plus grande en taille, mais fonctionne plus efficacement sur un GPU et a une précision environ 1 % supérieure à celle de la version CPU. 🔄 Mise à niveau simplifiée et remplacement transparent : la version 3.1 conserve la même architecture que la version 3.0. Si vous êtes déjà utilisateur, il vous suffit de remplacer le fichier de modèle ONNX ; aucune modification du code d’inférence n’est requise. • Intégration à l'écosystème : Le nouveau modèle sera directement intégré à la prochaine version du framework Pipecat, permettant aux développeurs de bénéficier d'améliorations de performances avec quasiment « zéro code ». 📊 Open source a non seulement rendu open source les poids du modèle, mais a également publié un nouveau jeu de données (smart-turn-data-v3.1) pour l'entraînement et les tests sur HuggingFace, facilitant ainsi la poursuite des recherches ou le réglage fin par la communauté. Lire le texte original
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
![[Recommandation Open Source] Smart Turn v3.1 : Une mise à jour majeure de la détection des changements de direction dans](https://pbs.twimg.com/media/G7SQwL6b0AECp4J.jpg)