[Recomendación de código abierto] Smart Turn v3.1: Una actualización significativa de la detección de giros en los diálogos de voz. Al incorporar datos reales de voz humana en lugar de depender únicamente de voz sintetizada, mejora considerablemente la precisión del modelo para determinar si el usuario ha terminado de hablar, lo que hace que las respuestas de la IA al diálogo sean más naturales. @trydaily 🚀 Aspectos destacados clave: Precisión significativamente mejorada · Dígale adiós a los datos puramente sintéticos: el mayor avance de la versión 3.1 radica en la introducción de muestras de voz humana real (especialmente inglés y español) proporcionadas por socios (Liva AI, Midcentury, MundoAI). • Comparación de datos: En comparación con la v3.0, la precisión de la nueva versión en el entorno inglés ha aumentado del 88,3% a aproximadamente el 95%, y en español también ha mejorado a más del 90%. Abordando un problema clave: El entrenamiento previo se basaba en datos sintéticos de TTS, que carecían de las pausas naturales y los matices sutiles del habla humana. Los nuevos datos permiten al modelo distinguir con mayor precisión entre pausas verdaderas y pausas falsas. 🛠️ Detalles técnicos y flexibilidad Esta actualización ofrece dos versiones de modelo para adaptarse a diferentes requisitos de hardware: • Versión de CPU (8 MB, cuantificación Int8): tamaño pequeño, velocidad rápida, adecuada para la mayoría de los servidores generales o de computación de borde, con una velocidad de inferencia extremadamente rápida (tan baja como 12 ms). • Versión de GPU (32 MB, sin cuantificar): un poco más grande en tamaño, pero se ejecuta de manera más eficiente en una GPU y tiene una precisión que es aproximadamente un 1 % mayor que la versión de CPU. 🔄 Experiencia de actualización simplificada y reemplazo sin problemas: La v3.1 mantiene la misma arquitectura que la v3.0. Si ya es usuario, simplemente reemplace el archivo del modelo ONNX; no es necesario modificar el código de inferencia. • Integración del ecosistema: el nuevo modelo se integrará directamente en la próxima versión del marco Pipecat, lo que permitirá a los desarrolladores disfrutar de mejoras de rendimiento con casi "cero código". 📊 El código abierto no solo hizo público el peso del modelo, sino que también lanzó un nuevo conjunto de datos (smart-turn-data-v3.1) para entrenamiento y pruebas en HuggingFace, lo que facilita que la comunidad realice más investigaciones o ajustes. Lea el texto original
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![[Recomendación de código abierto] Smart Turn v3.1: Una actualización significativa de la detección de giros en los diálo](https://pbs.twimg.com/media/G7SQwL6b0AECp4J.jpg)