Esta tarde añadí el último TTS de Sonic 3 de @cartesia_ai a TEN. Este sistema de síntesis de texto utiliza una arquitectura de modelos de espacio de estados. Afirman superar a los modelos TTS tradicionales entrenados con transformadores en términos de velocidad, emoción y expresividad. Aunque admite chino, en mi experiencia, el chino no es lo suficientemente auténtico; el acento estadounidense es un poco marcado. Parece que el viejo dicho sigue vigente: para superar las barreras lingüísticas, el sistema de traducción automática (TTS) no puede tener acento, de lo contrario resultará chocante. Quizás, para que el TTS funcione de forma realmente eficaz, aún se necesiten hablantes nativos.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.