Microsoft vient de publier VibeVoice-Realtime-0.5B ! Ce modèle TTS (Text-to-Speech) de 0,5 milliard de s se concentre sur la génération rapide ; le test officiel montre qu'il peut commencer à parler après 300 ms à partir du texte d'entrée. J'ai enregistré une vidéo test montrant l'effet en anglais, et cela fonctionne. Cependant, le modèle ne prend actuellement en charge que l'anglais. J'ai également essayé le chinois, et le résultat était sensiblement le même que celui d'un étranger ayant suivi des cours de langue pendant quelques mois. Actuellement, le principal cas d'application de ce modèle est son association à un modèle de texte volumineux, permettant à ce dernier de commencer à générer du texte tout en le lisant simultanément à voix haute. Adresse du modèle :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.