L'une des évolutions intéressantes de l'IA vocale cette année : les modèles sont « détériorés » pour paraître plus humains. J'ai vu quelques exemples ? Ajouter de la latence, ajouter du bruit de fond, diminuer la réactivité (ne pas intervenir pendant les pauses), diminuer la possibilité d'interruption (ne pas s'arrêter pour des mots de remplissage).
Je prévois que l'année prochaine, même les agents vocaux de qualité moyenne auront une voix pratiquement indiscernable de celle d'un humain. Cela ouvre également la voie à de nombreuses autres applications de reconnaissance vocale pour les consommateurs, car ces « derniers 2 % » de réalisme peuvent être essentiels à une expérience mémorable.