Uno de los desarrollos interesantes en la voz con IA este año es que los modelos se están “peorando” para que suenen más humanos. ¿Algunos ejemplos que he visto? Agregue latencia, agregue ruido de fondo, disminuya la capacidad de respuesta (no intervenga en la pausa), disminuya la capacidad de interrupción (no se detenga por palabras de relleno).
Predigo que el año que viene incluso el agente de voz promedio sonará básicamente indistinguible de un humano. Esto también abre MUCHAS más aplicaciones de voz para el consumidor, ya que el “último 2%” de realismo puede ser fundamental para una experiencia retentiva.