Recientemente he estado trabajando con github.com/TEN-framework/…de voz de código abierto, TEN Framework: https://t.co/TP0pNajYxu. Es algo así como un "sistema operativo para agentes de voz/multimodales en tiempo real": dentro de un framework unificado de transmisión en tiempo real, módulos como STT, LLM, TTS, VAD y Avatar se convierten en "bloques de construcción" conectables que pueden combinarse y reemplazarse según sea necesario. La clave reside en agrupar y resolver problemas de ingeniería relacionados con la baja latencia, la multimodalidad y la implementación multiplataforma asociados con el diálogo de IA en tiempo real. Me llevó 10 minutos implementarlo y ejecutarlo localmente, sin reemplazar nada más. En uso real, su sistema de preguntas y respuestas por voz en tiempo real es bastante fluido: se puede interrumpir, la respuesta es rápida y la latencia es de aproximadamente 1 segundo. Funciones comunes como Memory y RAG ya están integradas, lo que permite su expansión a la compañía emocional con IA, la práctica del lenguaje hablado con IA, la atención telefónica al cliente con IA y el hardware de voz inteligente. Lo probé con los ejemplos oficiales y los resultados fueron bastante buenos. Quienes estén interesados en un agente de voz verdaderamente en tiempo real deberían consultar este framework de código abierto.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.