X (Twitter)

Recientemente he estado trabajando con github.com/TEN-framework/…de voz de código abierto, TEN Framework: https://t.co/TP0pNajYxu. Es algo así como un "sistema operativo para agentes de voz/multimodales en tiempo real": dentro de un framework unificado de transmisión en tiempo real, módulos como STT, LLM, TTS, VAD y Avatar se convierten en "bloques de construcción" conectables que pueden combinarse y reemplazarse según sea necesario. La clave reside en agrupar y resolver problemas de ingeniería relacionados con la baja latencia, la multimodalidad y la implementación multiplataforma asociados con el diálogo de IA en tiempo real. Me llevó 10 minutos implementarlo y ejecutarlo localmente, sin reemplazar nada más. En uso real, su sistema de preguntas y respuestas por voz en tiempo real es bastante fluido: se puede interrumpir, la respuesta es rápida y la latencia es de aproximadamente 1 segundo. Funciones comunes como Memory y RAG ya están integradas, lo que permite su expansión a la compañía emocional con IA, la práctica del lenguaje hablado con IA, la atención telefónica al cliente con IA y el hardware de voz inteligente. Lo probé con los ejemplos oficiales y los resultados fueron bastante buenos. Quienes estén interesados en un agente de voz verdaderamente en tiempo real deberían consultar este framework de código abierto.

Hilo de Tw93 (@HiTw93)

Información del autor

Contenido del hilo