X (Twitter)

Recentemente, tenho trabalhado com um fgithub.com/TEN-framework/…to para agentes de voz, o TEN Framework: https://t.co/TP0pNajYxu. Ele funciona como um "sistema operacional para agentes de voz/multimodais em tempo real": dentro de um framework unificado de streaming em tempo real, módulos como STT, LLM, TTS, VAD e Avatar são transformados em "blocos de construção" plugáveis que podem ser combinados e substituídos conforme a necessidade. A chave é empacotar e resolver problemas de engenharia relacionados à baixa latência, multimodalidade e implantação multiplataforma associados ao diálogo em tempo real com IA. Levei 10 minutos para implantar e executar localmente, sem substituir nada. Em uso real, seu sistema de perguntas e respostas por voz em tempo real é bastante fluido: pode ser interrompido, a resposta é rápida e a latência é de cerca de 1 segundo. Recursos comuns como Memória e RAG já estão integrados, permitindo a expansão para companhia emocional por IA, prática de linguagem falada por IA, atendimento ao cliente por telefone por IA e hardware de voz inteligente. Testei com os exemplos oficiais e os resultados foram muito bons. Quem estiver interessado em um agente de voz verdadeiramente em tempo real deve conferir esta estrutura de código aberto.

Thread de Tw93 (@HiTw93)

Informações do autor

Conteúdo da thread