Recentemente, tenho trabalhado com um fgithub.com/TEN-framework/…to para agentes de voz, o TEN Framework: https://t.co/TP0pNajYxu. Ele funciona como um "sistema operacional para agentes de voz/multimodais em tempo real": dentro de um framework unificado de streaming em tempo real, módulos como STT, LLM, TTS, VAD e Avatar são transformados em "blocos de construção" plugáveis que podem ser combinados e substituídos conforme a necessidade. A chave é empacotar e resolver problemas de engenharia relacionados à baixa latência, multimodalidade e implantação multiplataforma associados ao diálogo em tempo real com IA. Levei 10 minutos para implantar e executar localmente, sem substituir nada. Em uso real, seu sistema de perguntas e respostas por voz em tempo real é bastante fluido: pode ser interrompido, a resposta é rápida e a latência é de cerca de 1 segundo. Recursos comuns como Memória e RAG já estão integrados, permitindo a expansão para companhia emocional por IA, prática de linguagem falada por IA, atendimento ao cliente por telefone por IA e hardware de voz inteligente. Testei com os exemplos oficiais e os resultados foram muito bons. Quem estiver interessado em um agente de voz verdadeiramente em tempo real deve conferir esta estrutura de código aberto.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.