X (Twitter)

[Recomendação de código aberto] Framework TEN: Framework de código aberto de nível industrial para construção de agentes de IA multimodais em tempo real Se o LangChain foi projetado para resolver a orquestração da lógica de texto do LLM, então o @TenFramework foi projetado para resolver a orquestração complexa de "fluxos de áudio/vídeo em tempo real + IA". Ele preenche a enorme lacuna tecnológica entre "chatbots simples" e "assistentes em tempo real que podem ouvir, ver e falar como humanos". Que problema o TEN resolve? Antes do TEN, desenvolver um assistente de voz em tempo real capaz de "ouvir (ASR), pensar (LLM), falar (TTS)" e até mesmo "ver (Vision)" exigia que os desenvolvedores suportassem um trabalho de integração extremamente árduo e fragmentado: • O inferno do "código de integração": Você precisa escrever seu próprio código para integrar o Deepgram (escuta), o OpenAI (pensa) e o ElevenLabs (fala), lidando com desconexões do WebSocket, conversão de formato de áudio e buffering. • Atrasos descontrolados: Os atrasos cumulativos em cada etapa podem facilmente fazer com que a conversa "trave", tornando impossível interromper ou responder em tempo real. • O desafio da integração multilíngue: o processamento de áudio e vídeo de baixo nível geralmente exige o alto desempenho do C++, enquanto a lógica de IA depende do ecossistema Python, o que torna a depuração entre linguagens muito difícil. A solução da TEN Framework: Ele fornece um "barramento" padronizado que permite expandir e conectar diferentes modelos de IA e módulos de capacidade como se estivesse construindo com peças de Lego, com a estrutura gerenciando automaticamente o fluxo de dados subjacente e a concorrência. Análise detalhada da arquitetura técnica A filosofia de design da TEN é modular e orientada a grafos. 1. Gráfico TEN (Orquestração Visual): • O grande diferencial do TEN. Ele oferece um editor visual (TEN Designer) que permite definir o fluxo de dados arrastando e soltando elementos. Por exemplo: Áudio do microfone -> Módulo de redução de ruído -> Módulo ASR -> Módulo LLM -> Módulo TTS -> Alto-falante. Você pode substituir diretamente "OpenAI" por "Gemini" na interface ou inserir um nó de "Tradução em tempo real", sem precisar reescrever o código subjacente. 2. Ambiente de execução multilíngue (Polyglot Runtime): Permite que extensões escritas em diferentes linguagens funcionem juntas na mesma aplicação. • C++: Utilizado para codificação e decodificação de áudio e vídeo de alto desempenho, e transmissão RTC (como o Agora SD-RTN). • Python: Utilizado para lidar com a lógica do LLM, chamadas de ferramentas e outras tarefas relacionadas à IA. • Go: Utilizado para serviços de rede de alta concorrência. 3. Integração Edge-Cloud: Ele suporta a execução de alguns modelos leves (como detecção de palavra-chave e VAD) em dispositivos de borda (ou até mesmo em microcontroladores como o ESP32), enquanto coloca a inferência complexa na nuvem, alcançando uma solução ideal em termos de custo e latência. projetos de código aberto

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread