X (Twitter)

[Recomendación de código abierto] Marco TEN: marco de construcción de agentes de IA multimodales en tiempo real y de código abierto de grado industrial Si LangChain se diseñó para resolver la orquestación de la lógica textual de LLM, @TenFramework está diseñado para resolver la compleja orquestación de transmisiones de audio/video en tiempo real + IA. Soluciona la enorme brecha tecnológica entre los chatbots simples y los asistentes en tiempo real que pueden oír, ver y hablar como humanos. ¿Qué problema resuelve TEN? Antes de TEN, desarrollar un asistente de voz en tiempo real capaz de oír (ASR), pensar (LLM), hablar (TTS) e incluso ver (Vision) requería que los desarrolladores realizaran un trabajo de integración extremadamente laborioso y fragmentado: • El infierno del "código de pegamento": debes escribir tu propio código para pegar Deepgram (escuchar), OpenAI (pensar) y ElevenLabs (hablar), manejando las desconexiones de WebSocket, la conversión de formato de audio y el almacenamiento en búfer. • Retrasos incontrolados: Los retrasos acumulados en cada etapa pueden provocar fácilmente que la conversación se "fracture", haciendo imposible interrumpir o responder en tiempo real. • El desafío de la integración multilingüe: el procesamiento de audio y video de bajo nivel a menudo requiere el alto rendimiento de C++, mientras que la lógica de IA se basa en el ecosistema de Python, lo que hace que la depuración entre lenguajes sea muy difícil. La solución del marco TEN: Proporciona un "bus" estandarizado que le permite expandir y conectar diferentes modelos de IA y módulos de capacidad como si construyera con ladrillos Lego, con el marco manejando automáticamente el flujo de datos subyacente y la concurrencia. Análisis en profundidad de la arquitectura técnica La filosofía de diseño de TEN es la modularidad y el uso de gráficos. 1. Gráfico TEN (Orquestación visual): La característica estrella de TEN: un editor visual (TEN Designer) que permite definir el flujo de datos mediante la función de arrastrar y soltar. Por ejemplo: Audio del micrófono -> Módulo de reducción de ruido -> Módulo ASR -> Módulo LLM -> Módulo TTS -> Altavoz. Puede reemplazar directamente "OpenAI" por "Gemini" en la interfaz o insertar un nodo de "Traducción en tiempo real" sin reescribir el código subyacente. 2. Tiempo de ejecución multilingüe (Polyglot Runtime): Permite que extensiones escritas en diferentes lenguajes trabajen juntas en la misma aplicación. • C++: se utiliza para codificación y decodificación de audio y video de alto rendimiento y transmisión RTC (como Agora SD-RTN). • Python: se utiliza para manejar la lógica LLM, llamadas de herramientas y otras tareas relacionadas con la IA. • Go: se utiliza para servicios de red de alta concurrencia. 3. Integración entre el borde y la nube: Admite la ejecución de algunos modelos livianos (como detección de palabras de activación y VAD) en dispositivos de borde (o incluso microcontroladores como ESP32) mientras coloca inferencias complejas en la nube, logrando una solución óptima en términos de costo y latencia. proyectos de código abierto

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo