X (Twitter)

[Recommandation Open Source] TEN Framework : Framework open source de qualité industrielle pour la création d'agents d'IA multimodaux temps réel. Si LangChain a été conçu pour orchestrer la logique textuelle LLM, TenFramework vise à résoudre l'orchestration complexe des flux audio/vidéo en temps réel et de l'IA. Il comble l'immense fossé technologique entre les simples chatbots et les assistants en temps réel capables d'entendre, de voir et de parler comme des humains. Quel problème TEN résout-il ? Avant TEN, le développement d’un assistant vocal en temps réel capable d’« entendre (ASR), de penser (LLM), de parler (TTS) et même de « voir (Vision) » » exigeait des développeurs un travail d’intégration extrêmement pénible et fragmenté : • L'enfer du « code de liaison » : Vous devez écrire votre propre code pour relier Deepgram (écoute), OpenAI (réflexion) et ElevenLabs (parole), en gérant les déconnexions WebSocket, la conversion du format audio et la mise en mémoire tampon. • Retards incontrôlés : Les retards cumulatifs à chaque étape peuvent facilement entraîner une rupture de la conversation, rendant impossible toute interruption ou réponse en temps réel. • Le défi de l'intégration multilingue : le traitement audio et vidéo de bas niveau nécessite souvent les hautes performances du C++, tandis que la logique de l'IA repose sur l'écosystème Python, ce qui rend le débogage interlingue très difficile. La solution du cadre TEN : Il fournit un « bus » standardisé qui vous permet d'étendre et d'intégrer différents modèles d'IA et modules de fonctionnalités comme on construit avec des briques Lego, le framework gérant automatiquement le flux de données sous-jacent et la concurrence. Analyse approfondie de l'architecture technique La philosophie de conception de TEN repose sur la modularité et une approche basée sur les graphes. 1. TEN Graph (Orchestration visuelle) : • La fonctionnalité phare de TEN. Elle propose un éditeur visuel (TEN Designer) qui permet de définir le flux de données par simple glisser-déposer. Par exemple : Audio du microphone → Module de réduction du bruit → Module de reconnaissance vocale → Module LLM → Module de synthèse vocale → Haut-parleur. Vous pouvez remplacer directement « OpenAI » par « Gemini » dans l’interface, ou insérer un nœud de « traduction en temps réel », sans avoir à modifier le code sous-jacent. 2. Environnement d'exécution multilingue (Polyglot Runtime) : Il permet à des extensions écrites dans différents langages de fonctionner ensemble au sein d'une même application. • C++ : Utilisé pour l'encodage et le décodage audio et vidéo haute performance, ainsi que pour la transmission RTC (comme Agora SD-RTN). • Python : Utilisé pour gérer la logique LLM, les appels d’outils et d’autres tâches liées à l’IA. • Go : Utilisé pour les services réseau à haute concurrence. 3. Intégration Edge-Cloud : Il permet d'exécuter certains modèles légers (tels que la détection de mots de réveil et VAD) sur des périphériques (ou même des microcontrôleurs comme l'ESP32) tout en plaçant l'inférence complexe dans le cloud, ce qui permet d'obtenir une solution optimale en termes de coût et de latence. projets open source

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil