J'ai récemment travaillé avec TEN Framegithub.com/TEN-framework/… source pour agents vocaux : https://t.co/TP0pNajYxu. Il s'apparente à un « système d'exploitation pour agents vocaux/multimodaux en temps réel » : au sein d'un framework de streaming unifié en temps réel, des modules tels que STT, LLM, TTS, VAD et Avatar sont conçus comme des « briques de construction » modulaires, combinables et remplaçables à volonté. L'objectif principal est de simplifier et de résoudre les problèmes d'ingénierie liés à la faible latence, à la multimodalité et au déploiement multiplateforme, caractéristiques du dialogue en temps réel avec l'IA. Il m'a fallu 10 minutes pour le déployer et l'exécuter en local, sans remplacer aucun autre logiciel. À l'usage, son système de questions-réponses vocales en temps réel est très fluide : il peut être interrompu, la réponse est rapide et la latence est d'environ une seconde. Des fonctionnalités courantes comme la mémoire et le RAG sont déjà intégrées, permettant ainsi d'étendre ses possibilités à l'assistance émotionnelle par IA, à l'apprentissage du langage parlé par IA, au service client téléphonique par IA et aux dispositifs vocaux intelligents. Je l'ai testé avec les exemples officiels et les résultats étaient très satisfaisants. Ceux qui recherchent un agent vocal véritablement temps réel devraient jeter un œil à ce framework open source.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.