Puedes ejecutar tu propio chatbot de voz, incluyendo RAG, con latencias inferiores a un segundo utilizando modelos de pesos abiertos con @vllm_project, marcos de código abierto como @pipecat_ai e infraestructura de @modal.
Aquí encontrará información detallada sobre cómo hacerlo, junto con el cmodal.com/blog/low-laten…ueda ejecutar el suyo propio: https://t.co/L12y063oks