Você pode executar seu próprio chatbot de voz -- incluindo RAG -- com latências inferiores a um segundo usando modelos de pesos abertos com o @vllm_project, frameworks de código aberto como o @pipecat_ai e infraestrutura do @modal.
Veja em detalhes como fazer isso, juntamente com o código-fonte para quemodal.com/blog/low-laten…seu próprio, aqui: https://t.co/L12y063oks