Normalmente, leva cerca de dois minutos para iniciar um servidor @vllm_project para @MistralAI 3 3B -- principalmente compilação em @PyTorch e captura de grafos CUDA. Com snapshots de GPU @modal, você pode reduzir isso para apenas 12 segundos.
Leia mais aqui, incluindo o código para você mesmo modal.com/blog/mistral-3/t.co/H6cwlDvI74
