Normalmente, se necesitan aproximadamente dos minutos para iniciar en frío un servidor @vllm_project para @MistralAI 3 3B, principalmente compilación de @PyTorch y captura de gráficos CUDA Con las instantáneas de GPU @modal, puedes reducirlo a solo 12 segundos.
Lea más aquí, incluido el código para probarlo ustemodal.com/blog/mistral-3/H6cwlDvI74
