Normalement, le démarrage à froid d'un serveur @vllm_project pour @MistralAI 3 3B prend environ deux minutes, principalement la compilation @PyTorch et la capture de graphes CUDA. Avec les instantanés GPU @modal, vous pouvez réduire ce délai à seulement 12 secondes.
Pour en savoir plus, cliquez ici ; vous y trouverezmodal.com/blog/mistral-3 l’essayer vous-même. https://t.co/H6cwlDvI74
