일반적으로 @MistralAI 3 3B의 @vllm_project 서버를 콜드 스타트하는 데 약 2분이 걸립니다. 주로 @PyTorch 컴파일과 CUDA 그래프 캡처가 필요합니다. @modal GPU 스냅샷을 사용하면 이를 단 12초로 줄일 수 있습니다.
자세한 내용은 여기에서 읽어보세요. 직접 시도해 볼 수 있는 코드도 포함되어 있습니다. modal.com/blog/mistral-3
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 2개 · 2025. 12. 4. 오후 10:09
일반적으로 @MistralAI 3 3B의 @vllm_project 서버를 콜드 스타트하는 데 약 2분이 걸립니다. 주로 @PyTorch 컴파일과 CUDA 그래프 캡처가 필요합니다. @modal GPU 스냅샷을 사용하면 이를 단 12초로 줄일 수 있습니다.
자세한 내용은 여기에서 읽어보세요. 직접 시도해 볼 수 있는 코드도 포함되어 있습니다. modal.com/blog/mistral-3