通常、@MistralAI 3 3B 用の @vllm_project サーバーをコールド スタートするには約 2 分かかります (主に @PyTorch のコンパイルと CUDA グラフのキャプチャ)。 @modal GPUスナップショットを使用すると、わずか12秒に短縮できます。
詳細はこちらをご覧ください。自分で試すためのコードも含まれています。 https://t.co/H6cwlDvI74
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
2 件のツイート · 2025/12/04 22:09
通常、@MistralAI 3 3B 用の @vllm_project サーバーをコールド スタートするには約 2 分かかります (主に @PyTorch のコンパイルと CUDA グラフのキャプチャ)。 @modal GPUスナップショットを使用すると、わずか12秒に短縮できます。
詳細はこちらをご覧ください。自分で試すためのコードも含まれています。 https://t.co/H6cwlDvI74