通常情况下,冷启动一个用于 @MistralAI 3 3B 的 @vllm_project 服务器大约需要两分钟——主要是 @PyTorch 编译和 CUDA 图捕获。 使用 @modal GPU 快照,可以将时间缩短至仅 12 秒。
点击此处阅读更多内容,包括可供您自行尝试的代码。 https://t.co/H6cwlDvI74
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月4日 22:09
通常情况下,冷启动一个用于 @MistralAI 3 3B 的 @vllm_project 服务器大约需要两分钟——主要是 @PyTorch 编译和 CUDA 图捕获。 使用 @modal GPU 快照,可以将时间缩短至仅 12 秒。
点击此处阅读更多内容,包括可供您自行尝试的代码。 https://t.co/H6cwlDvI74