在共享 GPU 上训练和运行多个 LLM,实现零内存浪费。 该库使用操作系统风格的虚拟内存按需分配 KV 缓存,而不是预先预留。 支持 SGLang 和 vLLM。100% 开源。
更多此类人工智能工具和项目请访问 https://t.co/BvTc8theunwindai.comAgent、RAG、LLM 和 MCP 教程,并附带开源代码。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年10月29日 17:35
在共享 GPU 上训练和运行多个 LLM,实现零内存浪费。 该库使用操作系统风格的虚拟内存按需分配 KV 缓存,而不是预先预留。 支持 SGLang 和 vLLM。100% 开源。
更多此类人工智能工具和项目请访问 https://t.co/BvTc8theunwindai.comAgent、RAG、LLM 和 MCP 教程,并附带开源代码。