Treine e forneça vários LLMs em GPUs compartilhadas sem desperdício de memória. Esta biblioteca utiliza uma memória virtual no estilo de sistema operacional para alocar cache KV sob demanda, em vez de reservas antecipadas. Compatível com SGLang e vLLM. 100% de código aberto.
Mais ferramentas e projetos de IA ctheunwindai.comco/BvTc8nQQW5: Tenha acesso a mais de 100 tutoriais sobre AI Agent, RAG, LLM e MCP com código aberto - tudo GRATUITAMENTE.
