Com KTransformers + LLaMA-Factory, 2 a 4 GPUs RTX 4090 + CPUs com grande capacidade de memória, você pode otimizar algoritmos MoE ultragrandes, como o DeepSeek-671B. Utilizamos o LLaMA-Factory para o agendamento da camada superior, responsável pelo processamento de dados, agendamento de treinamento, inserção de LoRA e gerenciamento da interface de inferência. O KTransformers, atuando como um backend plugável de alto desempenho, assume o controle de operadores essenciais como Attention/MoE na mesma configuração de treinamento, permitindo uma colaboração eficiente entre GPUs e CPUs em dispositivos heterogêneos. A viabilidade da arquitetura foi verificada por meio de tarefas como diálogos estilizados, tradução ao estilo ocidental e respostas a perguntas médicas. Em comparação com HuggingFace e Unsloth, o KTransformers é atualmente a única solução capaz de realizar com sucesso o ajuste fino de LoRa de um modelo 671B no nível 4090. #Ajuste fino do modelo
Bloblog.llamafactory.net/posts/ktransfo…j6U Repositório Kgithub.com/kvcache-ai/ktr….co/swcil84qspu.feishu.cn/wiki/KxovwmTOn…o: https://t.co/QFMquGJMss
