Avec KTransformers + LLaMA-Factory, 2 à 4 GPU RTX 4090 + des processeurs à grande mémoire, vous pouvez optimiser des MoE ultra-larges comme DeepSeek-671B. Nous utilisons LLaMA-Factory pour la planification de la couche supérieure, responsable du traitement des données, de la planification de l'entraînement, de l'insertion LoRA et de la gestion de l'interface d'inférence. KTransformers, agissant comme un backend haute performance enfichable, prend en charge les opérateurs principaux tels que Attention/MoE dans la même configuration d'entraînement, permettant une collaboration efficace entre les GPU et les CPU sur des appareils hétérogènes. La faisabilité de l'architecture a été vérifiée par des tâches telles que des dialogues stylisés, des traductions de style occidental et des réponses à des questions médicales. Comparé à HuggingFace et Unsloth, KTransformers est actuellement la seule solution capable d'effectuer avec succès un réglage fin LoRA d'un modèle 671B au niveau 4090. #Réglage fin du modèle
Bloblog.llamafactory.net/posts/ktransfo…Bj6U Dépôt KTransgithub.com/kvcache-ai/ktr…knW9swcil84qspu.feishu.cn/wiki/KxovwmTOn… https://t.co/QFMquGJMss
