KTransformers + LLaMA-Factory、2〜4 個の RTX 4090 GPU + 大容量メモリ CPU を使用すると、DeepSeek-671B などの超大規模 MoE を微調整できます。 上位層のスケジューリングには LLaMA-Factory を使用し、データ処理、トレーニングのスケジューリング、LoRA の挿入、推論インターフェースの管理を担当します。 プラグ可能な高性能バックエンドとして機能する KTransformers は、同じトレーニング構成で Attention/MoE などのコア演算子を引き継ぎ、異種デバイス上の GPU と CPU 間の効率的なコラボレーションを可能にします。 アーキテクチャの実現可能性は、様式化された対話、西洋式の翻訳、医療に関する質問への回答などのタスクを通じて検証されました。 HuggingFace や Unsloth と比較すると、KTransformers は現在、671B モデルの LoRA 微調整を 4090 レベルで正常に実行できる唯一のソリューションです。 #モデルの微調整
ブログblog.llamafactory.net/posts/ktransfo…6U KTransformers github.com/kvcache-ai/ktr…9XSnswcil84qspu.feishu.cn/wiki/KxovwmTOn…o/QFMquGJMss
