KTransformers + LLaMA-Factory, 2~4개의 RTX 4090 GPU + 대용량 메모리 CPU를 사용하면 DeepSeek-671B와 같은 초대용량 MoE를 미세 조정할 수 있습니다. 상위 계층 스케줄링에는 LLaMA-Factory를 사용하여 데이터 처리, 학습 스케줄링, LoRA 삽입, 추론 인터페이스 관리를 담당합니다. 플러그형 고성능 백엔드 역할을 하는 KTransformers는 동일한 학습 구성에서 Attention/MoE와 같은 핵심 연산자를 대신 수행하여 이기종 장치에서 GPU와 CPU 간의 효율적인 협업을 가능하게 합니다. 양식화된 대화, 서양식 번역, 의학적 질문에 대한 답변 등의 작업을 통해 아키텍처의 실현 가능성이 검증되었습니다. HuggingFace와 Unsloth에 비해 KTransformers는 현재 4090 수준에서 671B 모델의 LoRA 미세 조정을 성공적으로 수행할 수 있는 유일한 솔루션입니다. #모델 미세 조정
블로그blog.llamafactory.net/posts/ktransfo…6U KTransformers github.com/kvcache-ai/ktr…SniOswcil84qspu.feishu.cn/wiki/KxovwmTOn…quGJMss
