X (Twitter)

좋아요, 이제 기존의 EXO는 버려도 됩니다! 크로스 머신 배포를 지원하는 새로운 대규모 프레임워크인 패럴랙스를 살펴보겠습니다! 이 프레임워크는 GPU 노드에서 추론을 위해 SGLang을 사용하고, Mac에서는 MLX를 사용하고, 마지막으로 여러 머신을 연결하기 위해 Lattica를 사용합니다. 구성 매개변수는 실제로 매우 간단합니다. 시작 시 `--max-batch-size`를 지정하고 `start-layer 0`과 `end-layer 14`를 지정하면 간단한 배칭이 가능합니다. 따라서 이 배칭 방식은 파이프라인 병렬 처리입니다. 이상적으로는 텐서 병렬 처리여야 하지만, 현실적으로는 불가능합니다. 텐서 병렬 처리는 이기종 시스템에는 여전히 너무 복잡합니다. 또한 Mac을 위한 동적 키-값 캐시 관리 및 지속적인 일괄 처리와 같은 몇 가지 최적화도 수행했습니다. 가장 큰 장점은 개별 컴퓨터의 비디오 메모리가 부족하더라도 전체 비디오 메모리는 충분한 경우, 테스트하려는 대용량 모델을 실행할 수 있다는 것입니다. 또는 여러 개의 저사양 카드를 조합하여 작업을 수행할 수도 있습니다. 주소:

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용