X (Twitter)

好了，之前的EXO可以丟了！來看新的支援跨機器部署的大模型框架—parallax！這個框架在顯示卡節點使用SGLang推理，然後Mac上使用MLX，最後跨機使用Lattica縫合。設定參數其實很簡單，啟動的時候指定--max-batch-size ，然後指定start-layer 0 和end-layer 14 就能簡單分片了。所以這個分片形式是流水線並行，真希望是張量並行，然而無。張量並行對於異質系統支援還是太複雜了。另外他們還做了一些優化，像是針對Mac 的動態KV 快取管理與連續批次。最大的好處其實還是能在單機顯存不夠，但是整體顯存夠的情況把你要測試的大模型拉起來。或把大量低端卡組裝到一起工作。地址：

来自 karminski-牙医（@karminski3）的推文线程

作者信息

线程正文