好了,之前的EXO可以丟了!來看新的支援跨機器部署的大模型框架—parallax! 這個框架在顯示卡節點使用SGLang推理,然後Mac上使用MLX,最後跨機使用Lattica縫合。 設定參數其實很簡單,啟動的時候指定--max-batch-size ,然後指定start-layer 0 和end-layer 14 就能簡單分片了。所以這個分片形式是流水線並行,真希望是張量並行,然而無。張量並行對於異質系統支援還是太複雜了。 另外他們還做了一些優化,像是針對Mac 的動態KV 快取管理與連續批次。 最大的好處其實還是能在單機顯存不夠,但是整體顯存夠的情況把你要測試的大模型拉起來。或把大量低端卡組裝到一起工作。 地址:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。

