X (Twitter)

さあ、古い EXO は捨ててもいいですよ！クロスマシンデプロイメントをサポートする新しい大規模フレームワーク、Parallax を試してみましょう！このフレームワークは、GPU ノードでの推論に SGLang を使用し、次に Mac で MLX を使用し、最後にマシン間のステッチングに Lattica を使用します。設定パラメータは実は非常にシンプルです。起動時に `--max-batch-size` を指定し、続いて `start-layer 0` と `end-layer 14` を指定することで、シンプルなバッチ処理が可能になります。つまり、このバッチ処理方法はパイプライン並列処理です。理想的にはテンソル並列処理であるべきですが、それは不可能です。テンソル並列処理は、異種混合システムでは依然として複雑すぎるからです。また、動的なキー値キャッシュ管理や Mac 向けの継続的なバッチ処理などの最適化も行いました。最大の利点は、個々のマシンのビデオメモリが不足しているが、全体のビデオメモリは十分にある場合に、テストしたい大規模なモデルを実行できることです。あるいは、ローエンドのカードを多数組み合わせて作業を行うこともできます。住所：

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容