さあ、古い EXO は捨ててもいいですよ!クロスマシンデプロイメントをサポートする新しい大規模フレームワーク、Parallax を試してみましょう! このフレームワークは、GPU ノードでの推論に SGLang を使用し、次に Mac で MLX を使用し、最後にマシン間のステッチングに Lattica を使用します。 設定パラメータは実は非常にシンプルです。起動時に `--max-batch-size` を指定し、続いて `start-layer 0` と `end-layer 14` を指定することで、シンプルなバッチ処理が可能になります。つまり、このバッチ処理方法はパイプライン並列処理です。理想的にはテンソル並列処理であるべきですが、それは不可能です。テンソル並列処理は、異種混合システムでは依然として複雑すぎるからです。 また、動的なキー値キャッシュ管理や Mac 向けの継続的なバッチ処理などの最適化も行いました。 最大の利点は、個々のマシンのビデオメモリが不足しているが、全体のビデオメモリは十分にある場合に、テストしたい大規模なモデルを実行できることです。あるいは、ローエンドのカードを多数組み合わせて作業を行うこともできます。 住所:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。

