Parfait, on peut se débarrasser du vieil EXO ! Découvrons le nouveau framework à grande échelle qui prend en charge le déploiement multi-machines : Parallax ! Ce framework utilise SGLang pour l'inférence sur les nœuds GPU, puis MLX sur Mac, et enfin Lattica pour l'assemblage des résultats entre les machines. Les paramètres de configuration sont en réalité assez simples. Au démarrage, spécifier `--max-batch-size`, puis `start-layer 0` et `end-layer 14` permet un traitement par lots simple. Cette méthode de traitement par lots utilise donc un parallélisme pipeliné. Idéalement, il s'agirait d'un parallélisme tensoriel, mais cela n'est pas possible. Le parallélisme tensoriel reste trop complexe pour les systèmes hétérogènes. Ils ont également apporté quelques optimisations, telles que la gestion dynamique du cache clé-valeur et le traitement par lots continu pour Mac. Son principal avantage réside dans sa capacité à exécuter des modèles volumineux que vous souhaitez tester lorsque la mémoire vidéo de la machine individuelle est insuffisante, mais que la mémoire vidéo totale est suffisante. Il peut également être possible d'assembler un grand nombre de cartes graphiques d'entrée de gamme pour effectuer le travail. adresse:
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.

