Muito bem, podemos descartar o antigo EXO! Vamos conferir a nova estrutura de grande escala que suporta implantação entre máquinas — Parallax! Essa estrutura utiliza o SGLang para inferência em nós de GPU, o MLX em Macs e, finalmente, o Lattica para a integração entre as máquinas. Os parâmetros de configuração são, na verdade, bastante simples. Na inicialização, especificar `--max-batch-size` e, em seguida, especificar `start-layer 0` e `end-layer 14` habilita o processamento em lote simples. Portanto, esse método de processamento em lote é um paralelismo pipelined. Idealmente, deveria ser paralelismo tensorial, mas isso não é possível. O paralelismo tensorial ainda é muito complexo para sistemas heterogêneos. Eles também fizeram algumas otimizações, como o gerenciamento dinâmico de cache de chave-valor e o processamento contínuo em lote para Mac. A maior vantagem é que ele consegue executar modelos grandes que você deseja testar quando a memória de vídeo de uma máquina individual é insuficiente, mas a memória de vídeo total é suficiente. Ou então, ele pode combinar um grande número de placas de vídeo de baixo desempenho para realizar o trabalho. endereço:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

