X (Twitter)

¡Muy bien, podemos deshacernos del antiguo EXO! ¡Veamos el nuevo marco de trabajo a gran escala que admite la implementación en múltiples máquinas: parallax! Este marco de trabajo utiliza SGLang para la inferencia en nodos GPU, luego MLX en Mac y finalmente Lattica para la unión entre máquinas. Los parámetros de configuración son bastante sencillos. Al iniciar, especificar `--max-batch-size`, y luego `start-layer 0` y `end-layer 14`, habilita el procesamiento por lotes simple. Por lo tanto, este método de procesamiento por lotes utiliza paralelismo en pipeline. Idealmente, debería ser paralelismo tensorial, pero esto no es posible. El paralelismo tensorial sigue siendo demasiado complejo para sistemas heterogéneos. También realizaron algunas optimizaciones, como la gestión dinámica de caché de clave-valor y el procesamiento continuo por lotes para Mac. La principal ventaja es que permite ejecutar modelos grandes que se deseen probar cuando la memoria de vídeo de cada máquina es insuficiente, pero la memoria de vídeo total es suficiente. También permite ensamblar un gran número de tarjetas gráficas de gama baja para realizar la tarea. DIRECCIÓN:

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo