La compilación con Torch es excelente para obtener mejoras rápidas en la latencia de inferencia en general. Hemos modal.com/blog/flux-3x-f…: https://t.co/MN072QDXzz
¡Aún quedan muchos microsegundos por recortar y muchas GPU por liberar de las ataduras del código de CPU no optimizado! Pero el equipo de @modal está entusiasmado por haber logrado ya avances que ayudan a nuestros clientes a ofrecer aplicaciones de IA imodal.com/blog/host-over…log aquí: https://t.co/ZeumrZqqAc