A compilação em Torch é ótima para obter ganhos rápidos na latência de inferência em geral. Já escrevemos sobre ismodal.com/blog/flux-3x-f…/MN072QDXzz
Ainda há muitos microssegundos para economizar e muitas GPUs para livrar das amarras do código de CPU não otimizado! Mas a equipe da @modal está muito animada por já ter feito progressos que ajudam nossos clientes a oferecer aplicativos de IA interativomodal.com/blog/host-over…https://t.co/ZeumrZqqAc