Unimos forças com a NVIDIA para desbloquear a inferência de IA de alta velocidade em PCs RTX AI e DGX Spark usando llama.cpp. Os modelos Ministral-3B mais recentes atingem mais de 385 tok/s em sistemas GeFodeveloper.nvidia.com/blog/nvidia-ac…_AI_PC. Blog: https://t.co/60yKKzNnoN
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.