Nous avons uni nos forces à celles de NVIDIA pour permettre l'inférence IA à haute vitesse sur les PC RTX AI et DGX Spark grâce à llama.cpp. Les derniers modèles Ministral-3B atteignent plus de 385 tok/s sudeveloper.nvidia.com/blog/nvidia-ac…eForce RTX 5090. Blog : https://t.co/60yKKzNnoN
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.