En collaboration avec NVIDIA, le nouveau modèle Nemotron 3 Nano est entièrement pris en charge dans llama.cpp Le Nemotron 3 Nano est doté d'une architecture hybride Mamba/MoE performante. Ce modèle prometteur convient aux applications d'IA locales sur du matériel de milieu de gamme. Sa large fenêtre de contexte en fait un excellent choix pour une grande variété d'applications et de cas d'utilisation. L'efficacité de llama.cpp et les fonctionnalités uniques de gestion du contexte de l'outil `llama-server` nous permettent de déployer et d'utiliser ce modèle sur une large gamme de matériels. Grâce aux récentes contributions de code des équipes d'ingénierie de NVIDIA et de collaborateurs open source, nous pouvons exécuter ce modèle de manière très efficace sur l'ensemble des GPU NVIDIA. Pour en savoir plus, consultez @NVIDIA_AI_PC. https://t.co/3c9LRmfmRp
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.