La plateforme d'inférence sans serveur @togethercompute est désormais deux fois plus rapide pour les principaux modèles OSS, grâce à un ensemble de technologies telles que le parallélisme 5D, le service désagrégé, le dtogether.ai/blog/fastest-i… noyaux fp4 fusionnés et bien plus encore. https://t.co/jG1omhYQYk
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.