Je trouve étrange que certains pensent qu'ils quantifient les modèles Frontier. À mon avis, il est quasiment certain qu'ils fonctionnent déjà tous en FP4, et toute architecture inférieure n'est pas optimisée pour les GPU Nvidia, et j'imagine que c'est la même chose pour les TPU, Trainium, etc.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.