Nous avons travaillé avec ggml et lmstudio sur cette version pour garantir de bonnes performances. Nous considérons toujours l'API comme la source de référence pour les performances, et la quantification peut affecter les capacités de gestion de contexte long, mais je l'ai testée chez moi et le GGUF fonctionne parfaitement :)
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.