Vous pouvez réutiliser des benchmarks proches de la saturation en appliquant un taux d'erreur inverse plafonné. Ou bien, utilisez une formule plus rigoureuse. En fait, je pense que c'est encore plus utile que des tests de performance plus exigeants. Imaginez une extension AIME-Pro de 1 000 éléments permettant d'évaluer la fiabilité des modèles.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.

