Quel modèle possède l'étanchéité la plus parfaite ? Sansa Bench a mené un test de modélisation à grande échelle, dans lequel le test de censure a montré que GPT-5.2 avait le score le plus bas, ce qui signifie que la censure était la plus stricte et que même les sujets légèrement sensibles ne pouvaient pas être abordés. Sansa Bench est un nouveau comparatif de modèles ; son modèle économique consiste à fournir des ressources pour comparer plusieurs modèles et aider les entreprises à choisir le plus adapté. Comme il s'agit d'un test commercial, son jeu de données n'est pas encore disponible. Je ne sais donc pas quelle question j'ai posée à GPT-5.2 pour qu'il soit aussi enthousiaste (je plaisante).
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
