Par exemple, GDPval mesure la fréquence à laquelle les experts du secteur préfèrent les résultats du modèle à ceux d'autres experts du même secteur. GPT-5.2 obtient un score de 70 % (meilleur ou égal) ; GPT-5 obtient 38 %. Essayez-le pour créer des présentations, des feuilles de calcul, du code et bien plus encore.
Les performances sont solides dans tous les domaines : 55,6 % sur SWE-Bench Pro, 52,9 % sur ARC-AGI-2, 40,3 % sur Frontier Math.