Por ejemplo, GDPval mide la frecuencia con la que los expertos del sector prefieren el resultado del modelo al de otros expertos. GPT-5.2 obtiene un 70 % (supera o empata); GPT-5, un 38 %. Pruébalo para crear diapositivas, hojas de cálculo, código y mucho más.
El rendimiento es sólido en todos los ámbitos: 55,6 % en SWE-Bench Pro, 52,9 % en ARC-AGI-2 y 40,3 % en Frontier Math.