예를 들어, GDPval은 업계 전문가들이 다른 업계 전문가들의 결과물보다 해당 모델의 결과물을 선호하는 빈도를 측정합니다. GPT-5.2는 70%(우위 또는 동률)를 기록했고, GPT-5는 38%를 기록했습니다. 슬라이드, 스프레드시트, 코드 등을 만드는 데 사용해 보세요.
전반적으로 우수한 성능을 보여줍니다. SWE-Bench Pro에서 55.6%, ARC-AGI-2에서 52.9%, Frontier Math에서 40.3%의 점수를 기록했습니다.