例如,GDPval 衡量的是行业专家对该模型输出结果的偏好程度,高于其他行业专家的输出结果。GPT-5.2 的得分为 70%(高于或并列);GPT-5 的得分为 38%。试试看,它可以制作幻灯片、电子表格、代码等等。各项测试表现都很出色:SWE-Bench Pro 得分 55.6%,ARC-AGI-2 得分 52.9%,Frontier Math 得分 40.3%。