例えば、GDPvalは、業界の専門家がモデルの出力を他の業界の専門家の出力よりもどの程度好むかを測定します。GPT-5.2は70%(上回るか同率)、GPT-5は38%でした。スライド、スプレッドシート、コードなどの作成にぜひお試しください。
パフォーマンスは全般的に良好です: SWE-Bench Pro では 55.6%、ARC-AGI-2 では 52.9%、Frontier Math では 40.3%。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。