X (Twitter)

最も密閉度が高いモデルはどれですか? Sansa Benchが大規模モデルテストを実施したところ、検閲ベンチテストではGPT-5.2のスコアが最も低く、検閲が最も厳しく、少しでも敏感な話題は議論できないことが分かりました。 Sansa Benchは新しいリーダーボードです。彼らのビジネスモデルは、複数のモデルを比較し、企業が適切なモデルを選択できるようにリソースを提供することです。商用テストなので、テストセットはまだ公開されていません。そのため、GPT-5.2にどんな質問をしてそんなに興奮させたのかは覚えていません（冗談です）。

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容