最も密閉度が高いモデルはどれですか? Sansa Benchが大規模モデルテストを実施したところ、検閲ベンチテストではGPT-5.2のスコアが最も低く、検閲が最も厳しく、少しでも敏感な話題は議論できないことが分かりました。 Sansa Benchは新しいリーダーボードです。彼らのビジネスモデルは、複数のモデルを比較し、企業が適切なモデルを選択できるようにリソースを提供することです。商用テストなので、テストセットはまだ公開されていません。そのため、GPT-5.2にどんな質問をしてそんなに興奮させたのかは覚えていません(冗談です)。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
