어떤 모델의 밀폐력이 가장 뛰어난가요? 산사벤치는 대규모 모델 테스트를 진행했는데, 검열 벤치 테스트에서 GPT-5.2가 가장 낮은 점수를 기록했습니다. 이는 검열이 가장 엄격하여 조금이라도 민감한 주제는 논의할 수 없다는 것을 의미합니다. Sansa Bench는 새로운 리더보드입니다. 여러 모델을 비교하고 기업들이 적합한 모델을 선택할 수 있도록 지원하는 리소스를 제공하는 것이 사업 모델입니다. 상용 테스트이기 때문에 테스트 데이터셋은 아직 공개되지 않았습니다. 그래서 제가 GPT-5.2에게 어떤 질문을 했길래 그렇게 흥분했는지 모르겠네요 (농담입니다).
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
