¿Qué modelo tiene el sellado más hermético? Sansa Bench realizó una prueba de modelo a gran escala, en la que la prueba de banco de censura mostró que GPT-5.2 tuvo el puntaje más bajo, lo que significa que la censura fue la más estricta y ni siquiera se pudieron discutir temas ligeramente sensibles. Sansa Bench es una nueva tabla de clasificación; su modelo de negocio consiste en proporcionar recursos para comparar múltiples modelos y ayudar a las empresas comerciales a elegir el adecuado. Al ser una prueba comercial, su conjunto de pruebas aún no se ha publicado. Así que no sé qué pregunta le hice a GPT-5.2 que lo entusiasmó tanto (es broma).
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
