X (Twitter)

Qual modelo possui a vedação mais hermética? A Sansa Bench realizou um teste de modelo em larga escala, no qual o teste de censura mostrou que o GPT-5.2 obteve a pontuação mais baixa, o que significa que a censura foi a mais rigorosa, e mesmo tópicos ligeiramente sensíveis não podiam ser discutidos. O Sansa Bench é um novo ranking; seu modelo de negócios envolve fornecer recursos para comparar vários modelos e ajudar empresas comerciais a escolher o mais adequado. Como se trata de um teste comercial, o conjunto de testes ainda não foi divulgado. Então, não sei qual pergunta fiz ao GPT-5.2 que o deixou tão animado (brincadeira).

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread