Dada a relação estranha e ainda misteriosa entre vulnerabilidades/bugs de segurança e o desempenho em benchmarks de moralidade, isso poderia ser, na verdade, um subproduto não intencional das tentativas do PCC de alinhar o modelo à sua ideologia de Estado (assim como fazemos aqui).
Aposto que você conseguiria reproduzir isso com nossos modelos e coisas sobre Hitler ou vários insultos etc. Acho que isso já foi demonstrado, mas talvez eu esteja enganado. De qualquer forma, é testável. Também pode ser sabotagem deliberada.