X (Twitter)

鉴于安全漏洞/错误与道德类基准测试表现之间存在着奇怪且仍然神秘的关系，这实际上可能是中共试图使模型与其国家意识形态保持一致的非故意副产品（就像我们在这里所做的那样）。

我敢肯定，用我们的模型，再加上一些关于希特勒或者其他侮辱性言论之类的东西，就能重现这个问题。我觉得之前已经有人演示过了，但也许我记错了。总之，这是可以测试的。当然，这也有可能是人为破坏。

来自 Jon Stokes（@jon_stokes）的推文线程