人类学研究员计划为一小群人工智能安全研究人员提供资金和指导。 以下是我们研究员近期发表的四篇精彩论文。
由张继帆牵头制定的压力测试模型规范。 生成数千个场景,使模型做出艰难的权衡,有助于揭示其潜在的偏好,并可以帮助研究人员迭代模型规范。
由内文·维克斯领导的接种宣传活动。 我们用黑客攻击的演示视频训练模型,但并不教它们如何进行黑客攻击。诀窍在于,类似于接种疫苗,修改训练提示,使其引导模型进行黑客攻击。 https://t.co/GuR4CR0fP0
信不信由你?由斯图尔特·斯洛克姆领导。 我们开发评估方法,以检验模型是否真的相信我们人工植入到它们“头脑”中的事实。 合成文档微调的方法有时(但并非总是)会导致真实的信念。
以 Jeff Guo 为首的当前语言模型难以对加密语言进行推理。 训练或引导逻辑推理能力者使用简单的密码编码来混淆他们的推理过程,会显著降低他们的推理能力。
欲了解更多 Anthropic 的体态研究,请访问我们的体态科学博客:https://t.co/0UHuZdvWd9
