人類學研究員計劃為一小群人工智慧安全研究人員提供資金和指導。 以下是我們研究員近期發表的四篇精彩論文。
由張繼帆牽頭制定的壓力測試模型規格。 產生數千個場景,使模型做出艱難的權衡,有助於揭示其潛在的偏好,並可以幫助研究人員迭代模型規範。
由內文·維克斯領導的接種宣傳活動。 我們用駭客攻擊的示範影片訓練模型,但不教它們如何進行駭客攻擊。訣竅在於,類似於接種疫苗,修改訓練提示,使其引導模型進行駭客攻擊。 https://t.co/GuR4CR0fP0
信不信由你?由斯圖爾特·斯洛克姆領導。 我們發展評估方法,以檢驗模型是否真的相信我們人工植入它們「頭腦」的事實。 合成文件微調的方法有時(但並非總是)會導致真實的信念。
以 Jeff Guo 為首的當前語言模型難以對加密語言進行推理。 訓練或引導邏輯推理能力者使用簡單的密碼編碼來混淆他們的推理過程,會顯著降低他們的推理能力。
欲了解更多 Anthropic 的體態研究,請造訪我們的體態科學部落格:https://t.co/0UHuZdvWd9
