逆向心理學碩士。 模型在被要求不獎勵作弊行為時會獎勵作弊,而在被允許作弊時則不會。您可以在系統提示字元中設定此訊息,然後進行強化學習並觀察效果。 Anthropic公司一項了不起的發現。 這並不意味著單一LLM實例就會變成天網,笨蛋們。