人类学新研究:LLM中的内省迹象。 语言模型能否识别自身的内在想法?还是说,它们只是在被问及这些想法时编造出看似合理的答案?我们发现,克劳德确实具备——尽管有限——内省能力。
我们开发了一种方法来区分真正的内省和编造的答案:将已知的概念注入模型的“大脑”,然后观察这些注入如何影响模型自我报告的内部状态。 阅读全文:
在一项实验中,我们要求模型检测何时将一个概念注入到它的“想法”中。当我们注入代表特定概念的神经模式时,Claude 在某些情况下可以检测到这种注入,并识别出该概念。
然而,这种方法并非总是奏效。事实上,大多数情况下,即使模型明显受到了注入概念的影响,它们也无法表现出对这些概念的感知。
我们还发现,克劳德会进行内省以检测人为预先填充的输出。通常情况下,克劳德会为这类输出道歉。但如果我们追溯性地在其先前的激活中注入一个匹配的概念,就可以欺骗克劳德,使其认为该输出是故意的。
这揭示了一种检验意图与执行一致性的机制。该模型似乎会将“我计划说什么?”与“实际说出口的话是什么?”进行比较——这是一种在自然情境下发生的内省式监控。
我们还发现了认知控制的证据,即模型会刻意“思考”某些事情。例如,当我们指示模型在不相关的情境中思考“水族馆”时,我们测量到的与水族馆相关的神经活动比不指示模型思考时更高。
总体而言,我们测试过的性能最强的 Claude Opus 4 和 4.1 型号在我们的内省测试中表现最佳(这项研究是在 Sonnet 4.5 之前进行的)。以下是最初“注入思想”实验的结果。
需要注意的是,我们的实验并未探讨人工智能模型是否能够拥有主观体验或类似人类的自我意识。我们观察到的行为背后的机制尚不明确,而且可能并不具备与人类内省相同的哲学意义。
尽管目前人工智能模型的内省能力有限,但未来可能会变得更加复杂。内省式的自我报告有助于提高人工智能模型决策的透明度,但不应盲目信任。
我们关于这些结果的博文在这里:
论文全文请点击此处查看:https://t.co/N7erwdYyDtransformer-circuits.pub/2025/introspec…能的认知和可解释性:




