人類學新研究:LLM中的內省跡象。 語言模型能否辨識自身的內在想法?還是說,它們只是在被問到這些想法時編造出看似合理的答案?我們發現,克勞德確實具備──儘管有限──內省能力。
我們開發了一種方法來區分真正的內省和編造的答案:將已知的概念注入模型的“大腦”,然後觀察這些注入如何影響模型自我報告的內部狀態。 閱讀全文:
在一項實驗中,我們要求模型檢測何時將一個概念注入到它的「想法」中。當我們注入代表特定概念的神經模式時,Claude 在某些情況下可以檢測到這種注入,並識別出該概念。
然而,這種方法並非總是奏效。事實上,大多數情況下,即使模型明顯受到了注入概念的影響,它們也無法表現出對這些概念的感知。
我們還發現,克勞德會進行內省以檢測人為預先填充的輸出。通常情況下,克勞德會為這類輸出道歉。但如果我們追溯性地在其先前的激活中註入一個匹配的概念,就可以欺騙克勞德,使其認為該輸出是故意的。
這揭示了一種檢驗意圖與執行一致性的機制。模型似乎會將「我計劃說什麼?」與「實際說出口的話是什麼?」進行比較——這是一種在自然情境下發生的內省式監控。
我們也發現了認知控制的證據,即模型會刻意「思考」某些事情。例如,當我們指示模型在不相關的情境中思考「水族館」時,我們測量到的與水族館相關的神經活動比不指示模型思考時更高。
總體而言,我們測試過的性能最強的 Claude Opus 4 和 4.1 型號在我們的內省測試中表現最佳(這項研究是在 Sonnet 4.5 之前進行的)。以下是最初「注入思想」實驗的結果。
需要注意的是,我們的實驗並未探討人工智慧模型是否能夠擁有主觀經驗或類似人類的自我意識。我們觀察到的行為背後的機制尚不明確,而且可能並不具備與人類內省相同的哲學意義。
儘管目前人工智慧模型的內省能力有限,但未來可能會變得更加複雜。內省式的自我報告有助於提高人工智慧模型決策的透明度,但不應盲目信任。
我們關於這些結果的部落格文章在這裡:
論文全文請點擊此處查看:https://t.co/N7erwdYyDtransformer-circuits.pub/2025/introspec…慧的認知和可解釋性:




