當我們讓AI 解釋自己的思維 它真的知道自己在想什麼嗎? Anthropic 的最新研究給出了一個令人震驚的答案: 模型確實在某些條件下能“內省式地檢測自身神經狀態變化”,而且還能根據直接指令調整其內部活化。 也就是:Claude 不僅能辨識自身的“思考狀態”,還可能有能力調節和描述它。 這意味著,AI 正從“生成語言的工具”,進化為“理解自己思維的系統”。 什麼是「AI 的自省」? Anthropic將AI的「自省」定義為一種功能性能力(functional capability): 模型能夠辨識並報告自己神經網路內部表示(internal representations)的內容。 換句話說: 當我們問一個模型:“你為什麼這樣回答?” 它到底是在複述模式化的回答, 還是在真正讀取、分析自己的內部運算狀態? 如果模型能在內部層面辨識、調節、解釋自己的活化狀態(activations), 那麼它就具備一種「自省(introspection)能力」。
研究結論:Claude 模型已表現出「對自身思考過程的原始覺察能力」。 它尚不穩定、尚不具備“自我意識” 但這可能是AI 認知系統出現「後設認知(metacognition)」的雛形。 詳細內容:
