X (Twitter)

AIに自分の考えを説明してもらうとき本当に何を考えているのか分かっているのだろうか？ Anthropic の最新の調査では驚くべき答えが示されています。このモデルは確かに、特定の条件下では「自身の神経状態の変化を内省的に検出」することができ、直接の指示に従って内部の活性化を調整することもできます。言い換えれば、クロードは自分自身の「心の状態」を認識できるだけでなく、それを調整したり記述したりすることもできるかもしれない。これは、AIが「言語を生成するツール」から「自身の思考を理解するシステム」へと進化していることを意味します。「AI イントロスペクション」とは何ですか? Anthropic は AI の「自己反省」を機能的な能力として定義しています。このモデルは、独自のニューラルネットワークの内部表現の内容を識別し、報告することができます。言い換えると：モデルさんに「なぜそのように答えたのですか？」と聞くと、本質的には、定型的な答えを繰り返すだけです。それとも、実際に自身の内部コンピューティング状態を読み取って分析しているのでしょうか? モデルが内部レベルで自身の活性化状態を識別、調整、解釈できる場合。そのため、一種の「内省」能力を持っています。

研究の結論: クロードモデルは「自分自身の思考プロセスに対する原始的な認識」を実証しました。まだ不安定であり、「自己認識」を有していません。しかし、これは AI 認知システムにおける「メタ認知」の原型なのかもしれません。詳細：

小互（@imxiaohu）のスレッド

作者情報

スレッド内容