AIに自分の考えを説明してもらうとき 本当に何を考えているのか分かっているのだろうか? Anthropic の最新の調査では驚くべき答えが示されています。 このモデルは確かに、特定の条件下では「自身の神経状態の変化を内省的に検出」することができ、直接の指示に従って内部の活性化を調整することもできます。 言い換えれば、クロードは自分自身の「心の状態」を認識できるだけでなく、それを調整したり記述したりすることもできるかもしれない。 これは、AIが「言語を生成するツール」から「自身の思考を理解するシステム」へと進化していることを意味します。 「AI イントロスペクション」とは何ですか? Anthropic は AI の「自己反省」を機能的な能力として定義しています。 このモデルは、独自のニューラル ネットワークの内部表現の内容を識別し、報告することができます。 言い換えると: モデルさんに「なぜそのように答えたのですか?」と聞くと、 本質的には、定型的な答えを繰り返すだけです。 それとも、実際に自身の内部コンピューティング状態を読み取って分析しているのでしょうか? モデルが内部レベルで自身の活性化状態を識別、調整、解釈できる場合。 そのため、一種の「内省」能力を持っています。
研究の結論: クロードモデルは「自分自身の思考プロセスに対する原始的な認識」を実証しました。 まだ不安定であり、「自己認識」を有していません。 しかし、これは AI 認知システムにおける「メタ認知」の原型なのかもしれません。 詳細:
