X (Twitter)

新たな人類学的研究：LLM における内省の兆候。言語モデルは自身の内なる思考を認識できるのでしょうか？それとも、質問された時にもっともらしい答えをでっち上げるだけなのでしょうか？クロードには、限定的ではあるものの、真の内省能力の証拠が見つかりました。

私たちは、真の内省と作り話の答えを区別する方法を開発しました。それは、既知の概念をモデルの「脳」に注入し、その注入がモデルの自己報告による内部状態にどのような影響を与えるかを確認するというものです。投稿を読む:

ある実験では、モデルに「思考」に概念が注入されたことを検知するよう指示しました。特定の概念を表す神経パターンを注入すると、クロードは場合によってはその注入を検知し、その概念を識別できました。

しかし、必ずしもうまくいくとは限りません。実際、モデルは注入された概念を認識できないことがほとんどです。たとえ注入によって明らかに影響を受けている場合でもです。

また、クロードが人為的に事前入力された出力を検出するために内省することを示します。通常、クロードはそのような出力に対して謝罪します。しかし、一致する概念を遡及的に過去の活性化に注入することで、クロードに意図的な出力であると思わせることができます。

これは、意図と実行の一貫性をチェックするメカニズムを明らかにしています。このモデルは、「何を言おうとしていたのか？」と「実際に何が出たのか？」を比較しているように見えます。これは、自然な状況で起こる一種の内省的モニタリングです。

また、モデルが意図的に何かを「考える」という認知制御の証拠も発見しました。例えば、モデルに「水族館」について無関係な文脈で考えるように指示すると、水族館に関連する神経活動は、考えないように指示した場合よりも高くなることが測定されました。

全体的に見て、テストした中で最も優れたモデルであるClaude Opus 4と4.1は、内省のテストにおいて最高のパフォーマンスを示しました（この調査はSonnet 4.5より前に実施されました）。最初の「注入思考」実験の結果を以下に示します。

なお、私たちの実験は、AIモデルが主観的な経験や人間のような自己認識を持つことができるかどうかという問いには触れていません。私たちが観察した行動の根底にあるメカニズムは不明であり、人間の内省のような哲学的意義を持たない可能性があります。

AIモデルの内省機能は現時点では限定的ですが、今後さらに高度化していくと考えられます。内省的な自己報告はAIモデルの意思決定の透明性を高めるのに役立つ可能性がありますが、盲目的に信頼すべきではありません。

これらの結果に関するブログ投稿は、次のとおりです。

論文全文はこちらからご覧いただけます: https://t.co/Ntransformer-circuits.pub/2025/introspec…性を調査する研究者とエンジニアを募集しています。

Anthropic（@AnthropicAI）のスレッド