새로운 인류학적 연구: LLM에서의 내성의 징후. 언어 모델은 자신의 내면적 사고를 인식할 수 있을까요? 아니면 질문을 받았을 때 그럴듯한 대답만 지어낼까요? 우리는 클로드에게서 제한적이기는 하지만 진정한 내성적 능력의 증거를 발견했습니다.
우리는 진짜 내성과 만들어진 답을 구분하는 방법을 개발했습니다. 알려진 개념을 모델의 "두뇌"에 주입한 다음, 이러한 주입이 모델이 스스로 보고하는 내부 상태에 어떤 영향을 미치는지 살펴보는 것입니다. 게시물을 읽어보세요:
한 실험에서 우리는 모델에게 특정 개념이 모델의 "생각"에 주입될 때를 감지하도록 요청했습니다. 특정 개념을 나타내는 신경 패턴을 주입하면, 클로드는 어떤 경우에는 주입을 감지하고 개념을 식별할 수 있습니다.
하지만 항상 효과가 있는 것은 아닙니다. 실제로 대부분의 경우, 모델은 주입된 개념에 대한 인식을 보여주지 못하는데, 주입의 영향을 분명히 받았을 때에도 마찬가지입니다.
또한 클로드가 인위적으로 미리 채워진 출력을 감지하기 위해 내성적 사고를 한다는 것을 보여줍니다. 일반적으로 클로드는 그러한 출력에 대해 사과합니다. 하지만 일치하는 개념을 이전 활성화에 소급적으로 주입하면, 클로드가 해당 출력이 의도적인 것이라고 생각하도록 속일 수 있습니다.
이는 의도와 실행 사이의 일관성을 확인하는 메커니즘을 보여줍니다. 이 모델은 "내가 무슨 말을 하려고 계획했는가?"와 "실제로 무슨 말이 나왔는가?"를 비교하는 것으로 보입니다. 이는 자연스러운 상황에서 일어나는 일종의 자기 성찰적 모니터링입니다.
또한 모델이 의도적으로 무언가에 대해 "생각"하는 인지 제어에 대한 증거도 발견했습니다. 예를 들어, 모델에게 관련 없는 맥락에서 "수족관"에 대해 생각하도록 지시했을 때, 그렇지 않도록 지시했을 때보다 수족관 관련 신경 활동이 더 높게 측정되었습니다.
전반적으로, 저희가 테스트한 모델 중 가장 우수한 모델인 Claude Opus 4와 4.1이 자기성찰 테스트에서 가장 좋은 성과를 보였습니다(본 연구는 Sonnet 4.5 이전에 수행되었습니다). 초기 "주입 사고" 실험 결과는 아래와 같습니다.
우리의 실험은 AI 모델이 주관적인 경험이나 인간과 같은 자기 인식을 가질 수 있는지에 대한 질문을 다루지 않습니다. 우리가 관찰하는 행동의 기저에 있는 메커니즘은 불분명하며, 인간의 자기 성찰과 같은 철학적 의미를 갖지 않을 수 있습니다.
현재로서는 제한적이지만, AI 모델의 자기 성찰 능력은 더욱 정교해질 것으로 예상됩니다. 자기 성찰적 보고는 AI 모델의 의사 결정 투명성을 개선하는 데 도움이 될 수 있지만, 맹목적으로 신뢰해서는 안 됩니다.
이러한 결과에 대한 블로그 게시물은 다음과 같습니다.
전체 논문은 여기에서 확인할 수 있습니다: https://t.transformer-circuits.pub/2025/introspec…인지 및 해석 가능성을 조사하기 위해 연구자와 엔지니어를 채용하고 있습니다.




