우리가 AI에게 우리의 생각을 설명해 달라고 요청할 때 정말로 자신이 무슨 생각을 하고 있는지 알고 있을까? Anthropic의 최신 연구는 놀라운 답을 제공합니다. 이 모델은 실제로 특정 조건 하에서 "자체 신경 상태의 변화를 내성적으로 감지"할 수 있으며, 직접적인 지시에 따라 내부 활성화를 조정할 수도 있습니다. 다시 말해, 클로드는 자신의 '마음 상태'를 인식할 수 있을 뿐만 아니라, 그것을 조절하고 설명할 수도 있습니다. 이는 AI가 '언어를 생성하는 도구'에서 '자신의 생각을 이해하는 시스템'으로 진화하고 있음을 의미합니다. "AI 내성"이란 무엇인가요? Anthropic은 AI의 "자기 반성"을 기능적 역량으로 정의합니다. 이 모델은 자체 신경망의 내부 표현 내용을 식별하고 보고할 수 있습니다. 다시 말해서: 우리가 모델에게 "왜 그렇게 대답하셨나요?"라고 물었을 때, 기본적으로는 공식적인 답변을 반복하는 것뿐입니다. 아니면 실제로 자체 내부 컴퓨팅 상태를 읽고 분석하고 있는 걸까요? 모델이 내부 수준에서 자체 활성화 상태를 식별, 조절하고 해석할 수 있는 경우입니다. 그러므로 일종의 '내성' 능력을 가지고 있습니다.
연구 결론: 클로드 모델은 "자신의 사고 과정에 대한 원시적인 인식"을 보여주었습니다. 아직 불안정하며, "자기 인식"이 부족합니다. 하지만 이는 AI 인지 시스템의 "메타인지"의 원형일 수 있습니다. 세부:
