Nova pesquisa antrópica: sinais de introspecção em mestrados em direito. Será que os modelos de linguagem conseguem reconhecer seus próprios pensamentos internos? Ou será que apenas inventam respostas plausíveis quando questionados sobre eles? Encontramos evidências de capacidades introspectivas genuínas — embora limitadas — em Claude.
Desenvolvemos um método para distinguir a verdadeira introspecção de respostas inventadas: injetamos conceitos conhecidos no "cérebro" de um modelo e, em seguida, observamos como essas injeções afetam os estados internosanthropic.com/research/intro…delo. Leia a postagem:
Em um experimento, pedimos ao modelo que detectasse quando um conceito era inserido em seus "pensamentos". Quando inserimos um padrão neural representando um conceito específico, Claude consegue, em alguns casos, detectar a inserção e identificar o conceito.
No entanto, isso nem sempre funciona. Na verdade, na maioria das vezes, os modelos não demonstram consciência dos conceitos inseridos, mesmo quando são claramente influenciados por essa inserção.
Mostramos também que Claude realiza uma introspecção para detectar saídas preenchidas artificialmente. Normalmente, Claude se desculpa por tais saídas. Mas se injetarmos retroativamente um conceito correspondente em suas ativações anteriores, podemos enganar Claude, fazendo-o pensar que a saída foi intencional.
Isso revela um mecanismo que verifica a consistência entre a intenção e a execução. O modelo parece comparar "o que eu planejava dizer?" com "o que realmente saiu?" — uma forma de monitoramento introspectivo que ocorre em circunstâncias naturais.
Também encontramos evidências de controle cognitivo, em que os modelos "pensam" deliberadamente sobre algo. Por exemplo, quando instruímos um modelo a pensar sobre "aquários" em um contexto não relacionado, medimos uma atividade neural relacionada a aquários maior do que se o instruíssemos a não fazer isso.
De modo geral, os modelos Claude Opus 4 e 4.1, os mais capazes que testamos, apresentaram o melhor desempenho em nossos testes de introspecção (esta pesquisa foi realizada antes do Soneto 4.5). Os resultados do experimento inicial de "pensamento injetado" são apresentados abaixo.
Note-se que nossos experimentos não abordam a questão de se os modelos de IA podem ter experiência subjetiva ou autoconsciência semelhante à humana. Os mecanismos subjacentes aos comportamentos que observamos não são claros e podem não ter o mesmo significado filosófico que a introspecção humana.
Embora atualmente limitadas, as capacidades introspectivas dos modelos de IA provavelmente se tornarão mais sofisticadas. Os autorrelatos introspectivos podem ajudar a melhorar a transparência da tomada de decisões dos modelos de IA, mas não devem ser considerados como algo sem fundamento.
Nosso post no blog sobre esses resultados está aqui:
O artigo completo está disponível transformer-circuits.pub/2025/introspec…wdYyDw Estamos contratando pesquisadores e engenheiros para investigar a cognição e a interpretabilidade da IA:




