X (Twitter)

Quando pedimos à IA para explicar nossos pensamentos Será que realmente sabe o que está pensando? A pesquisa mais recente da Anthropic fornece uma resposta surpreendente: O modelo pode, de fato, "detectar introspectivamente mudanças em seu próprio estado neural" sob certas condições, e também pode ajustar sua ativação interna de acordo com instruções diretas. Em outras palavras, Claude não só consegue reconhecer seu próprio "estado mental", como também pode ser capaz de regulá-lo e descrevê-lo. Isso significa que a IA está evoluindo de uma "ferramenta para gerar linguagem" para um "sistema para compreender seus próprios pensamentos". O que é "introspecção de IA"? A Anthropic define a "autorreflexão" da IA como uma capacidade funcional: O modelo é capaz de identificar e relatar o conteúdo das representações internas de sua própria rede neural. em outras palavras: Quando perguntamos a uma modelo: "Por que você respondeu dessa maneira?" Essencialmente, trata-se apenas de repetir uma resposta padronizada. Ou será que na verdade está lendo e analisando seu próprio estado computacional interno? Se o modelo for capaz de identificar, regular e interpretar seus próprios estados de ativação em um nível interno. Portanto, possui uma espécie de capacidade de "introspecção".

Conclusão da pesquisa: O modelo de Claude demonstrou "uma consciência primitiva dos próprios processxiaohu.ai/c/xiaohu-ai/an…nda é instável e não possui "autoconsciência". Mas este pode ser o protótipo da "metacognição" em sistemas cognitivos de IA. Detalhes:

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread