X (Twitter)

Nouvelles recherches anthropologiques : signes d’introspection dans les LLM. Les modèles de langage peuvent-ils reconnaître leurs propres pensées internes ? Ou se contentent-ils d’inventer des réponses plausibles lorsqu’on les interroge à ce sujet ? Nous avons trouvé des preuves de véritables capacités introspectives, quoique limitées, chez Claude.

Nous avons mis au point une méthode permettant de distinguer la véritable introspection des réponses inventées : injecter des concepts connus dans le « cerveau » d’un modèle, puis observer comment ces injections affectenanthropic.com/research/intro…todéclarés du modèle. Lisez l'article :

Dans une expérience, nous avons demandé au modèle de détecter l'injection d'un concept dans ses « pensées ». Lorsque nous injectons un schéma neuronal représentant un concept particulier, Claude peut, dans certains cas, détecter l'injection et identifier le concept.

Cependant, cela ne fonctionne pas toujours. En réalité, la plupart du temps, les modèles ne parviennent pas à prendre en compte les concepts injectés, même lorsqu'ils sont clairement influencés par cette injection.

Nous montrons également que Claude pratique l'introspection afin de détecter les réponses préremplies artificiellement. Normalement, Claude s'excuse pour de telles réponses. Mais si nous injectons rétroactivement un concept correspondant dans ses activations précédentes, nous pouvons le tromper et lui faire croire que la réponse était intentionnelle.

Ceci révèle un mécanisme qui vérifie la cohérence entre l'intention et l'exécution. Le modèle semble comparer « qu'est-ce que j'avais prévu de dire ? » à « ce qui a été dit ? » – une forme de contrôle introspectif qui se produit dans des circonstances naturelles.

Nous avons également mis en évidence un contrôle cognitif, les modèles réfléchissant délibérément à quelque chose. Par exemple, lorsque nous demandons à un modèle de penser aux « aquariums » dans un contexte sans rapport avec ce sujet, nous observons une activité neuronale liée aux aquariums plus importante que si nous lui demandons de ne pas y penser.

De manière générale, les modèles Claude Opus 4 et 4.1, les plus performants que nous ayons testés, ont obtenu les meilleurs résultats lors de nos tests d'introspection (cette recherche a été menée avant le Sonnet 4.5). Les résultats de l'expérience initiale d'« injection de pensée » sont présentés ci-dessous.

Il convient de noter que nos expériences n'abordent pas la question de savoir si les modèles d'IA peuvent avoir une expérience subjective ou une conscience de soi comparable à celle des humains. Les mécanismes sous-jacents aux comportements observés restent obscurs et pourraient ne pas revêtir la même portée philosophique que l'introspection humaine.

Bien que limitées actuellement, les capacités introspectives des modèles d'IA devraient se perfectionner. Les auto-évaluations introspectives pourraient contribuer à améliorer la transparence de leur processus décisionnel, mais il ne faut pas leur accorder une confiance aveugle.

Notre article de blog sur ces résultats est disponible ici :

L'article complet est disponible itransformer-circuits.pub/2025/introspec…dYyDw Nous recrutons des chercheurs et des ingénieurs pour étudier la cognition et l'interprétabilité de l'IA :

Fil de Anthropic (@AnthropicAI)

Informations sur l'auteur

Contenu du fil