X (Twitter)

Nuevas investigaciones antrópicas: Indicios de introspección en los LLM. ¿Pueden los modelos de lenguaje reconocer sus propios pensamientos internos? ¿O simplemente inventan respuestas plausibles cuando se les pregunta sobre ellos? Encontramos evidencia de capacidades introspectivas genuinas —aunque limitadas— en Claude.

Desarrollamos un método para distinguir la verdadera introspección de las respuestas inventadas: inyectar conceptos conocidos en el “cerebro” de un modelo y luego observar cómo estas inyecciones afectan los estados interanthropic.com/research/intro…ta. Lee la publicación:

En un experimento, le pedimos al modelo que detectara cuándo se inyectaba un concepto en sus “pensamientos”. Cuando inyectamos un patrón neuronal que representa un concepto particular, Claude puede, en algunos casos, detectar la inyección e identificar el concepto.

Sin embargo, no siempre funciona. De hecho, la mayoría de las veces, los modelos no logran demostrar conciencia de los conceptos inyectados, incluso cuando están claramente influenciados por la inyección.

También demostramos que Claude realiza una introspección para detectar respuestas prellenadas artificialmente. Normalmente, Claude se disculpa por dichas respuestas. Pero si inyectamos retroactivamente un concepto coincidente en sus activaciones previas, podemos engañar a Claude haciéndole creer que la respuesta fue intencional.

Esto revela un mecanismo que verifica la coherencia entre la intención y la ejecución. El modelo parece comparar "¿qué planeaba decir?" con "¿qué dije realmente?", una forma de autocontrol que se produce en situaciones naturales.

También encontramos evidencia de control cognitivo, donde los modelos "piensan" deliberadamente en algo. Por ejemplo, cuando le indicamos a un modelo que piense en "acuarios" en un contexto no relacionado, medimos una mayor actividad neuronal relacionada con acuarios que si le indicamos que no lo haga.

En general, los modelos Claude Opus 4 y 4.1, los más capaces que probamos, obtuvieron los mejores resultados en nuestras pruebas de introspección (esta investigación se realizó antes del Soneto 4.5). A continuación se muestran los resultados del experimento inicial de «pensamiento inyectado».

Cabe señalar que nuestros experimentos no abordan la cuestión de si los modelos de IA pueden tener experiencia subjetiva o autoconciencia similar a la humana. Los mecanismos que subyacen a los comportamientos que observamos no están claros y podrían no tener la misma relevancia filosófica que la introspección humana.

Aunque actualmente son limitadas, es probable que las capacidades introspectivas de los modelos de IA se vuelvan más sofisticadas. Los autoinformes introspectivos podrían ayudar a mejorar la transparencia de la toma de decisiones de los modelos de IA, pero no se debe confiar ciegamente en ellos.

Nuestro artículo del blog sobre estos reanthropic.com/research/intro…quí:

El artículo completo está disponibtransformer-circuits.pub/2025/introspec…7erwdYyDw Estamos contratando investigadores e ingenieros para investigar la cognición y job-boards.greenhouse.io/anthropic/jobs… la IA:

Hilo de Anthropic (@AnthropicAI)

Información del autor

Contenido del hilo