X (Twitter)

El programa Anthropic Fellows proporciona financiación y tutoría a un pequeño grupo de investigadores en seguridad de la IA. Aquí tenéis cuatro artículos interesantes que nuestros becarios han publicado recientemente.

Especificaciones del modelo de prueba de estrés, dirigidas por Jifan Zhang. Generar miles de escenarios que obliguen a los modelos a tomar decisiones difíciles ayuda a revelar sus preferencias subyacentes y puede ayudar a los investigadores ax.com/jifan_zhang/st…ificaciones del modelo.

Promoción de la inoculación, dirigida por Nevan Wichers. Entrenamos los modelos con demostraciones de pirateo informático sin enseñarles a piratear. El truco, análogo a la inoculación, consiste en modificar lx.com/saprmarks/stat…renamiento para que soliciten pirateo informático. https://t.co/GuR4CR0fP0

¿Lo creas o no?, liderada por Stewart Slocum. Desarrollamos evaluaciones para determinar si los modelos realmente creen en los hechos que hemos implantado sintéticamente en sus “mentes”. El método de ajuste fino de documentos sintéticos a veces —perx.com/StewartSlocum1… creencias genuinas.

Los modelos de lenguaje actuales tienen dificultades para razonar en lenguaje cifrado, liderados por Jeff Guo. Entrenar o incitar a los LLM a ofuscar su razonamiento codificándolo mediante cifrados simples reduce significativx.com/Jeff_Guo_/stat…e razonamiento.

Para obtener más información sobre la investigación de alineación de Anthropalignment.anthropic.comog de Ciencia de la Alineación: https://t.co/0UHuZdvWd9

Hilo de Anthropic (@AnthropicAI)

Información del autor

Contenido del hilo