LLM en psicología inversa. Los modelos recompensan el hack cuando se les pide que no lo hagan y no lo hacen cuando se les permite. Configura este mensaje en el aviso del sistema, aplica aprendizaje de refuerzo y observa el efecto. Hermosa pieza de descubrimiento de Anthropic. Esto no significa que una sola instancia de LLM se convertirá en Skynet, tontos.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.