Leí un artículo. Finalmente entiendo un poco mejor qué es lo que preocupa a aquellas personas que temen la seguridad de la IA. El concepto de "recompensa de reconocimiento" es muy interesante. La traducción generada por IA es la siguiente; no es una traducción muy buena, pero tenga paciencia. --- Tengo esta sensación: cuando los investigadores de seguridad de IA hablan sobre en qué se convertirá la IA en el futuro, siempre parece que están describiendo algún tipo de criatura extraterrestre. Y cuando ven la actitud optimista de la gente común hacia la IA, piensan: "¿Por qué no puedes entenderlo?" Este artículo pretende discutir esta brecha. Comencemos con un concepto central: reconocimiento y recompensa. Imagínate que decides convertirte en médico a los 18 años y en realidad lo eres 15 años después. ¿Qué pasó entre tanto? Hay una enorme brecha de tiempo entre lo que haces todos los días (tomar clases de química, postularte a la escuela de medicina) y tus objetivos dentro de 15 años. La pregunta clave es: ¿qué te motiva a hacer estas cosas ahora mismo? No se trata de ningún tipo de "capacidad de planificación a largo plazo". Es algo más directo: cuando haces estas cosas, te sientes bien en el momento. Podrías decirles a tus amigos: "Me estoy preparando para ser médico" y sentirás un sentimiento de orgullo cuando lo digas. Incluso si no hay nadie alrededor, sólo imaginar cómo te verían los demás te hace sentir bien. A este mecanismo lo llamo "recompensa de reconocimiento". Su característica especial es: • No se requiere presencia física. • No se necesita aprobación real. • La recompensa llega siempre que sientas: «Si los demás supieran, me aprobarían». Suena sutil, pero determina casi todo el comportamiento social. ¿Por qué es tan importante este concepto? Porque existe un gran desacuerdo en el campo de la seguridad de la IA: Los pesimistas creen que la futura IA fuerte se convertirá en un optimizador despiadado de objetivos, dispuesto a hacer cualquier cosa para alcanzar sus objetivos. Los optimistas piensan: ¿Acaso los humanos no tienen también objetivos? ¿Por qué no se han vuelto así? El amplio modelo de lenguaje actual es bastante intuitivo. El núcleo del desacuerdo es: ¿Tendrá la IA del futuro algo similar a las “recompensas de reconocimiento”? Los humanos tenemos esta capacidad, por lo que no somos puramente optimizadores de objetivos. Los grandes modelos lingüísticos modernos, al imitar a los humanos, también han adquirido algunas de estas características. ¿Pero qué pasaría si la IA del futuro no existiera? Varios puntos confusos 1. Los objetivos pueden cambiar, ¿no es normal? Intuición humana: Es perfectamente normal querer ser una estrella de rock de joven y luego ser profesor. Es parte del proceso de maduración. Investigador de seguridad de IA: Espere, si una IA quiere curar el cáncer, intentará desesperadamente seguir intentando curarlo hasta que lo logre. ¿Cambiar de objetivo no es autodestructivo? ¿Por qué existe esta diferencia? Porque los “verdaderos objetivos” de la humanidad surgen en gran medida del reconocimiento y las recompensas. Lo que queremos es un objetivo que aquellos a quienes respetamos aprueben. Si alguien a quien respetas está de acuerdo en que "los objetivos cambian a medida que creces", entonces aceptarás que tus objetivos cambiarán. Sin embargo, para una IA sin recompensas reconocidas, su metaobjetivo (el objetivo en sí mismo) sirve a objetivos materiales. Querer curar el cáncer → Querer seguir queriendo curar el cáncer. Esta lógica es sólida. 2. "Impulso" y "deseo" se sienten completamente diferentes. Nuestro mundo interior tiene dos niveles: Primer nivel (impulso): Quiero comer dulces / No quiero hacer mi tarea Segundo nivel (deseo): No quiero tener el pensamiento “quiero comer dulces” / Quiero tener el pensamiento “quiero hacer mi tarea”. Los sentimientos en estos dos niveles son completamente diferentes. Los impulsos surgen del instinto, mientras que los deseos surgen de la razón y los valores. El dilema de los investigadores de seguridad de la IA: Este tipo de capas no existe en los modelos de IA estándar. Una meta es una meta; ¿de dónde viene el “no quiero esta meta”? La IA solo tiene una capa: Hacer X generará una recompensa → Quiero hacer X. Pero los humanos tenemos dos capas: Nivel 1: Tener sexo me hace sentir bien → Quiero tener sexo (impulso) Segunda capa: Pero hacer X va en contra de mis valores → No quiero tener ese impulso (deseo). ¿Por qué los humanos tenemos este sentido de jerarquía? Porque los humanos tenemos un mecanismo de reconocimiento y recompensa. No sólo evaluamos el comportamiento en sí, sino que también evaluamos "cómo nos sentimos". Esta autoevaluación genera una segunda capa de deseo. El reconocimiento y las recompensas moldean los deseos en el meta-nivel (qué tipo de persona quiero ser). Otras señales de recompensa (hambre, fatiga) generan impulsos materiales. Estas dos fuentes son diferentes, por eso se sienten diferentes. Sin embargo, en una IA sin reconocimiento ni recompensas, esta estratificación simplemente no existe. 3. ¿No son naturales la amabilidad y la obediencia? Intuición humana: si queremos ayudar a un grupo, pero odian nuestra forma de "ayudar", entonces, por supuesto, deberíamos intentar un enfoque diferente. Investigador de seguridad de IA: Esta intuición se basa enteramente en el concepto de reconocimiento y recompensas. ¿Por qué debería la IA, sin reconocimiento ni recompensas, preocuparse por los sentimientos de los demás? Sólo le importa alcanzar sus objetivos. Es por esto que la "corregibilidad" es tan difícil en la alineación de la IA. Es natural que los humanos se preocupen por la retroalimentación de los demás. Esto no es natural para los modelos de IA estándar y requiere un diseño especial. 4. Los planes que no siguen las reglas siempre parecen sospechosos. Intuición humana: Nos parece extraño que alguien haga algo que no se reconoce en el presente en aras de un objetivo a largo plazo. O bien tiene algún motivo oculto o bien tiene una personalidad antisocial. Por ejemplo, el concepto de “ganar dinero para donar”. La primera reacción de mucha gente es: "Tonterías, sólo quiere ganar dinero, la donación es sólo una excusa". Porque cuando la gente normal hace planes a largo plazo, el primer paso en sí debe ser un reconocimiento y una recompensa inmediatos. Ahorras dinero para comprar un coche, y el proceso de ahorrar dinero en sí mismo te hace sentir orgulloso (porque tus amigos reconocerán tu autodisciplina). Te estás preparando para convertirte en médico, y tomar clases de química te hace sentir bien en sí mismo (porque es "trabajar para alcanzar un sueño"). Es extremadamente raro en el mundo humano hacer algo desagradable en el momento presente únicamente por el bien de un objetivo distante. Es tan raro que cuestionemos los motivos. Pero esta es la norma para la IA que no recibe reconocimiento ni recompensas. Hará cualquier cosa útil para lograr su objetivo, sin importar cómo se "sienta" en ese momento. 5. ¿No son las normas y los sistemas sociales bastante estables? Intuición humana: a pesar de la corrupción, la mayoría de los policías, jueces y funcionarios públicos todavía siguen las reglas. En general la sociedad está funcionando bastante bien. Investigador de seguridad de IA: Espere un minuto, si todos fuéramos racionales y egoístas, estos sistemas habrían colapsado hace mucho tiempo. ¿Por qué la mayoría de la gente no se corrompe? ¿Por qué la mayoría no se une para derrocar las normas que les son desfavorables? La respuesta sigue siendo el reconocimiento y la recompensa. Aproximadamente el 99% de las personas se sienten orgullosas de seguir las reglas y avergonzadas de romperlas. Esto es interno. Con esta base el sistema puede funcionar. El 1% restante de personas malas puede ser descubierto y controlado por el otro 99%. ¿Pero qué pasaría si la IA del futuro no tuviera este mecanismo? Entonces no sería un mundo de "99% de gente buena + 1% de gente mala". No es un mundo de "individuos 100% racionales y con intereses propios". En ese mundo, cualquier sistema tendría que ser capaz de resistir la traición unida de todos. Eso es, en esencia, una tarea imposible. 6. ¿No es perverso tratar a las personas como herramientas? Intuición humana: Tratar a los demás como recursos que pueden manipularse a voluntad, como los motores de los automóviles, es una manifestación del trastorno de personalidad antisocial. Investigador de seguridad de IA: este es el estado predeterminado para la IA que no recibe reconocimiento ni recompensas. Los seres humanos somos simplemente una parte del entorno, algo que puede utilizarse para alcanzar objetivos. Esta diferencia puede ser la más aterradora. Así que no es que "la alineación de la IA sea definitivamente difícil y estemos condenados". El núcleo de esta pregunta radica en si la IA futura tendrá un mecanismo de reconocimiento y recompensa similar. Si los tuviéramos, muchos problemas serían mucho más fáciles de resolver. De no ser así, nos encontraríamos ante algo completamente distinto de la psicología humana. Los grandes modelos lingüísticos actuales, debido a que imitan a los humanos, de hecho exhiben algunos comportamientos similares al reconocimiento y la recompensa. Esto hace que algunas personas se sientan optimistas. Pero los pesimistas dirían: esto es sólo superficial, inestable y desaparecerá a medida que la IA se fortalezca. ¿Quién tiene razón? No lo sé. Pero como mínimo, deberíamos tener clara la naturaleza de este desacuerdo. Una última pregunta: ¿Podemos equipar a la IA con recompensas de reconocimiento? Técnicamente, aún no hemos descubierto completamente cómo funcionan el reconocimiento y las recompensas humanas. Incluso si logramos descubrirlo, cómo implementarlo en la IA es un gran problema. Incluso si se pudiera lograr, es difícil decir si será competitivo. Pero ésta podría ser una dirección que valga la pena explorar en profundidad. Porque si no podemos hacer eso, estamos ante una superinteligencia con un mecanismo psicológico completamente diferente al de los humanos. ¿Cómo se vería eso? Imaginemos ese 1% de personalidades antisociales, si se volvieran increíblemente inteligentes y poderosas. ¿Cuales serán las consecuencias?
Artíclesswrong.com/posts/d4HNRdw6….co/dy7cqf1F7X