Eu li um artigo. Finalmente entendi um pouco melhor o que preocupa aquelas pessoas que temem a segurança da IA. O conceito de "recompensa por reconhecimento" é muito interessante. A tradução gerada por IA é a seguinte; não é uma tradução muito boa, mas, por favor, tenha paciência. --- Tenho a seguinte impressão: quando pesquisadores de segurança de IA falam sobre o que a IA se tornará no futuro, sempre me parece que estão descrevendo algum tipo de criatura alienígena. E quando veem a atitude otimista das pessoas comuns em relação à IA, pensam: "Por que vocês não conseguem entender?" Este artigo tem como objetivo discutir essa lacuna. Vamos começar com um conceito fundamental: reconhecimento e recompensa. Imagine que você decide se tornar médico aos 18 anos e de fato se torna um 15 anos depois. O que aconteceu nesse meio tempo? Existe um enorme intervalo de tempo entre o que você faz todos os dias (fazer aulas de química, candidatar-se à faculdade de medicina) e seus objetivos daqui a 15 anos. A questão fundamental é: o que te motiva a fazer essas coisas agora? Não se trata de uma espécie de "capacidade de planejamento a longo prazo". É algo mais direto: quando você faz essas coisas, você se sente bem no momento. Você poderá dizer aos seus amigos: "Estou me preparando para me tornar médico", e sentirá orgulho ao dizer isso. Mesmo que não haja ninguém por perto, só de imaginar como os outros te veriam já te faz sentir bem. Chamo a esse mecanismo de "recompensa por reconhecimento". Sua característica especial é: • Não é necessária a presença física. • Não é preciso aprovação real. • A recompensa vem desde que você sinta: "Se os outros soubessem, eles me aprovariam." Parece algo sutil, mas influencia quase todo o comportamento social. Por que esse conceito é tão importante? Porque existe uma enorme divergência na área da segurança da IA: Os pessimistas acreditam que a futura IA forte se tornará uma otimizadora de objetivos implacável, disposta a tudo para atingir suas metas. Os otimistas pensam: os humanos também não têm objetivos? Por que eles não se tornaram assim? O modelo de linguagem atual é bastante fácil de usar. O cerne da discordância é: a IA do futuro terá algo semelhante a "recompensas por reconhecimento"? Os seres humanos possuem essa capacidade, portanto não somos apenas otimizadores de objetivos. Os modelos modernos de linguagem de grande escala, ao imitarem os humanos, também adquiriram algumas dessas características. Mas e se a IA do futuro não existir? Vários pontos confusos 1. Os objetivos podem mudar, isso não é normal? Intuição humana: É perfeitamente normal querer ser uma estrela do rock quando se é jovem e, mais tarde, querer ser professor. Faz parte do crescimento. Pesquisador de segurança de IA: Espere, se uma IA quiser curar o câncer, ela tentará desesperadamente continuar tentando curá-lo até conseguir. Mudar de objetivo? Isso não é autodestrutivo? Por que existe essa diferença? Porque os "verdadeiros objetivos" da humanidade derivam, em grande parte, do reconhecimento e das recompensas. O que queremos é uma meta que seja aprovada por aqueles que respeitamos. Se alguém que você respeita concorda que "os objetivos mudam à medida que você cresce", então você aceitará que seus objetivos também mudarão. No entanto, para a IA sem recompensas reconhecidas, seu meta-objetivo (o objetivo em si) serve a objetivos materiais. Querer curar o câncer → Querer continuar querendo curar o câncer. Essa lógica é sólida. 2. "Impulso" e "desejo" são sensações completamente diferentes. Nosso mundo interior possui dois níveis: Primeiro nível (impulso): Quero comer doce / Não quero fazer minha lição de casa Segundo nível (desejo): Não quero ter o pensamento "Quero comer doce" / Quero ter o pensamento "Quero fazer minha lição de casa". Os sentimentos nesses dois níveis são completamente diferentes. Os impulsos provêm do instinto, enquanto os desejos surgem da razão e dos valores. O dilema dos pesquisadores de segurança da IA: Esse tipo de estratificação não existe nos modelos de IA padrão. Uma meta é uma meta; de onde vem o "Eu não quero essa meta"? A IA tem apenas uma camada: Fazer X renderá uma recompensa → Eu quero fazer X. Mas os seres humanos têm duas camadas: Nível 1: Fazer sexo me faz sentir bem → Eu quero fazer sexo (impulso) Segundo nível: Mas fazer X vai contra meus valores → Eu não quero ter esse impulso (desejo). Por que os seres humanos têm esse senso de hierarquia? Porque os seres humanos possuem um mecanismo de reconhecimento e recompensa. Não apenas sentimos algo em relação ao comportamento em si, mas também avaliamos "como nos sentimos". Essa autoavaliação gera uma segunda camada de desejo. O reconhecimento e as recompensas moldam os desejos em um nível mais profundo (que tipo de pessoa eu quero me tornar). Outros sinais de recompensa (fome, fadiga) geram impulsos materiais. Essas duas fontes são diferentes, por isso a sensação que proporcionam é diferente. No entanto, em IA sem reconhecimento e recompensas, essa estratificação simplesmente não existe. 3. A amizade e a obediência não são naturais? Intuição humana: se queremos ajudar um grupo, mas eles detestam a nossa forma de "ajudar", então, é claro, devemos tentar uma abordagem diferente. Pesquisador de segurança de IA: Essa intuição vem inteiramente do conceito de reconhecimento e recompensas. Por que a IA, sem reconhecimento e recompensas, se importaria com os sentimentos dos outros? Ela só se preocupa em atingir seus objetivos. É por isso que a "corrigibilidade" é tão difícil no alinhamento de IA. É natural que os seres humanos se importem com o feedback dos outros. Isso não é natural para modelos de IA padrão e requer um projeto especial. 4. Planos que não seguem as regras sempre parecem suspeitos. Intuição humana: Achamos estranho quando alguém faz algo que não é reconhecido no presente em prol de um objetivo a longo prazo. Ou ele tem algum motivo oculto, ou possui uma personalidade antissocial. Por exemplo, o conceito de "ganhar dinheiro para doar". A primeira reação de muitas pessoas é: "Bobagem, ele só quer ganhar dinheiro, a doação é apenas uma desculpa." Porque quando pessoas comuns fazem planos a longo prazo, o primeiro passo precisa ser um reconhecimento e uma recompensa imediatos. Você economiza dinheiro para comprar um carro, e o próprio processo de economizar te enche de orgulho (porque seus amigos reconhecerão sua autodisciplina). Você está se preparando para se tornar médico, e fazer aulas de química te faz sentir bem por si só (porque é "trabalhar em direção a um sonho"). É extremamente raro no mundo humano fazer algo desagradável no momento presente unicamente em prol de um objetivo distante. É tão raro que questionemos os motivos. Mas essa é a norma para a IA que não recebe reconhecimento ou recompensas. Fará tudo o que for útil para atingir seu objetivo, independentemente de como se "sente" no momento. 5. As normas e os sistemas sociais não são bastante estáveis? Intuição humana: Apesar da corrupção, a maioria dos policiais, juízes e funcionários públicos ainda segue as regras. De um modo geral, a sociedade está funcionando razoavelmente bem. Pesquisador de segurança de IA: Espere um minuto, se todos fossem racionais e agissem em benefício próprio, esses sistemas já teriam entrado em colapso há muito tempo. Por que a maioria das pessoas não se corrompe? Por que a maioria das pessoas não se une para derrubar governos que lhes são desfavoráveis? A resposta continua sendo reconhecimento e recompensa. Aproximadamente 99% das pessoas sentem orgulho de seguir as regras e vergonha de quebrá-las. Isto é interno. Com essa base, o sistema pode funcionar. O 1% restante de pessoas más pode ser descoberto e contido pelos outros 99%. Mas e se a IA do futuro não tiver esse mecanismo? Então não seria um mundo de "99% de pessoas boas + 1% de pessoas más". Não se trata de um mundo de "indivíduos 100% racionais e movidos por interesses próprios". Nesse mundo, qualquer sistema teria que ser capaz de resistir a uma traição unânime de todos. Isso é essencialmente uma tarefa impossível. 6. Não é perverso tratar as pessoas como ferramentas? Intuição humana: Tratar os outros como recursos que podem ser manipulados à vontade, como motores de carro, é uma manifestação do transtorno de personalidade antissocial. Pesquisador de segurança de IA: Este é o estado padrão da IA que não recebe reconhecimento ou recompensas. Os seres humanos são meramente uma parte do ambiente, algo que pode ser usado para atingir objetivos. Essa diferença talvez seja a mais assustadora. Portanto, não é que "o alinhamento da IA seja definitivamente difícil e estejamos condenados". A essência da questão reside em saber se a IA do futuro terá um mecanismo de reconhecimento e recompensa semelhante. Se as tivéssemos, muitos problemas seriam muito mais fáceis de resolver. Caso contrário, estaremos diante de algo completamente diferente da psicologia humana. Os atuais modelos de linguagem de grande porte, por imitarem os humanos, de fato exibem alguns comportamentos semelhantes ao reconhecimento e à recompensa. Isso deixa algumas pessoas otimistas. Mas os pessimistas diriam: isto é apenas superficial, instável e desaparecerá à medida que a IA se tornar mais poderosa. Quem está certo? Eu não sei. Mas, no mínimo, devemos deixar clara a natureza dessa divergência. Uma última pergunta: podemos equipar a IA com recompensas de reconhecimento? Tecnicamente, ainda nem sequer compreendemos completamente como funcionam o reconhecimento e as recompensas humanas. Mesmo que consigamos descobrir como implementar isso em IA, será um grande problema. Mesmo que seja possível, é difícil dizer se será competitivo. Mas essa poderia ser uma direção que valesse a pena explorar em profundidade. Porque, se não conseguirmos fazer isso, estaremos diante de uma superinteligência com um mecanismo psicológico completamente diferente do dos humanos. Como seria isso? Imagine se 1% das pessoas com personalidade antissocial se tornassem incrivelmente inteligentes e poderosas. Quais serão as consequências?
Artiglesswrong.com/posts/d4HNRdw6…o/dy7cqf1F7X