J'ai lu un article. Je comprends enfin un peu mieux ce qui inquiète ces personnes qui craignent la sécurité de l'IA. Le concept de « récompense de reconnaissance » est tellement intéressant. Voici la traduction générée par l'IA ; ce n'est pas une très bonne traduction, mais veuillez faire avec. --- J'ai cette impression : quand les chercheurs en sécurité de l'IA parlent de ce que deviendra l'IA à l'avenir, on a toujours l'impression qu'ils décrivent une sorte de créature extraterrestre ? Et lorsqu'ils constatent l'attitude optimiste des gens ordinaires envers l'IA, ils se disent : « Pourquoi ne pouvez-vous pas comprendre ? » Cet article vise à combler cette lacune. Commençons par un concept fondamental : la reconnaissance et la récompense. Imaginez que vous décidiez de devenir médecin à 18 ans, et que vous le deveniez réellement 15 ans plus tard. Que s'est-il passé entre-temps ? Il existe un énorme décalage temporel entre ce que vous faites au quotidien (suivre des cours de chimie, postuler à une école de médecine) et vos objectifs dans 15 ans. La question essentielle est : qu'est-ce qui vous motive à faire ces choses en ce moment ? Il ne s'agit pas d'une quelconque "capacité de planification à long terme". C'est quelque chose de plus direct : lorsque vous faites ces choses, vous vous sentez bien sur le moment. Vous pourriez dire à vos amis : « Je me prépare à devenir médecin », et vous ressentirez une certaine fierté en le disant. Même si personne n'est là, le simple fait d'imaginer comment les autres vous perçoivent vous fait du bien. J'appelle ce mécanisme « récompense de reconnaissance ». Sa particularité est : • Aucune présence physique n'est requise. • Aucune approbation réelle n'est nécessaire. • La récompense vient dès lors que vous pensez : « Si les autres savaient, ils m'approuveraient. » Cela peut paraître subtil, mais cela influence presque tous les comportements sociaux. Pourquoi ce concept est-il si important ? Car il existe un énorme désaccord dans le domaine de la sécurité de l'IA : Les pessimistes pensent que la future intelligence artificielle forte deviendra un système d'optimisation des objectifs impitoyable, prêt à tout pour atteindre ses buts. Les optimistes se demandent : les humains n’ont-ils pas aussi des objectifs ? Pourquoi ne le sont-ils pas devenus ? Le modèle de langage actuel est plutôt convivial. Le cœur du désaccord est le suivant : l'IA du futur disposera-t-elle de quelque chose de similaire aux « récompenses de reconnaissance » ? Les humains possèdent cette capacité, nous ne sommes donc pas uniquement des optimisateurs d'objectifs. Les grands modèles de langage modernes, en imitant les humains, ont également acquis certaines de ces caractéristiques. Mais que se passera-t-il si l'IA du futur n'existe pas ? Plusieurs points confus 1. Les objectifs peuvent changer, n'est-ce pas normal ? Intuition humaine : il est tout à fait normal de vouloir être une rock star quand on est jeune, puis de vouloir devenir enseignant. Cela fait simplement partie du processus de maturation. Chercheur en sécurité IA : Attendez, si une IA veut guérir le cancer, elle essaiera désespérément de le guérir jusqu’à ce qu’il soit guéri. Changer d'objectif ? N'est-ce pas autodestructeur ? Pourquoi cette différence ? Car les « véritables objectifs » de l'humanité découlent en grande partie de la reconnaissance et des récompenses. Ce que nous voulons, c'est un objectif que ceux que nous respectons approuveront. Si une personne que vous respectez affirme que « les objectifs évoluent avec l'âge », alors vous accepterez que vos objectifs évoluent. Cependant, pour une IA sans récompenses reconnues, son méta-objectif (l'objectif lui-même) sert des objectifs matériels. Vouloir guérir le cancer → Vouloir continuer à vouloir guérir le cancer. Ce raisonnement est solide. 2. « Impulsion » et « désir » sont des sensations complètement différentes. Notre monde intérieur comporte deux niveaux : Premier niveau (impulsion) : J'ai envie de manger des bonbons / Je n'ai pas envie de faire mes devoirs Deuxième niveau (désir) : Je ne veux pas avoir la pensée « J'ai envie de manger des bonbons » / Je veux avoir la pensée « J'ai envie de faire mes devoirs ». Les sensations ressenties à ces deux niveaux sont complètement différentes. Les impulsions proviennent de l'instinct, tandis que les désirs découlent de la raison et des valeurs. Le dilemme des chercheurs en sécurité de l'IA : Ce type de superposition n'existe pas dans les modèles d'IA standard. Un objectif est un objectif ; d'où vient le « Je ne veux pas de cet objectif » ? L'IA ne comporte qu'une seule couche : Faire X permettra d'obtenir une récompense → Je veux faire X. Mais les humains ont deux couches : Niveau 1 : Avoir des relations sexuelles me fait du bien → J’ai envie de faire l’amour (impulsion) Deuxième couche : Mais faire X va à l'encontre de mes valeurs → Je ne veux pas avoir cette impulsion (ce désir). Pourquoi les humains ont-ils ce sens de la hiérarchie ? Parce que les humains possèdent un mécanisme de reconnaissance et de récompense. Nous ne nous contentons pas de ressentir le comportement lui-même, nous évaluons également « ce que nous ressentons ». Cette auto-évaluation génère une seconde couche de désir. La reconnaissance et les récompenses façonnent les désirs à un niveau méta (le genre de personne que je veux devenir). D'autres signaux de récompense (faim, fatigue) génèrent des impulsions matérielles. Ces deux sources sont différentes, donc elles donnent une impression différente. Cependant, dans une IA sans reconnaissance ni récompenses, cette stratification n'existe tout simplement pas. 3. L'amabilité et l'obéissance ne sont-elles pas naturelles ? Intuition humaine : Si nous voulons aider un groupe, mais que celui-ci déteste notre façon de « l’aider », alors bien sûr, nous devrions essayer une approche différente. Chercheur en sécurité IA : Cette intuition repose entièrement sur le concept de reconnaissance et de récompenses. Pourquoi une IA, sans reconnaissance ni récompenses, se soucierait-elle des sentiments d’autrui ? Elle ne se soucie que d'atteindre ses objectifs. C’est pourquoi la « correctibilité » est si difficile à appréhender dans l’alignement de l’IA. Il est naturel pour les humains de se soucier des commentaires des autres. Ceci est inhabituel pour les modèles d'IA standard et nécessite une conception spéciale. 4. Les plans qui ne respectent pas les règles paraissent toujours suspects. Intuition humaine : Nous trouvons étrange que quelqu'un fasse quelque chose qui n'est pas reconnu dans le présent, dans le but d'atteindre un objectif à long terme. Soit il a un mobile caché, soit il a une personnalité antisociale. Par exemple, le concept de « gagner de l'argent pour en faire don ». La première réaction de beaucoup de gens est : « N'importe quoi, il veut juste se faire de l'argent, le don n'est qu'un prétexte. » Car lorsque des gens normaux font des projets à long terme, la première étape doit être une reconnaissance et une récompense immédiates. Vous économisez de l'argent pour acheter une voiture, et le fait d'économiser de l'argent en soi vous rend fier (car vos amis reconnaîtront votre autodiscipline). Vous vous préparez à devenir médecin, et suivre des cours de chimie vous fait du bien en soi (parce que cela vous permet de « travailler à la réalisation d'un rêve »). Il est extrêmement rare, dans le monde des humains, de faire quelque chose de désagréable sur le moment uniquement pour atteindre un objectif lointain. C'est tellement rare que nous nous interrogeons sur les motivations. Mais c'est la norme pour les IA qui ne reçoivent ni reconnaissance ni récompenses. Elle fera tout ce qui est utile pour atteindre son objectif, indépendamment de ce qu'elle « ressent » sur le moment. 5. Les normes et les systèmes sociaux ne sont-ils pas plutôt stables ? Intuition humaine : malgré la corruption, la plupart des policiers, des juges et des fonctionnaires respectent encore les règles. La société fonctionne globalement assez bien. Chercheur en sécurité IA : Attendez une minute, si tout le monde était rationnel et soucieux de son propre intérêt, ces systèmes se seraient effondrés depuis longtemps. Pourquoi la plupart des gens ne deviennent-ils pas corrompus ? Pourquoi la plupart des gens ne s'unissent-ils pas pour renverser les règles qui leur sont défavorables ? La réponse reste la reconnaissance et la récompense. Environ 99 % des gens sont fiers de respecter les règles et honteux de les enfreindre. Ceci est interne. Avec ces bases, le système peut fonctionner. Les 1 % de personnes mal intentionnées restantes peuvent être découvertes et maîtrisées par les 99 % restants. Mais que se passera-t-il si l'IA du futur ne possède pas ce mécanisme ? Alors ce ne serait pas un monde composé de « 99 % de bonnes personnes et 1 % de mauvaises personnes ». Ce n'est pas un monde d'« individus 100% rationnels et guidés par leur seul intérêt personnel ». Dans un tel monde, tout système devrait pouvoir résister à une trahison unanime de tous. C'est une tâche fondamentalement impossible. 6. N'est-il pas pervers de traiter les gens comme des outils ? L'intuition humaine : considérer les autres comme des ressources que l'on peut manipuler à volonté, comme des moteurs de voiture, est une manifestation du trouble de la personnalité antisociale. Chercheur en sécurité IA : C’est l’état par défaut d’une IA qui ne reçoit ni reconnaissance ni récompense. L'être humain n'est qu'un élément de l'environnement, quelque chose qui peut être utilisé pour atteindre des objectifs. Cette différence est peut-être la plus terrifiante. Il ne s'agit donc pas de dire que « l'alignement de l'IA est forcément difficile et que nous sommes condamnés ». L'essentiel de cette question réside dans la possibilité que les futures IA disposent d'un mécanisme de reconnaissance et de récompense similaire. Si nous les avions, de nombreux problèmes seraient beaucoup plus faciles à résoudre. Sinon, nous sommes confrontés à quelque chose de complètement différent de la psychologie humaine. Les grands modèles de langage actuels, parce qu'ils imitent les humains, présentent effectivement certains comportements similaires à la reconnaissance et à la récompense. Cela rend certaines personnes optimistes. Mais les pessimistes diraient : ce n'est que superficiel, instable et cela disparaîtra à mesure que l'IA deviendra plus forte. Qui a raison ? Je ne sais pas. Mais à tout le moins, nous devrions être clairs sur la nature de ce désaccord. Une dernière question : peut-on doter l’IA d’un système de récompenses pour la reconnaissance ? Techniquement parlant, nous n'avons même pas encore totalement compris comment fonctionnent la reconnaissance et les récompenses chez l'humain. Même si nous parvenons à trouver la solution, son implémentation dans l'IA représente un problème majeur. Même si cela est possible, il est difficile de dire si ce sera compétitif. Mais il pourrait être intéressant d'explorer cette piste plus en profondeur. Car si nous ne pouvons pas faire cela, nous serons confrontés à une superintelligence dotée d'un mécanisme psychologique totalement différent de celui des humains. À quoi cela ressemblerait-il ? Imaginez si 1 % des personnalités antisociales devenaient incroyablement intelligentes et puissantes. Quelles en seront les conséquences ?
Articlesswrong.com/posts/d4HNRdw6….co/dy7cqf1F7X