X (Twitter)

Pour faciliter le visionnage des vidéos, nous avons compilé une liste des termes liés à l'IA qui apparaissent dans les vidéos. Apprentissage par renforcement (RL) Imaginez que vous apprenez à un enfant à faire du vélo. Vous ne lui donneriez pas un « manuel de cyclisme standard », mais vous le laisseriez plutôt essayer par lui-même. S'il tombe, il a mal (punition), et s'il roule régulièrement, il est content (récompense). Il l'apprendra naturellement après quelques essais. C’est là le cœur de l’apprentissage par renforcement : apprendre de l’expérience, en fonction d’un objectif. Sutton (celui qui a remporté le prix Turing) estime que c'est là le véritable fondement de l'IA. L'agent effectue des actions, en constate les résultats, puis ajuste sa stratégie pour obtenir davantage de récompenses. C'est comme jouer à un jeu : on meurt et on recommence, en découvrant progressivement les stratégies. Modèles de langage à grande échelle (LLM) Gemini, ChatGPT et Claude suivent une logique différente. Leur tâche est simple : deviner le mot suivant. Donnez-lui une quantité massive de texte pour qu'il apprenne « c'est ainsi que les humains parlent habituellement ». Mais Sutton pensait que c'était une impasse. Pourquoi ? Car il ne s'agit que d'une imitation, sans véritable objectif, et sans tirer d'enseignements d'une véritable expérience. De la même manière que quelqu'un qui a mémorisé un tas de recettes ne sait pas forcément cuisiner. Modèle mondial On peut lancer une balle sans la lancer réellement ; on peut prédire mentalement où elle va atterrir. Voici le modèle du monde, votre compréhension des lois de la physique. Sutton a déclaré que les LLM n'ont pas cela. Ils ne peuvent prédire que « ce que les humains diront », mais pas « ce qui se passera dans le monde réel ». But Avoir un but, c'est ce qui rend quelque chose intelligent. Un système sans but est comme un perroquet qui ne fait que répéter ce que vous dites. En apprentissage par renforcement, l'objectif est transformé en un signal de récompense, indiquant au système que « faire cela est la bonne chose à faire ». Pour les écureuils, le but est de trouver des noisettes. Pour AlphaGo, l'objectif est de gagner la partie. Quels sont les objectifs des LLM ? Sutton estimait que « prédire le mot suivant » n'était pas un objectif substantiel. Données d'expérience vs. données d'entraînement L'expérience, c'est quand on fait quelque chose et qu'on en voit les conséquences. J'ai touché la bouilloire et je me suis brûlé. Je saurai ne plus la toucher. Les données d'entraînement, c'est ce que les autres vous disent : « La bouilloire sera chaude. » Vous vous en souveniez, mais vous ne l'avez pas vraiment vécu. Sutton a souligné que le véritable apprentissage doit provenir de l'expérience. Apprentissage par différence temporelle (apprentissage TD) Le chef-d'œuvre de Sutton. La question à laquelle il convient de répondre est la suivante : comment remonter des objectifs à long terme pour en déduire les actions à court terme ? Aux échecs, on ne sait pas si son coup est bon ou mauvais avant la toute fin. TD Learning permet au système de prédire si « cette action améliorera ou aggravera la situation » et d'adapter immédiatement sa stratégie. C'est comme corriger son itinéraire au fur et à mesure ; il n'est pas nécessaire d'attendre d'arriver à destination pour se rendre compte qu'on s'est trompé de chemin. Fonction de valeur Évaluez chaque situation : « Compte tenu de la situation actuelle, quelles sont les chances d'atteindre l'objectif ? » Le score a augmenté, ce qui signifie que l'étape précédente était correcte ; continuez à la renforcer. Le score a baissé, ce qui signifie que tu as fait une erreur. Ne recommence pas. Représentation de l'État La perception de « Où suis-je maintenant ? » Quand on entre dans une pièce, on peut instantanément dire si c'est une cuisine ou une chambre. L'IA doit également transformer les données des capteurs en « états » afin de pouvoir prendre des décisions. Modèle de transition Un modèle causal qui pose la question « Que se passerait-il si je faisais ceci ? » Vous savez qu'en poussant la porte, elle s'ouvrira, et qu'en appuyant sur l'interrupteur, la lumière s'allumera. Voici votre compréhension des lois physiques du monde. Sutton a déclaré que c'était la seule chose qu'il voulait qualifier de « modèle ». La leçon amère L'argument principal d'un article que Sutton a écrit en 2019 est le suivant : n'imposez pas le savoir humain à l'IA ; laissez-la apprendre par elle-même. L'histoire a prouvé à maintes reprises que les « méthodes ingénieuses » qui s'appuient sur les connaissances d'experts humains sont les plus efficaces. Au final, ils ont tous perdu face à la méthode de force brute consistant à « utiliser une puissance de calcul massive pour apprendre ». Les LLM semblent le confirmer (entraînés avec des quantités massives de données). Mais Sutton pense qu'ils deviendront finalement des contre-exemples car ils n'ont pas l'élément d'« apprentissage par l'expérience ». Le paradoxe de Moravec Ce que les humains trouvent facile, l'IA le trouve difficile. Ce que les humains trouvent difficile, l'IA le trouve facile. Laisser l'IA résoudre des problèmes mathématiques complexes, c'est du gâteau. Mais pourquoi ne pas lui apprendre à marcher et à saisir des objets comme un bébé ? Voyez les progrès réalisés par les robots aujourd’hui. Succession en IA La prédiction audacieuse de Sutton : l’intelligence numérique finira par remplacer l’humain comme force dominante. Il ne s'agit pas d'une révolte de robots comme dans les films de science-fiction, mais d'une conséquence inévitable de l'évolution. Tout comme les organismes unicellulaires ont évolué en organismes multicellulaires. Il est temps désormais que « l'intelligence conçue » prenne le relais de « l'intelligence naturellement évoluée ». Il a appelé cette période l'ère du design. Au lieu de nous appuyer sur la réplication génétique, nous concevons directement des agents intelligents et comprenons parfaitement leur fonctionnement. TD-Gammon Dans les années 1990, Jerry Tassarro a utilisé TD Learning pour entraîner une IA qui a joué au backgammon et a vaincu le champion du monde. C'est la première fois que l'apprentissage par renforcement fait ses preuves. AlphaGo / AlphaZero Vous avez certainement entendu parler de la victoire d'AlphaGo sur Lee Sedol. Mais AlphaZero est encore plus impressionnant : il apprend entièrement par lui-même, sans avoir besoin d'enregistrements de parties humaines, et finit par réaliser des coups que les humains n'ont jamais vus auparavant. Sutton a notamment mentionné qu'AlphaZero sacrifie des pièces pour obtenir des avantages positionnels, un style de « non-recherche de gains immédiats » que même les maîtres humains trouvent étonnant. MuZero Une autre œuvre de DeepMind. Il est intéressant de noter qu'il ne s'agit pas d'un « agent à usage général », mais plutôt d'un cadre d'entraînement ; à chaque fois, un agent spécifique doit être entraîné pour un jeu particulier. Cela reflète également les limites actuelles de l'IA : elle ne peut pas encore atteindre une véritable intelligence générale. Plusieurs figures clés Richard Sutton, le père de l'apprentissage par renforcement et lauréat du prix Turing, a inventé l'apprentissage TD et l'apprentissage par gradient de politique. John McCarthy définit l'intelligence comme « la partie computationnelle de la capacité à atteindre un objectif ». Alan Turing a dit un jour : « Nous voulons une machine capable d'apprendre de l'expérience. » Joseph Henrich étudie l'évolution culturelle, expliquant comment les humains transmettent des compétences complexes par l'imitation.

Fil de 向阳乔木 (@vista8)

Informations sur l'auteur

Contenu du fil