Le LLM est-il mort ? Le parrain de l’apprentissage par renforcement estime que les grands modèles de langage sont une impasse. L'auteur de cette déclaration scandaleuse est Richard Sutton, l'un des fondateurs de l'apprentissage par renforcement. Son point de vue est simple : le LLM n’est pas une intelligence artificielle fondamentale ; il s’agit simplement d’une tendance dans le domaine de l’IA. Le véritable fondement de l'IA devrait être l'apprentissage par renforcement. Ses opinions sont radicales, mais les raisons qu'il avance méritent d'être prises en compte. Le premier problème fatal : « l’intelligence » sans but. Sutton a posé la question suivante : peut-on parler d'intelligence pour quelque chose qui n'a pas de but ? Il a cité la définition de John McCarthy, affirmant que l'essence de l'intelligence réside dans « la capacité de calcul nécessaire pour atteindre un objectif ». Selon cette norme, quels problèmes existent avec le LLM ? Le prétendu « objectif » du LLM est simplement de prédire le mot suivant. Vous lui fournissez un texte, et il vous indique quels mots sont les plus susceptibles d'apparaître ensuite. Mais est-ce considéré comme un objectif ? Sutton l'a dit sans détour : les jetons vous parviennent d'eux-mêmes. Vous pouvez les prédire, mais vous n'avez aucune influence sur eux. Il ne s'agit pas d'objectifs dans le monde extérieur ; c'est juste un jeu de mots. Sans objectif, il n'y a pas de définition de « correct ». Qu’est-ce qui constitue la bonne chose à faire ? En matière d'apprentissage par renforcement, la réponse est claire : les choses qui vous apportent des récompenses. Mais qu'en est-il du LLM ? Même dans ce domaine, il existe des critères flous pour distinguer le bien du mal. Le deuxième défaut majeur : l’absence d’un modèle du monde réaliste. En quoi le LLM est-il performant ? À imiter les humains. Il peut imiter la façon dont les gens parlent, écrivent et même pensent. Mais Sutton a déclaré : Imiter le langage ne signifie pas comprendre le monde. Le LLM peut prédire ce qu'une personne va dire, mais il ne peut pas prédire ce qui va se passer. Cette distinction est cruciale. Un véritable modèle du monde devrait vous permettre de prédire les conséquences de vos actions. Par exemple, si je fais tomber la tasse de la table, elle tombera par terre et se brisera. Il s'agit d'une compréhension du monde physique. Mais qu'en est-il du LLM ? Il ne connaît que « les gens disent généralement que la coupe va se briser », ce qui est deux choses différentes. Plus important encore, les titulaires d'un LLM n'apprennent pas des accidents. Supposons que vous prévoyiez qu'un événement A se produira, mais que ce soit B qui se produise à la place. Un système qui comprend véritablement le monde dira : « Oh, je me suis trompé, je dois ajuster mon modèle. » Mais LLM ne le fera pas. Il n'intègre pas la notion d'« accident » car le modèle ne prédit jamais le monde réel ; il prédit simplement ce que les gens diront dans les données d'entraînement. Le résumé de Sutton est pertinent : le LLM apprend à partir de données d’entraînement, et non de l’expérience. Qu'est-ce que l'expérience ? C'est faire quelque chose et voir ensuite ce qui se passe réellement. Ce type d'interaction directe est la véritable source d'apprentissage. Le troisième paradoxe : le piège de la scalabilité Sutton a écrit un article célèbre intitulé « La leçon amère ». Idée centrale : L'histoire a démontré à maintes reprises que les méthodes qui reposent sur la connaissance humaine finiront par être vaincues par les méthodes qui reposent uniquement sur le calcul et l'apprentissage. Beaucoup pensent que le LLM est le dernier exemple en date de cette leçon. Voyez-vous, les modèles entraînés avec des quantités massives de données et une puissance de calcul considérable ne surpassent-ils pas les systèmes de règles traditionnels ? Mais Sutton a déclaré : Attendez de voir, le LLM finira par devenir l'inverse de cette leçon. Pourquoi ? Parce que le LLM, par essence, repose toujours sur le savoir humain. Il apprend des écrits, des paroles et des actions humaines. Ce sont là les fruits de la connaissance humaine. Sutton estime que l'approche véritablement évolutive est... Le système lui-même essaie et observe ce qui fonctionne et ce qui ne fonctionne pas. Elle n'a besoin de personne pour lui dire ce qui est juste ou faux ; elle apprend par elle-même grâce à son interaction avec le monde. C’est le principe fondamental de l’apprentissage par renforcement : l’agent a un objectif, l’agent agit, l’agent observe les résultats et l’agent ajuste sa stratégie. Ce cycle peut se poursuivre indéfiniment, en évoluant constamment. Et qu'en est-il du LLM ? L'apprentissage s'arrête dès la fin de la formation. Il ne peut pas continuer à apprendre dans le monde réel car il ne sait tout simplement pas comment interagir avec ce monde. LLM est comme un maître de l'imitation linguistique. Il peut parfaitement mémoriser tous les textes et dialogues humains ; quelle que soit votre question, il peut vous donner une réponse apparemment plausible. Mais que lui manque-t-il ? Il lui manque la capacité d'agir. Il ne sait pas ce qu'il veut (il n'a pas de but). J'ignore quelles seraient les conséquences de tels propos dans le monde réel (je n'ai pas de modèle du monde). C'est juste une machine à enchaîner les mots extrêmement complexe. À quoi devrait ressembler la véritable intelligence ? Il devrait s'agir d'une entité dotée de ses propres objectifs, capable d'interagir avec le monde, d'apprendre de chaque interaction et d'ajuster constamment ses stratégies pour mieux atteindre ses objectifs. C’est ce que Sutton considère comme « l’IA de base ». Les opinions de Sutton ne sont peut-être pas entièrement correctes, mais les questions qu'il a soulevées méritent d'être prises en compte. Les LLM ne «mourront» peut-être pas, car ils resteront précieux dans de nombreux cas d'utilisation. Mais si notre objectif est de parvenir à une véritable intelligence artificielle générale (IAG). L'avertissement de Sutton mérite d'être pris au sérieux : Savoir parler ne signifie pas savoir penser. Savoir imiter ne signifie pas savoir apprendre. La véritable intelligence peut nécessiter des objectifs, des actions et une interaction réelle avec le monde. Nous ne faisons que commencer notre voyage sur cette voie. --- Le texte ci-dessus a été généré par une IA, puis édité et mis en forme manuellement. Voir la vidéo dans la section commentaires.
Si vous lisez fréquemment des interprétations d'youtube.com/watch?v=21EYKq… entendrez souvent parler de l'article « Une leçon amère ». Le vieil homme en chemise à fleurs avait une langue bien pendue. https://t.co/QfaCNFRCVO