Je souhaite approfondir ma compréhension des mécanismes d'apprentissage qui sous-tendent des IA comme ChatGPT et Claude, et plus particulièrement des principes qui expliquent comment elles deviennent de plus en plus intelligentes grâce aux retours humains. Vous pouvez suivre le cours « Apprentissage par renforcement pour les grands modèles de langage » dispensé par Ernest K. Ryu, professeur au département de mathématiques de l'Université de Californie. Les présentations PowerPoint et les vidéos qui l'accompagnent sont disponibles gratuitement. Le cours commence par les principes fondamentaux de l'apprentissage par renforcement profond, en abordant progressivement l'architecture Transformer et la technologie LLM moderne, pour finalement se concentrer sur des méthodes d'entraînement de pointe telles que le RLHF (apprentissage par renforcement avec retour d'information humain), en expliquant systématiquement comment rendre les modèles d'IA plus intelligents et plus en phase avec les préférences humaines. Lien du cours : https://t.co/hKwoSkITJG Contenu principal : - Principes fondamentaux de l'apprentissage par renforcement profond : théorie MDP, méthodes de gradient de politique (A3C, PPO) et autres algorithmes de base ; - Architecture de modèles de langage étendus : du RNN au Transformer, couvrant les modèles classiques tels que BERT et GPT ; - Formation LLM en apprentissage par renforcement : une explication détaillée des techniques telles que RLHF et DPO qui permettent aux modèles de suivre les instructions humaines ; - Principes d'AlphaGo et itération experte : apprendre à améliorer la capacité de raisonnement du modèle. Ce cours exige des participants une certaine connaissance de base en apprentissage profond. Il propose des tutoriels vidéo et des exemples de code Jupyter exécutables directement, alliant théorie et pratique.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
