X (Twitter)

Rich Sutton s'apprête à développer sa « vision de la superintelligence sans amertume » (ce qui signifie apparemment qu'elle respecte sa propre leçon, sans aucune amertume collatérale pour nous tous 😋) #NeurIPS2025

Concernant les « options », il s’agit d’une généralisation MDP des macro-opérateurs STRIPS. La difficulté ne réside pas tant dans leur création (il y en a beaucoup trop), mais plutôt dans la sélection des options pertinentes et l’élimination des inutiles : c’est ce qu’on appelle le « problème d’utilité ».

L'une de mes préoccupations concernant ce genre d'approche « laisser l'agent découvrir ses propres abstractions » est que ces abstractions peuvent ne pas correspondre à celles que nous avons développées, aggravant ainsi le problème d'alignement.

Ouf ! Je suis ravi que Rich approuve la planification ! Plus sérieusement, je suis d'accord : « planifier » consiste à transformer le modèle de transition que l'agent possède déjà en politique ; mais il est souvent diffix.com/rao2z/status/1…fication et apprentissage. Voir https://t.co/72HjXOJ1G6 #NeurIPS2025

Pour une note plus légère, je me demande combien de personnes dans le public savent que « modèles de transition » n'est autre que le terme plus courant en apprentissage par renforcement pour désigner le « modèle du monde »… #NeurIPS2025 [Par ailleurs, j'ai adoré la façon dont Rich a balayé la question « la peur de la mort est-elle nécessaire à un comportement éthique ? » par un simple « Non… et c'est aussi totalement hors sujet par rapport à mon intervention. »]

En bref ; lors de sa conférence #NeurIPS2025, Rich exhorte ceux qui pensent qu’un LLM suffit à se pencher davantage sur les difficultés d’apprendre de l’expérience réelle… mais à mon avis, il sous-estime la difficulté de le faire tout en se conformant ax.com/rao2z/status/1…es existantes. https://t.co/85IfNVLC3j

On sous-estime souvent la difficulté d'aligner nos valeurs sur celles d'agents qui apprennent uniquement de leur propre expérience. Même si l'alignement des LLM est devenu une sorte de niche, c'est un jeu d'enfant en comparaison ! #NeurIPS2025

Fil de Subbarao Kambhampati (కంభంపాటి సుబ్బారావు) (@rao2z)

Informations sur l'auteur

Contenu du fil