Oui, ce Neurips est l'équivalent du Neurips pour le RL et les modèles du monde. Il y a tellement de sessions et d'ateliers sur ces sujets, et c'est tout à fait justifié. Rich Sutton a également rappelé que notre approche de l'apprentissage par le réel pour les LLM (RLVR/GROO) n'est pas une leçon amère à avaler, et qu'elle peut seulement faire émerger des compétences existantes de manière plus fiable, mais pas davantage… Cela dit, le RL recèle encore de nombreuses opportunités faciles à saisir. Hier, j'ai rencontré les auteurs de ToolRL, DAPO. Il y a encore beaucoup de potentiel à exploiter…
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.