Un escalier de sigmoïdes Après avoir lu l'article de Dwarkesh qui m'avait beaucoup inquiété, j'ai approfondi une référence. Dans cet article, il mentionne : « Toby Ord a publié un excellent article où il établit intelligemment des liens entre différents graphiques de référence de la série O, suggérant qu’« il nous faut une augmentation d’environ 1 000 000 fois de la puissance de calcul totale du RL pour obtenir un gain similaire à celui d’un GPT ». » Cela laisse penser que les choses vont stagner. Toby va jusqu'à dire deux choses qui m'ont inquiété : 1. « Nous avons enregistré des gains impressionnants, mais ceux-ci n'étaient possibles qu'en partant d'un niveau très bas. Nous avons atteint le point où il est trop coûteux d'aller beaucoup plus loin. » 2. « Maintenant que l’entraînement par renforcement par apprentissage approche de ses limites, nous avons peut-être perdu la capacité de transformer efficacement plus de puissance de calcul en plus d’intelligence. » J'ai demandé autour de moi si cette affirmation était légitime et quels étaient les arguments contraires en faveur de l'extension du RL. Un bon ami m'a dit : « Oui, si vous continuez à augmenter naïvement la puissance de calcul du RL, cela ne fonctionnera pas correctement. Mais nous ne devrions pas faire cela ! C'est pourquoi il existe tant d'entreprises spécialisées dans les environnements RL. Une meilleure approche consiste à s'adapter à des environnements plus récents et plus complexes. » Après avoir un peu réfléchi, j'ai trouvé un moyen de condenser cela davantage : « L'imaginer comme un escalier dont les courbes représentent de nouvelles tâches, de nouveaux mondes, de nouveaux objectifs est la manière la plus utile de comprendre comment cela peut se poursuivre pendant un certain temps. »
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.