X (Twitter)

Je relisais un vieux classique : Scaling Scaling Laws with Board Games (2021) par @andy_l_jones. Elle est à juste titre réputée pour sa capacité à anticiper la mise à l'échelle des inférences. Mais ce n'est même pas la découverte la plus intéressante de l'article ! Andy explore la relation entre trois éléments différents : la puissance de calcul pour l’entraînement, la puissance de calcul pour les tests et la complexité du problème. Et ses conclusions sur la complexité du problème (ou taille du plateau de jeu) sont les plus intéressantes. Par exemple, vous pourriez vous demander : comment le temps de calcul nécessaire pour passer d'un jeu aléatoire à un jeu parfait évolue-t-il lorsque la taille du plateau de jeu augmente ? Et il constate que cela fonctionne de la même manière ! Une augmentation d'un ordre de grandeur de la puissance de calcul vous rapporte 500 points Elo supplémentaires, quelle que soit la taille du plateau de jeu. C'est bizarre ! J'aurais pu raconter une histoire où plus le problème se complexifie, plus les progrès deviennent difficiles. Mais en fait, ce n'est pas le cas. Je n'ai pas vu de preuves publiques permettant de savoir si cette découverte se généralise à d'autres domaines, ou si elle est simplement un produit de l'espace de recherche de Hex (le jeu sur lequel Andy s'entraîne). Mais si cela se généralise, cela aura des implications considérables pour l'IA générale. Le monde est d'une complexité immense, bien plus grande que le Go ou les échecs. On pourrait donc penser qu'une IA de niveau humain, même dotée d'une puissance de calcul dix fois supérieure, resterait performante. Or, il faudrait sans doute une augmentation relative de la puissance de calcul similaire pour passer d'un niveau élémentaire à une intelligence artificielle de très haut niveau, comme celle qu'il a fallu à AlphaGo pour passer de 3 000 à 3 500 points Elo. (N'oubliez pas qu'une augmentation linéaire du score Elo correspond à une augmentation exponentielle de la probabilité de victoire.) Soyons clairs : je pense que nous sommes encore loin d'être des imbéciles. Mais une fois ce stade atteint, il suffira peut-être d'un ordre de grandeur de puissance de calcul supplémentaire pour atteindre l'ASI. --- Autres points intéressants à retenir : 1. Une intelligence supérieure se résume-t-elle à un plus grand nombre de stratégies ? Ou bien existe-t-il un élément central, unique et cohérent ? Dans Hex, il semblerait que ce soit la première option : « La performance évolue avec la puissance de calcul de telle sorte qu'un agent disposant de deux fois plus de puissance de calcul que son adversaire peut gagner environ deux fois sur trois. Ce comportement est étonnamment similaire à celui d'un modèle simplifié où chaque joueur choisit autant de nombres aléatoires que sa puissance de calcul le permet, et où le joueur obtenant le nombre le plus élevé gagne. Dans ce modèle, doubler sa puissance de calcul double le nombre de nombres aléatoires tirés, et la probabilité d'obtenir le nombre le plus élevé est de 2/3. Cela suggère que le jeu complexe d'Hex pourrait en réalité se résumer à ce que chaque agent dispose d'un « pool » de stratégies proportionnel à sa puissance de calcul, et que celui qui choisit la meilleure stratégie l'emporte. » 2. Je souhaite y réfléchir encore un peu : « Notre intuition nous laissait penser que le calcul lors des tests était bien moins coûteux que celui lors de l'entraînement, et nous avons donc été surpris de constater que l'un pouvait facilement se substituer à l'autre. Après réflexion, nous pensons toutefois que la principale différence réside dans le fait qu'une optimisation lors des tests ne nécessite qu'une seule optimisation sur un seul échantillon, tandis que le calcul lors de l'entraînement doit optimiser l'ensemble de la distribution des échantillons. » --- En tout cas, ça vaut vraiment la peine d'être lu jusqu'au bout. Lien ci-dessous.

arxiv.org/abs/2104.03113

Fil de Dwarkesh Patel (@dwarkesh_sp)

Informations sur l'auteur

Contenu du fil