Joseph Suarez 🐡 (@jsuarez5341): Out of the box, no game-specific RL or tuning? No way. I'd be genuine…

Sans aucune configuration spécifique au jeu, ni apprentissage par renforcement ? Impossible. Je serais vraiment surpris. En termes d'interaction, c'est bien plus complexe que la conduite ou le contrôle de personnages humanoïdes. Et la plupart des résultats obtenus avec le LLM pour les jeux sont jusqu'à présent catastrophiques. Voyager pour Minecraft propose des actions comme « aller extraire du charbon » et de nombreux exemples de scripts publics. Il s'agirait d'une tâche d'apprentissage par renforcement entièrement nouvelle et indépendante. Il se trouve que les parties d'échecs sont enregistrées exactement au format texte souhaité pour les mémoires de maîtrise en droit (LLM). Et il en existe un grand nombre. Quand on n'a pas accès à une simulation, mais qu'on peut s'en servir ? Le RL sur des modèles réduits est redoutable. On trouve plusieurs exemples de performances surhumaines, obtenues en quelques secondes sur un seul GPU, sur https://t.co/wPfmdJfe1d. Et ce n'est pas qu'une question de jeux : la plupart des simulations sophistiquées que nous créons pour nos clients s'avèrent plus faciles à reproduire en RL que des jeux relativement simples. À mon avis, le meilleur résultat dans notre domaine reste OpenAI 5. Ils ont battu les meilleurs pros à Dota avec environ 1000 GPU. On pourrait probablement en faire autant avec 64 à 256 H100 aujourd'hui. Les CPU sont vraiment redoutables, mais c'est justement pour ça qu'on développe des simulations personnalisées et rapides pour les problèmes qui nous tiennent vraiment à cœur. On voit sans cesse l'apprentissage par renforcement proposer des solutions auxquelles je ne vois pas comment un modèle linéaire de neurones pourrait parvenir sans aucun exemple. L'interaction est fondamentale pour l'intelligence. Si l'on affine un modèle linéaire par renforcement (LLM) en jouant au jeu ? Oui, et ce sera plus efficace en termes d'échantillons qu'un entraînement à partir de zéro. Mais ce sera extrêmement gourmand en ressources de calcul. Nous avons de solides preuves que les lois d'échelle en renforcement tendent à privilégier des modèles beaucoup plus petits et beaucoup plus de données. C'est le pari que j'ai fait dans mes propres recherches, et jusqu'à présent, il s'avère payant. Et si vous vouliez vraiment utiliser Grok pour obtenir des résultats impressionnants en apprentissage par renforcement ? Je parie sur la possibilité de combler le fossé entre les modèles géants et les modèles miniatures. Effectuez la quasi-totalité (>>99,9 %) des actions pendant l'entraînement avec le petit modèle. Jouez à de nombreux jeux. Utilisez le grand modèle pour guider l'exploration, etc. Il existe déjà quelques résultats dans ce domaine, notamment en robotique et dans les jeux, mais rien de vraiment satisfaisant pour l'instant. Je ne travaille pas sur ce sujet car, à mon avis, l'apprentissage par renforcement avec de petits modèles a un potentiel bien plus important actuellement, avec une voie à suivre très claire, même à petite échelle.

Fil de Joseph Suarez 🐡 (@jsuarez5341)

Informations sur l'auteur

Contenu du fil