C'est une excellente question à méditer, qui fait suite à d'autres questions de recherche intéressantes : 1. Existe-t-il un plafond d'apprentissage en contexte ? 2. L'apprentissage par renforcement est-il le moyen de briser ce plafond de verre ? 3. Quelle quantité de connaissances est déjà contenue dans les poids que nous ne savons pas comment extraire de manière fiable ? L'optimisation textuelle fonctionne assurément dans une certaine mesure. Par exemple, le flux suivant : Harnais d'agent → Évaluation → Traces minières → Amélioration du harnais De nombreuses expériences intéressantes à mener sur l'efficacité de l'échantillonnage, le coût par calcul et la comparaison de l'optimisation basée sur le texte et celle basée sur l'apprentissage par renforcement. Autre chose : après le RL, dans quelle mesure allons-nous encore modifier votre système, ce qui vous ramène à une optimisation basée sur le texte ?
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
