Cela semble vraiment important : Il est tout à fait plausible qu'un modèle puisse obtenir l'or à l'IMO sans *aucun* apprentissage par renforcement, avec une consigne parfaitement conçue. Nous l'ignorons tout simplement, et nous manquons d'outils pour effectuer une recherche efficace dans l'espace des prompts. Heureux de voir qu'au moins quelqu'un essaie.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.