J'aimerais avoir un signal plus net sur le signal 1 bit lors de l'attribution de récompenses scalaires ou de crédits avec grpo (j'ai l'intuition que c'est différent). Et certains travaux portent sur de nouvelles affirmations en matière d'apprentissage par renforcement sur des modèles qui ne sont pas qwen, car cela augmente avec les sanctions infligées pour les résultats positifs, même (Des réflexions sans rapport, maintenant que j'y pense)
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.