RT @shao__meng : Bilan de fin d’année 2025 du LLM d’Andrej Karpathy : 6 « changements de paradigme » 1. RLVR : D’ici 2025, l’apprentissage par renforcement passera de la récompense vérifiable (RLVR) à la nouvelle norme pour l’entraînement des modèles de langage. En optimisant les récompenses sur une longue période dans des domaines objectifs tels que les mathématiques et la programmation, les modèles présenteront naturellement un « raisonnement » similaire à celui des humains.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.