X (Twitter)

RT @shao__meng : Bilan de fin d’année 2025 du LLM d’Andrej Karpathy : 6 « changements de paradigme » 1. RLVR : D’ici 2025, l’apprentissage par renforcement passera de la récompense vérifiable (RLVR) à la nouvelle norme pour l’entraînement des modèles de langage. En optimisant les récompenses sur une longue période dans des domaines objectifs tels que les mathématiques et la programmation, les modèles présenteront naturellement un « raisonnement » similaire à celui des humains.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil