Si l'espace des jetons constituait un goulot d'étranglement informationnel pour les modèles linéaires à longue portée (LLM), on s'attendrait à ce que les modèles entraînés par renforcement (RL) apprennent à utiliser tous les jetons fréquemment. Or, à la lecture des résultats, ces résultats semblent plus restrictifs, utilisant un espace de jetons plus restreint que les modèles de base ou que la sortie du modèle.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.