J'ai écrit un court article sur une expérience concernant la densité d'information des CoT et les CoT étranges (marinade, observateurs, mélange de langues), qui apporte des preuves que les LLM entraînés par RL ne s'efforcent pas tant que ça de compresser l'information dans chaque jeton. Je serais curieux de connaître vos avis. Lien ci-dessous.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.