Excusez-moi si la question est bête, mais est-ce que Labs effectue également un apprentissage par renforcement sur un modèle à partir de résumés/compactages natifs ? Par exemple, au lieu de faire une seule passe d'inférence avec beaucoup de jetons de réflexion avant la réponse, nous effectuons en fait plusieurs passes d'inférence où la suivante peut avoir accès à un résumé généré par la précédente ? Donc au lieu de « réfléchir réfléchir réfléchir → répondre », ça donne « réfléchir réfléchir réfléchir → résumer → réfléchir réfléchir réfléchir → résumer → réfléchir réfléchir réfléchir → répondre », et ensuite on fait un RL là-dessus ? Je veux dire que c'est *vraiment* comme ça que les humains résolvent les problèmes : on ne garde pas tout le raisonnement en tête, on a des intuitions, des moments d'illumination qui nous permettent d'éliminer le superflu et de construire progressivement des modèles mentaux du problème (des résumés) de plus en plus précis avant de le résoudre.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.