X (Twitter)

Pourquoi le RL est-il si important ? Agent RFT, etc. L'histoire ci-dessous constitue une preuve irréfutable que votre modèle a besoin de voir les outils qu'il utilisera en production pendant sa phase d'apprentissage par renforcement après l'entraînement. L'Opus 4.5 avec Claude Code écrase CORE-Bench, tandis que les performances avec l'autre harnais ne sont pas remarquables. La seule différence réside dans le changement de harnais (et d'outils). L'équipe de Cursor a fait la même remarque à propos de l'entraînement avec Compose. Le modèle a amélioré sa capacité à utiliser les outils, notamment la recherche embarquée. Le RL va devenir une technique d'entraînement courante. @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai .

Fil de GDP at NeurIPS 2025 (@bookwormengr)

Informations sur l'auteur

Contenu du fil