Je suis vraiment intéressé par l'étude du COMMENT les modèles fonctionnent mieux dans leurs propres structures (ex : Claude dans CC). Pour les tâches, la présence d'outils importants est logique, mais je n'ai pas vu de métriques de déploiement précises pour mesurer cela. Des questions comme : - L'outil intégré de gestion des tâches/planification est-il fréquemment utilisé et, par conséquent, important pour la réussite des déploiements ? - Dans quelle mesure le modèle est-il sensible aux modifications des descriptions d'outils ? S'agit-il simplement de corrections d'invites ? Combien de temps faut-il à davantage d'utilisateurs d'apprentissage par renforcement pour bien maîtriser le nouvel outil ? - etc Les expériences sur différents échafaudages sont intéressantes ici, comme Kimi avec un harnais CC prêt à l'emploi → Kimi affiné avec un harnais CC
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.