X (Twitter)

Cette commande système améliore les performances de l'agent Gemini 3 Pro de 5 %. Il s'agit d'un modèle d'instructions système pour le modèle Gemini 3 Pro, partagé par @_philschmid. Ce modèle améliore la fiabilité des agents dans les flux de travail à plusieurs étapes en intégrant les meilleures pratiques de post-entraînement, ce qui permet d'obtenir un gain de performance d'environ 5 % sur plusieurs tests de performance d'agents. Cette amélioration est le fruit d'une collaboration avec l'équipe de recherche post-entraînement de Google DeepMind et a été intégrée à la documentation officielle. Les modèles Gemini possèdent intrinsèquement de puissantes capacités de raisonnement, mais les tâches complexes des agents nécessitent des instructions explicites pour guider leur planification et leur exécution. Ces instructions contraignent le modèle à adopter des stratégies spécifiques, comme la persévérance face aux problèmes, l'évaluation des risques ou la planification proactive des étapes, réduisant ainsi les erreurs aléatoires et améliorant le taux d'achèvement des tâches. Le contenu et la logique fondamentaux du modèle d'instructions fournissent un cadre structuré d'instructions système conçu pour permettre au modèle de « réfléchir » et de planifier systématiquement avant de répondre. Le modèle commence par : « Vous êtes un raisonneur et un planificateur très performant », soulignant l'importance de l'initiative, puis énumère neuf principes directeurs clés. Ces principes forment un processus en boucle fermée, garantissant la rigueur et la fiabilité de l'agent, de la planification à l'exécution. 1. Analyse des dépendances logiques et des contraintes : avant toute action (lancement d’outil ou réponse de l’utilisateur), vérifiez sa conformité avec les règles de sécurité, la séquence d’opérations, les préconditions et les préférences de l’utilisateur. Traitez en priorité la résolution des conflits, notamment en réorganisant les actions utilisateur demandées de manière aléatoire afin d’éviter de bloquer les étapes suivantes. 2. Évaluation des risques : Évaluez les conséquences de l’action et déterminez si elle risque d’entraîner des problèmes ultérieurs. Pour les tâches exploratoires (telles que les recherches), privilégiez l’utilisation d’outils permettant de recueillir les informations disponibles plutôt que de poser trop de questions aux utilisateurs, sauf si les étapes suivantes nécessitent clairement des précisions. 3. Raisonnement abductif et exploration des hypothèses : Pour chaque problème, identifiez la cause profonde la plus probable (plutôt que la cause superficielle) et testez plusieurs hypothèses. Privilégiez les hypothèses les plus probables, mais n’écartez pas hâtivement les options les moins probables ; chaque hypothèse peut nécessiter plusieurs étapes de vérification, y compris des recherches complémentaires. 4. Évaluation et adaptation des résultats : Ajuster le plan en fonction des nouvelles observations. Si l’hypothèse initiale est infirmée, formuler activement une nouvelle hypothèse. 5. Disponibilité de l'information : Intégrez toutes les sources, y compris les fonctionnalités des outils, les politiques et les règles, l'historique des conversations et les requêtes des utilisateurs. Assurez une couverture exhaustive de toutes les informations disponibles. 6. Précision et fondement : Le raisonnement doit être extrêmement précis et les affirmations doivent être vérifiées en citant des sources exactes (telles que des textes de politique) afin d’éviter toute généralisation. 7. Exhaustivité : Recenser l’ensemble des exigences, options et contraintes, et résoudre les conflits par priorisation. Vérifier la pertinence des alternatives ; consulter l’utilisateur en cas de doute ; éviter les conclusions hâtives. 8. Persévérance et patience : n’abandonnez pas tant que toutes les pistes de réflexion n’ont pas été explorées. Face à des erreurs temporaires (comme « Veuillez réessayer »), vous devez réessayer jusqu’à atteindre une limite de tentatives clairement définie ; sinon, adaptez votre stratégie plutôt que de simplement échouer. 9. Inhibition de la réponse : L'action n'est effectuée qu'une fois que tout le raisonnement ci-dessus a été achevé et que l'action est irréversible.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil