J'ai pu tester Gemini 3 hier en accès anticipé. Quelques impressions : En général, je recommande la prudence avec les benchmarks publics, car il me semble qu'ils sont facilement manipulables. Tout repose sur la discipline et la maîtrise de soi de l'équipe (qui est par ailleurs fortement incitée à faire le contraire) afin d'éviter le surapprentissage des ensembles de test par des manipulations complexes de données adjacentes dans l'espace d'intégration des documents. En réalité, comme tout le monde le fait, la pression est forte. Allez discuter avec le modèle. Discutez avec les autres modèles (utilisez un modèle différent chaque jour). J'ai eu une première impression positive hier concernant la personnalité, l'écriture, le style de codage, l'humour, etc. Un modèle très prometteur pour une utilisation quotidienne, clairement un modèle de premier ordre. Bravo à l'équipe ! Au cours des prochains jours/semaines, je serai très curieux et attentif à un ensemble d'évaluations privées, que beaucoup de personnes/organisations semblent désormais mettre en place et dont elles rendent compte occasionnellement ici.
Mon interaction la plus amusante s'est produite lorsque le modèle (je crois qu'on m'avait donné une version antérieure avec un système d'invite obsolète) refusait de me croire quand je disais qu'on était en 2025 et inventait sans cesse des raisons pour lesquelles j'essayais de le tromper ou de lui faire une blague élaborée. Je lui ai beau lui fournir des images et des articles du « futur », il persistait à affirmer que tout était faux. Il m'a accusé d'utiliser une IA générative pour contourner ses défis et a argumenté sur la génération automatique des véritables articles Wikipédia et sur les indices flagrants. Il a souligné des détails infimes dans les résultats de recherche d'images Google, expliquant pourquoi les vignettes étaient générées par une IA. J'ai alors réalisé plus tard que j'avais oublié d'activer l'outil « Recherche Google ». Une fois activé, le modèle a exploré Internet et a eu la stupéfaction de constater que j'avais dû avoir raison depuis le début :D. C'est dans ces moments inattendus, où l'on se retrouve clairement hors des sentiers battus et perdu dans la jungle des généralisations, que l'on perçoit le mieux le fonctionnement interne d'un modèle.
