J'ai pu tester Gemini 3 hier en accès anticipé. Quelques impressions : En général, je recommande la prudence avec les benchmarks publics, car il me semble qu'ils sont facilement manipulables. Tout repose sur la discipline et la maîtrise de soi de l'équipe (qui est par ailleurs fortement incitée à faire le contraire) afin d'éviter le surapprentissage des ensembles de test par des manipulations complexes de données adjacentes dans l'espace d'intégration des documents. En réalité, comme tout le monde le fait, la pression est forte. Allez discuter avec le modèle. Discutez avec les autres modèles (utilisez un modèle différent chaque jour). J'ai eu une première impression positive hier concernant la personnalité, l'écriture, le style de codage, l'humour, etc. Un modèle très prometteur pour une utilisation quotidienne, clairement un modèle de premier ordre. Bravo à l'équipe ! Au cours des prochains jours/semaines, je serai très curieux et attentif à un ensemble d'évaluations privées, que beaucoup de personnes/organisations semblent désormais mettre en place et dont elles rendent compte occasionnellement ici.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.