Ce qui compte (du moins pour la programmation), c'est la qualité du modèle pour les personnes déjà compétentes dans l'utilisation de modèles similaires pour le développement logiciel, et leur avis raisonné après l'avoir essayé pendant plusieurs heures sur diverses tâches réalistes et concrètes, et non sur des problèmes pièges stupides.
Et il faut du temps et de nombreux essais indépendants pour vraiment voir à quel point le modèle est cohérent et autonome, à quel point il est capable d'agir et de « ténacité et de détermination » (une partie de cela dépend aussi du harnais de l'agent, donc Cursor par rapport à Gemini-CLI), et à quel point il est fiable avec les outils.