Lo que importa (al menos para la programación) es cuán bueno es el modelo para personas que ya tienen experiencia en el uso de modelos similares para el desarrollo de software, y su opinión razonada después de probarlo durante varias horas en una variedad de tareas realistas del mundo real, no en problemas tontos y engañosos.
Y se necesita tiempo real y muchas pruebas independientes para ver realmente cuán consistente y autónomo es el modelo, cuánta capacidad de acción y “tenacidad y determinación” muestra (parte de esto también depende del marco del agente, por lo que Cursor versus Gemini-CLI), cuán confiable es con las herramientas.