O que importa (pelo menos para programação) é a qualidade do modelo para pessoas que já são habilidosas no uso de modelos semelhantes para desenvolvimento de software, e a opinião fundamentada delas após testá-lo por várias horas em uma variedade de tarefas realistas e do mundo real, e não problemas tolos e enganosos.
E leva um bom tempo e muitos testes independentes para realmente ver o quão consistente e autônomo o modelo é, quanta capacidade de ação e "garra e determinação" ele demonstra (parte disso também depende da estrutura do agente, como Cursor versus Gemini-CLI), e o quão confiável ele é com as ferramentas.