No hagas caso a los pesimistas, Gemini 3 es excepcionalmente bueno en todo tipo de tareas de programación. Desde interfaces de usuario para aplicaciones web, desarrollo de iOS en Swift, código backend en Python, hasta cualquier cosa relacionada con IA/ML, etc. Es realmente potente y se desenvuelve muy bien siguiendo reglas y utilizando herramientas.
Parece que cada vez que se lanza un modelo importante de Frontier, un montón de gente que busca notoriedad habla de lo decepcionante que es y de cómo no les sirvió para su tarea favorita. Normalmente, resulta que no supieron dar indicaciones o que su tarea es absurda y no tiene ninguna relevancia en la vida real.
Existen algunas excepciones, como Llama4, que obviamente era horrible para cualquiera que lo probara durante 3 minutos. Pero lo mismo se decía de GPT-5, y era ridículamente erróneo. Es como en la bolsa: la gente consigue más atención por ser escéptica y llevar la contraria. La negatividad vende.
Lo que importa (al menos para la programación) es cuán bueno es el modelo para personas que ya tienen experiencia en el uso de modelos similares para el desarrollo de software, y su opinión razonada después de probarlo durante varias horas en una variedad de tareas realistas del mundo real, no en problemas tontos y engañosos.
Y se necesita tiempo real y muchas pruebas independientes para ver realmente cuán consistente y autónomo es el modelo, cuánta capacidad de acción y “tenacidad y determinación” muestra (parte de esto también depende del marco del agente, por lo que Cursor versus Gemini-CLI), cuán confiable es con las herramientas.