X (Twitter)

Primeras impresiones del Gemini 3 Pro usando @cline Comienza muy bien, pero su precisión disminuye drásticamente al superar los 100 000 tokens. En el tamaño de las bases de código con las que trabajo, esta es prácticamente la cantidad de tokens que se cargan una vez que se procesa la información necesaria para completar la tarea, por lo que se puede observar claramente que el modelo tiene dificultades para prestar atención a los detalles en prácticamente todas las tareas. Tras superar los 200.000 tokens, parece que se confunde y se detiene prematuramente con una acción de "Hecho", dejando tareas sin terminar que prácticamente requieren una reversión o que un nuevo agente tome el control y vuelva a intentarlo ($$$). Es útil para tareas pequeñas y puntuales, y quizás también para proyectos pequeños, pero para algo empresarial con rentabilidad mediante planes de pago por uso, me inclinaría por Claude Code o Codex. Hoy intenté probar @antigravity, pero tiene varios problemas con el seguimiento de cuotas y la migración a VSCode, así que tendré que esperar unos días y probarlo cuando se solucionen. Es posible que tengan un agente de codificación que aproveche mejor el contexto, de forma similar a como Codex optimiza GPT-5.1. En resumen: sigue siendo un lenguaje de bajo coste (LLM). Se observarán mejoras en proyectos pequeños y demos, pero cabe esperar las mismas limitaciones al ejecutar código a gran escala. En comparación con GPT-5.1 y Claude Sonnet 4.5 en bases de código más grandes, su rendimiento es similar o quizás ligeramente inferior en tareas de implementación de funcionalidades y refactorización.

Hilo de Damian Tran (@damianvtran)

Información del autor

Contenido del hilo