X (Twitter)

Primeiras impressões do Gemini 3 Pro usando @cline Começa muito bem, mas a precisão cai rapidamente após 100 mil tokens. No tamanho das bases de código com que trabalho, esse é praticamente o número de tokens carregados após a leitura do necessário para concluir a tarefa, então é possível perceber claramente a dificuldade do modelo em prestar atenção aos detalhes em praticamente todas as tarefas. Após 200 mil tokens, parece que o sistema se confunde e encerra prematuramente com uma ação "Concluído", deixando tarefas inacabadas que praticamente exigem um rollback ou a troca de um agente para tentar novamente (custo elevado). É bom para tarefas pontuais e talvez ofereça uma boa assistência em projetos pequenos, mas eu ainda recomendaria o Claude Code ou o Codex para projetos corporativos com custo-benefício através de planos ilimitados. Tentei testar o @antigravity hoje, mas ele está com vários problemas relacionados ao controle de cotas e à migração para o VSCode, então terei que esperar alguns dias e testá-lo quando tudo estiver resolvido. Possivelmente, eles têm um agente de codificação que utiliza melhor o contexto, de forma semelhante a como o Codex aproveita o GPT-5.1 de maneira mais otimizada. Em resumo: ainda é uma ferramenta de aprendizado de máquina de baixo nível (LLM, na sigla em inglês). Você verá melhorias em projetos pequenos e demonstrações, mas espere as mesmas limitações em código de grande escala. Comparado ao GPT-5.1 e ao Claude Sonnet 4.5 em bases de código maiores, o desempenho é semelhante ou talvez um pouco inferior, considerando a implementação de recursos e tarefas de refatoração.

Thread de Damian Tran (@damianvtran)

Informações do autor

Conteúdo da thread