X (Twitter)

Minhas anotações sobre Gemini 3 # Versão curta: Primeiramente: vocês já viram os benchmarks, então acho que não preciso opinar sobre este modelo. Mesmo assim, com base nos meus testes, ele é extremamente realista e quero falar sobre isso. Este modelo supera o GPT-5 Pro, o Gemini 2.5 Deep Think e todos os outros, de longe, nos meus problemas mais difíceis. É o novo SOTA em: → Depuração de bugs complexos do compilador → Refatoração de arquivos sem erros lógicos → resolvendo problemas difíceis de cálculo lambda → Arte ASCII (já está quase decente!) → Competitivo Gen 3 OU (não vou dar mais detalhes 😭) Ainda assim, trata-se de um algoritmo de aprendizado de máquina de baixo nível (LLM). Apresenta modos de falha semelhantes e, em alguns cenários, é pior que o Sonnet/GPT-5. Parece ser muito ruim em: → inferir intenção → não exagerar → codificação de vibe de dose única → escrita criativa → perguntas sobre saúde Além disso, suspeito que este ponto de verificação não seja o melhor que o Google tem a oferecer. Agora, vamos a uma visão geral completa do Gemini 3, digitada manualmente. --- # Versão Longa 1. Teste de Vibração: Programação de Cálculo λ Gosto deste teste de avaliação porque é à prova de trapaças: assim que um modelo resolve meu problema mais difícil, eu simplesmente crio um mais difícil, alterando um pouco o objetivo. Histórico atual: → n-tuple-map: resolvido pelo Grok 3 (fev. 2025) → n-tupla-fold: resolvido pelo GPT-5 (agosto de 2025) → n-tuple-rotl: resolvido pelo Gemini 3 (hoje!) Implementar o rotl é impressionante, porque: → nenhum outro modelo chega perto de resolvê-lo → A solução da Gemini é 2 vezes mais simples que a minha. → O Gemini 3 resolveu o problema 5 vezes mais rápido do que eu. Na verdade, sua solução é tão curta que cabe em uma única linha: λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) Bonito, não é? Essa função minúscula é um rotador genérico para tuplas codificadas em λ. Para efeito de comparação, todos os outros modelos criam um termo 5 vezes maior... isso não funciona. Nada mais cria algo parecido. Essa resposta me deixou boquiaberto. Vou publicar um Gist com o prompt e uma solução executável. 2. Depuração no Mundo Real Algumas semanas atrás, eu estava preso em um bug difícil do HVM4. Postei sobre isso aqui, lamentando que nenhuma IA conseguisse resolvê-lo. Bem, acontece que uma IA conseguiu. Alguém conseguiu executar meu prompt em um checkpoint antigo via LMSys, e identificou o problema: um estouro de pilha em uma otimização específica. A solução foi simples: substituir `WNF_SPOS < 0` por `WNF_SPOS < spos`. Essa foi a primeira vez que uma IA resolveu um problema real antes que eu mesmo conseguisse resolvê-lo, e isso me permitiu passar para a próxima etapa, resultando em um grande progresso. Testei o Gemini 3 em vários prompts de depuração antigos e ele resolveu metade deles. Bugs que me tomavam horas agora são resolvidos por um computador em um minuto! Agora, infelizmente: enviei o problema de estouro de pilha para o modelo Gemini 3 lançado hoje, e ele não conseguiu identificar a causa. Então, ou este modelo não é a variante mais inteligente do Google, ou eu tive muita sorte naquele dia. ): 3. Codificação/Refatoração no Mundo Real Este modelo é excelente para escrever arquivos grandes sem erros. Por exemplo, pedi a algumas IAs que reescrevessem o HVM4.hs com algumas alterações essenciais. Em seguida, inspecionei as funções mais complexas. Como era de se esperar, todos os modelos falharam em detalhes importantes que levaram a bugs graves — exceto o Gemini 3, que acertou em cheio. Isso é particularmente encorajador para mim, visto que os modelos apresentavam dificuldades com restrições específicas, como a linearidade, o que os tornava inutilizáveis para funções essenciais do HVM. O Gemini 3 parece extremamente competente nisso. (Código na imagem abaixo.) 4. Problemas e Peculiaridades Pedi ao Gemini 3 para analisar um aplicativo web em um único teste, e o resultado foi ruim. O GPT-5.1 (nível alto) me entregou um arquivo completo, com tudo o que eu pedi e sem nenhum bug. O Gemini 3 me entregou um arquivo três vezes menor, com várias funcionalidades faltando e muitos bugs. Não consegui fazer com que o Gemini 3 analisasse um arquivo em um único teste com a mesma qualidade do GPT-5.1. Eu também enviei meu teste pré-meningite e ele descartou completamente a meningite (💀). Não sei se confiaria nele para problemas de saúde. Pedi para escrever uma história, e ficou ruim. Sem desculpas. Frequentemente, ele exagera e grava arquivos inteiros em vez de apenas corrigir as falhas. Parece mais lento até do que o GPT-5 (nível alto) no Gemini CLI, embora seja muito mais rápido quando chamado diretamente? Por fim, e curiosamente, ele tem dificuldades em gerar código incorreto quando o contexto exige. Por exemplo, se o seu tipo possui uma instância genérica de "Show" e você pede para ele criar uma personalizada, ele frequentemente terá dificuldades, porque isso tecnicamente seria um erro. Ele não consegue entender que você simplesmente removeria a antiga depois! 5. Conclusão Chega de digitar, tchau.

O problema n-tuple-rotl: gist.github.com/VictorTaelin/1… O bug do HVM4 de algumas semanas atgist.github.com/VictorTaelin/a…lZ264VI A resposta correta é: - Problema: `subfluxo de pilha` - solução: `WNF_SPOS > spos` O problema foi resolvido pelo lithiumflow, mas não pelo Gemini 3 :( Existe algum modelo público que possa resolver isso?

Obviamente, este é o primeiro dia, então leve isso em consideração com cautela, principalmente nas partes que testei menos. Dizem que é ótimo para escrita criativa e também para a saúde. Será? Mas os problemas com inferência de intenção são 100% reais!

Thread de Taelin (@VictorTaelin)

Informações do autor

Conteúdo da thread