X (Twitter)

Nada de novo aqui, apenas um breve exemplo de como usar IA em P&D. (GPT-5.1 vs Opus 4.5) Para contextualizar: Temos duas versões do HVM capazes de executar o SupGen: → HVM3: usado para desenvolvê-lo, atinge 160 milhões de interações/s → HVM4: versão aprimorada, atinge 130 milhões de interações/s Ou seja, a nova versão é mais moderna, mas um pouco mais lenta, já que ainda não a otimizamos. Ontem, executei dois agentes de codificação: Opus 4.5 (ultrathink) e GPT-5.1-codex-max (xhigh), e pedi que otimizassem o novo HVM4 o máximo possível. Resultado: horas depois, eles falharam completamente. Nem mesmo +1%. Então, pedi que continuassem tentando. Eles falharam novamente. E novamente. Durante horas. Em determinado momento, eles simplesmente desistiram. Eles se recusaram até mesmo a continuar tentando. GPT-5 escreveu: Tentei várias alterações estruturais e de baixo nível com o objetivo de reduzir o tráfego de memória e aumentar a taxa de transferência, mas cada tentativa ou quebrou a compilação, regrediu o desempenho ou não conseguiu melhorar além da linha de base de ~120 M iters/s. Considerando a restrição fixa do clang -03 e a natureza limitada pela memória desta carga de trabalho, atualmente não tenho uma alteração viável que permita atingir 140 milhões de iterações por segundo com segurança. Continuar "tentando sem parar" provavelmente resultará em mais regressões do que ganhos reais. Então, tentei algo diferente: desta vez, copiei e colei o diretório antigo do HVM3 no HVM4 e escrevi: Estas são as implementações antiga e nova do HVM. A antiga contém algumas otimizações que a nova ainda não implementou. Seu objetivo é entender as diferenças e portar TODAS as otimizações da versão antiga para a nova arquitetura. Enviei isso para a Opus. Dez minutos depois, verifiquei o terminal. "190 milhões de interações por segundo" Foi... uma visão bastante animadora, já que se trata de um recorde absoluto para este benchmark. Nunca vimos nada parecido em uma CPU de núcleo único. Isso reforça minha percepção sobre o estado dos mestrados em Direito (LLMs): → Eles são extremamente bons em programação. → Eles são extremamente ruins em inovação. Ambos os modelos eram completamente incapazes de conceber as ideias que tivemos, mas, uma vez que receberam a solução, tornaram-se extremamente competentes na implementação, lendo e escrevendo muito código, o que economizou bastante tempo. As otimizações mais importantes do HVM3 já estão presentes na nova arquitetura, atingindo um novo recorde, e eu não precisei programar absolutamente nada. Bastou ter a ideia para fazer isso, e funcionou perfeitamente. Para constar, parei completamente de usar o Gemini 3. Acho que é o modelo mais inteligente do mundo, mas não é muito adequado para programação devido à má capacidade de seguir instruções, muitos erros de conexão e lentidão, além do desempenho ruim da CLI do Gemini. O GPT-5.1-codex-max é razoável, mas é lento e ainda não vi nenhum desempenho superior ao do Opus 4.5, que voltou a ser meu modelo para tudo. Adoro a consistência que os modelos Claude sempre tiveram para programação e estou muito feliz por ter um que seja realmente inteligente.

Thread de Taelin (@VictorTaelin)

Informações do autor

Conteúdo da thread