X (Twitter)

Então, experimentei as sugestões de ontem no Opus 4.5 e no Codex 5.2. A seguir, minhas conclusões (incluindo comprovantes): 1. Meus comandos de ontem foram mal definidos. Eu estava impaciente, preguiçoso, grosseiro com o modelo e basicamente esperava que o Opus lesse minha mente. Não tenho nenhuma evidência de que o desempenho do modelo tenha piorado. 2. Depois de limpar pacientemente o prompt, ambos os modelos tiveram sucesso nesta tarefa (monstruosa). Eles acertaram os testes iniciais, levaram o mesmo tempo (~30 minutos / ~150 mil tokens) e, de alguma forma, fizeram perguntas de acompanhamento quase idênticas. (!) 3. O GPT 5.2 produziu um código melhor onde era mais importante. O Opus 4.5 cometeu erros nos cálculos do Índice de Bruijn, um erro lógico grave que precisou ser corrigido posteriormente. Além disso, duplicou uma função enorme sem motivo aparente. O GPT 5.2 corrigiu esses erros e foi mais cuidadoso com casos extremos que o Opus não conseguiu resolver. Vou compartilhar os registros nos comentários, incluindo: - a solicitação inicial - o bate-papo completo - os resultados finais Pode ser útil estudar como elaborei essa instrução, pois foi uma tarefa extremamente complexa que (finalmente) foi implementada com sucesso pela IA. Tive que ser muito preciso em relação a certos detalhes que confundiram o Opus ontem, e agora vou documentá-los. A lição é: IAs são uma ótima ferramenta, mas ainda são limitadas por *você*. Se suas instruções forem ruins, elas FALHARÃO. Por fim, preciso ser honesto: se eu tivesse programado isso manualmente, teria levado algumas horas, não dois dias. A IA, desta vez, foi um prejuízo líquido. Além disso: vocês estão dando muita importância às minhas palavras, e sinto que minhas postagens causaram problemas desnecessários. Por favor, não façam isso.

Registros e resultados dgist.github.com/VictorTaelin/7…VvtOkovKTY

Thread de Taelin (@VictorTaelin)

Informações do autor

Conteúdo da thread