O Claude Opus 4.5 foi lançado. Embora suas capacidades de engenharia de software sejam de fato as mais robustas e tenha sido o primeiro a alcançar mais de 80 pontos em avaliações, a imagem oficial da Anthropic ainda é bastante controversa. É compreensível que o intervalo de 0 a 70 tenha sido intencionalmente dobrado para destacar as diferenças nos dados principais; você pode até ver os marcadores de dobra se olhar com atenção. No entanto, da perspectiva da objetividade da visualização de dados, essa ainda é uma prática indesejável. Mesmo quando avaliada usando o próprio Sonnet 4.5, os problemas são bastante óbvios.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

