X (Twitter)

O Claude Opus 4.5 foi lançado. Embora suas capacidades de engenharia de software sejam de fato as mais robustas e tenha sido o primeiro a alcançar mais de 80 pontos em avaliações, a imagem oficial da Anthropic ainda é bastante controversa. É compreensível que o intervalo de 0 a 70 tenha sido intencionalmente dobrado para destacar as diferenças nos dados principais; você pode até ver os marcadores de dobra se olhar com atenção. No entanto, da perspectiva da objetividade da visualização de dados, essa ainda é uma prática indesejável. Mesmo quando avaliada usando o próprio Sonnet 4.5, os problemas são bastante óbvios.

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread