X (Twitter)

Claude-Opus 4.5 foi lançado! Desta vez, o Opus-4.5 impulsionou o ranking de programação poliglota da Aider (que considero o benchmark de programação mais preciso na prática) para 89,4! Finalmente vai dar o salto! Deixe-me explicar por que o DeepSeek-R1 só conseguia responder a 56,9% das perguntas no início do ano, mas desta vez consegue responder a cerca de 90%. Então, qual é o custo? Claro, vai esvaziar suas carteiras. Este dispositivo custa um milhão de tokens e gera US$ 25... O teste do entregador baseado em silício que mostrei ontem custa basicamente 1 milhão de tokens por execução... isso dá incríveis US$ 170... É realmente inacessível... Além disso, todos os outros testes também são de última geração (SOTA). Trarei os resultados dos testes em vídeo mais tarde! Fiquem ligados!

Parâmetros de desempenho / 1

Parâmetros de desempenho / 2

Preços

Resumir

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread